Estudo da estrutura das variáveis [str(data.frame)], um histograma e uma análise descritiva [média, mediana] em uma variável quantitativa da base de dados chamada “house-selling-price.csv”.

Importando dados do csv

library(readr)
Casa <- read_csv("C:/Users/patri/OneDrive/Documentos/Estatistica/Base_de_dados-master/house-selling-price.csv")
head(Casa)
# A tibble: 6 x 7
   case Taxes  Beds Baths   New  Price  Size
  <dbl> <dbl> <dbl> <dbl> <dbl>  <dbl> <dbl>
1     1  3104     4     2     0 279900  2048
2     2  1173     2     1     0 146500   912
3     3  3076     4     2     0 237700  1654
4     4  1608     3     2     0 200000  2068
5     5  1454     3     3     0 159900  1477
6     6  2997     3     2     1 499900  3153

Verificando a estrutura dos dados

str(Casa)
spec_tbl_df [100 x 7] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
 $ case : num [1:100] 1 2 3 4 5 6 7 8 9 10 ...
 $ Taxes: num [1:100] 3104 1173 3076 1608 1454 ...
 $ Beds : num [1:100] 4 2 4 3 3 3 3 3 5 3 ...
 $ Baths: num [1:100] 2 1 2 2 3 2 2 2 4 2 ...
 $ New  : num [1:100] 0 0 0 0 0 1 0 1 0 0 ...
 $ Price: num [1:100] 279900 146500 237700 200000 159900 ...
 $ Size : num [1:100] 2048 912 1654 2068 1477 ...
 - attr(*, "spec")=
  .. cols(
  ..   case = col_double(),
  ..   Taxes = col_double(),
  ..   Beds = col_double(),
  ..   Baths = col_double(),
  ..   New = col_double(),
  ..   Price = col_double(),
  ..   Size = col_double()
  .. )
 - attr(*, "problems")=<externalptr> 

Limpeza de dados

Transformação de quantitativo para qualitativo

Casa$New <- ifelse(Casa$New==0,"Usada","1ªlocação")
class(Casa$New)
[1] "character"

Média dos valores e tamanhos das casas

#names(Casa)

mean(Casa$Taxes)
[1] 1908.39

Média dos valores praticados no mercado.

mean(Casa$Size)
[1] 1629.28

Média do tamanho dos imóveis.

Mediana dos valores e tamanhos das casas

median(Casa$Taxes)
[1] 1614

Mediana do tamanho dos imóveis.

median(Casa$Size)
[1] 1473.5

Mediana do tamanho dos imóveis.

Histograma dos valores e tamanho das casas

#hist(Casa$Taxes,col="red")
#hist(Casa$Taxes,col= #c("#d62ba0","#d62ba0","#1dc7de","#1dc7de","#1dc7de","#1dc7de","#1dc7de"))

#hist(Casa$Taxes,main = "Gráfico 1 - histograma valores das casas", 
#     xlab ="Valores das casas", ylab ="Demanda", 
#     col= c("#d62ba0","#d62ba0","#1dc7de","#1dc7de","#1dc7de","#1dc7de","#1dc7#de"))

#(Casa$Taxes,main = "Gráfico 1 - histograma valores das casas", 
#     xlab ="Valores das casas", ylab ="Demanda", 
#     col= c("#d62ba0","#d62ba0","#1dc7de","#1dc7de","#1dc7de","#1dc7de","#1dc7#de"),ylim = c(0,50))

#hist(Casa$Size, main = "Gráfico 2 - histograma tamanho das casas",
#     xlab = "Tamanhos das casas", ylab = "Demanda",
#     col = c("#7c1ab0", #"#7c1ab0","#d62ba0","#d62ba0","#d62ba0","#d62ba0","#d62ba0","#d62ba0"),xlim = #c(0,5000),ylim = c(0,50))


par(mfrow=c(2,1))

hist(Casa$Taxes,main = "Gráfico 1 - histograma valores das casas", 
     xlab ="Valores das casas", ylab ="Demanda", 
     col= c("#d62ba0","#d62ba0","#1dc7de","#1dc7de","#1dc7de","#1dc7de","#1dc7de"),ylim = c(0,50))

hist(Casa$Size, main = "Gráfico 2 - histograma tamanho das casas",
     xlab = "Tamanhos das casas", ylab = "Demanda",
     col = c("#7c1ab0", "#7c1ab0","#d62ba0","#d62ba0","#d62ba0","#d62ba0","#d62ba0","#d62ba0"),xlim = c(0,5000),ylim = c(0,50))

O gráfico 1 e o gráfico 2 possuem uma característica similar, assimétrica do tipo One Mode. Crescente inicialmente e depois com uma queda acentuada.

Observa-se a relação entre tamanho e valores dos imóveis e a disponibilidade no mercado imobiliário. Quanto maiores as casas, mais caras e menor demanda.

Considerações

No exércício da aula 3, foi possivel realizar o resumo da variável quantitativa em: média e mediana, neste contexto, a média e a mediana apresentadas, auxiliam as ponderações na análise da relação dos valores das casas e seus tamanhos.

Através do histograma podemos verificar um Gráfico de distribuição de freqüências para variáveis quantitativas.