Precificação de Imóveis - Melbourne Austrália

Thiago Marques

28/07/2021

Carregando bibliotecas

Importando o banco de dados

Verificando missing, separando em treino e teste e transformando variáveis

# Análise Descritiva da Base de dados

Média de preços por número de andares da casa

Média de preços por nível de conservação da casa

Gráfico de dispersão do número de m^2 do espaço interior da casa pelo preço do imóvel

Gráfico de dispersão do número de m^2 do espaço interior da casa pelo preço do imóvel por quartos na cor

Histograma do preço do imóvel ($)

Histograma do log do preço do imóvel ($)

Boxplot preço vs espaço interior da casa m^2 por nível de conservação

## Boxplot do preço por número de andares da casa

## Total de casas vendidas de 1900 a 2015 nos EUA

Matriz de correlações

Modelagem Estatística

## 
## Call:
## lm(formula = log(price) ~ sqft_living15 + lat + sqft_above + 
##     sqft_basement + waterfront_fator + condition_fator + floors_fator + 
##     long + sqft_lot + sqft_lot15, data = treino)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -2.19397 -0.18495 -0.00327  0.18125  1.24458 
## 
## Coefficients:
##                           Estimate       Std. Error t value
## (Intercept)       -101.61684789834    2.30379720143 -44.108
## sqft_living15        0.00020332199    0.00000533517  38.110
## lat                  1.50655151840    0.01670895070  90.164
## sqft_above           0.00025402159    0.00000485175  52.357
## sqft_basement        0.00026499747    0.00000575005  46.086
## waterfront_fator1    0.62784661400    0.02724888118  23.041
## condition_fator2     0.05785165341    0.06849339746   0.845
## condition_fator3     0.24132557618    0.06382440110   3.781
## condition_fator4     0.32620632670    0.06388205854   5.106
## condition_fator5     0.40699418167    0.06426386093   6.333
## floors_fator1.5      0.11163289453    0.00840136199  13.287
## floors_fator2        0.09349559918    0.00647811027  14.433
## floors_fator2.5      0.27786809194    0.02604243710  10.670
## floors_fator3        0.16881553971    0.01441232612  11.713
## floors_fator3.5      0.20602920353    0.14253987913   1.445
## long                -0.34155451483    0.01829378042 -18.671
## sqft_lot             0.00000068783    0.00000007711   8.920
## sqft_lot15          -0.00000055383    0.00000012000  -4.615
##                               Pr(>|t|)    
## (Intercept)       < 0.0000000000000002 ***
## sqft_living15     < 0.0000000000000002 ***
## lat               < 0.0000000000000002 ***
## sqft_above        < 0.0000000000000002 ***
## sqft_basement     < 0.0000000000000002 ***
## waterfront_fator1 < 0.0000000000000002 ***
## condition_fator2              0.398329    
## condition_fator3              0.000157 ***
## condition_fator4        0.000000332107 ***
## condition_fator5        0.000000000247 ***
## floors_fator1.5   < 0.0000000000000002 ***
## floors_fator2     < 0.0000000000000002 ***
## floors_fator2.5   < 0.0000000000000002 ***
## floors_fator3     < 0.0000000000000002 ***
## floors_fator3.5               0.148361    
## long              < 0.0000000000000002 ***
## sqft_lot          < 0.0000000000000002 ***
## sqft_lot15              0.000003956865 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.2847 on 16192 degrees of freedom
## Multiple R-squared:  0.7052, Adjusted R-squared:  0.7049 
## F-statistic:  2278 on 17 and 16192 DF,  p-value: < 0.00000000000000022

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo_Stepwise2
## BP = 968.99, df = 17, p-value < 0.00000000000000022
## 
## Call:
## lm(formula = price ~ sqft_living + lat + sqft_living15 + waterfront_fator + 
##     condition_fator + floors_fator + long + sqft_lot + log(sqft_lot15), 
##     data = treino)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1081255  -115147   -13566    84083  4450680 
## 
## Coefficients:
##                          Estimate      Std. Error t value             Pr(>|t|)
## (Intercept)       -63642836.01861   1794877.02589 -35.458 < 0.0000000000000002
## sqft_living             216.20252         3.03541  71.227 < 0.0000000000000002
## lat                  651352.03782     12795.37146  50.905 < 0.0000000000000002
## sqft_living15           114.80342         4.10465  27.969 < 0.0000000000000002
## waterfront_fator1    803188.82034     20895.69323  38.438 < 0.0000000000000002
## condition_fator2     -12030.62383     52357.27521  -0.230              0.81827
## condition_fator3     -24857.01072     48784.86187  -0.510              0.61039
## condition_fator4      25218.46817     48827.68883   0.516              0.60553
## condition_fator5      75425.40253     49115.01976   1.536              0.12463
## floors_fator1.5       28126.02577      6321.00876   4.450           0.00000866
## floors_fator2         -8887.10801      4613.12563  -1.926              0.05406
## floors_fator2.5      232995.86089     19809.01799  11.762 < 0.0000000000000002
## floors_fator3         32413.51157     11381.55646   2.848              0.00441
## floors_fator3.5      335287.54197    109007.29116   3.076              0.00210
## long                -268704.84076     14153.30213 -18.985 < 0.0000000000000002
## sqft_lot                  0.42042         0.04944   8.503 < 0.0000000000000002
## log(sqft_lot15)      -36088.89011      3154.58875 -11.440 < 0.0000000000000002
##                      
## (Intercept)       ***
## sqft_living       ***
## lat               ***
## sqft_living15     ***
## waterfront_fator1 ***
## condition_fator2     
## condition_fator3     
## condition_fator4     
## condition_fator5     
## floors_fator1.5   ***
## floors_fator2     .  
## floors_fator2.5   ***
## floors_fator3     ** 
## floors_fator3.5   ** 
## long              ***
## sqft_lot          ***
## log(sqft_lot15)   ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 217600 on 16193 degrees of freedom
## Multiple R-squared:  0.6348, Adjusted R-squared:  0.6344 
## F-statistic:  1759 on 16 and 16193 DF,  p-value: < 0.00000000000000022

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo_Stepwise2_semtransform
## BP = 2039.9, df = 16, p-value < 0.00000000000000022
##               modelo_transformaçãoboxcox modelo_sem_transformaçãoboxcox
## r.squared                      0.7051669                      0.6347740
## adj.r.squared                  0.7048573                      0.6344131
## sigma                          0.2846991                 217630.0050467
## statistic                   2278.0708917                   1758.9954832
## p.value                        0.0000000                      0.0000000
## df                            17.0000000                     16.0000000
## logLik                     -2627.0020410                -222222.3318196
## AIC                         5292.0040821                 444480.6636391
## BIC                         5438.1783708                 444619.1445442
## deviance                    1312.4195708        766946129631501.6250000
## df.residual                16192.0000000                  16193.0000000
## nobs                       16210.0000000                  16210.0000000

# Clusterização - Criando contextos não observáveis

Comparacao visual da performance dos três modelos

Comparacao visual das retas ajustadas dos três modelos

# Modelo Multinível final ajustado com o contexto não observável criado