Carregando bibliotecas
Importando o banco de dados
Verificando missing, separando em treino e teste e transformando variáveis
# Análise Descritiva da Base de dados
Média de preços por número de andares da casa
Média de preços por nível de conservação da casa
Gráfico de dispersão do número de m^2 do espaço interior da casa pelo preço do imóvel
Gráfico de dispersão do número de m^2 do espaço interior da casa pelo preço do imóvel por quartos na cor
Histograma do preço do imóvel ($)
Histograma do log do preço do imóvel ($)
Boxplot preço vs espaço interior da casa m^2 por nível de conservação
## Boxplot do preço por número de andares da casa
## Total de casas vendidas de 1900 a 2015 nos EUA
Matriz de correlações
Modelagem Estatística
##
## Call:
## lm(formula = log(price) ~ sqft_living15 + lat + sqft_above +
## sqft_basement + waterfront_fator + condition_fator + floors_fator +
## long + sqft_lot + sqft_lot15, data = treino)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.19397 -0.18495 -0.00327 0.18125 1.24458
##
## Coefficients:
## Estimate Std. Error t value
## (Intercept) -101.61684789834 2.30379720143 -44.108
## sqft_living15 0.00020332199 0.00000533517 38.110
## lat 1.50655151840 0.01670895070 90.164
## sqft_above 0.00025402159 0.00000485175 52.357
## sqft_basement 0.00026499747 0.00000575005 46.086
## waterfront_fator1 0.62784661400 0.02724888118 23.041
## condition_fator2 0.05785165341 0.06849339746 0.845
## condition_fator3 0.24132557618 0.06382440110 3.781
## condition_fator4 0.32620632670 0.06388205854 5.106
## condition_fator5 0.40699418167 0.06426386093 6.333
## floors_fator1.5 0.11163289453 0.00840136199 13.287
## floors_fator2 0.09349559918 0.00647811027 14.433
## floors_fator2.5 0.27786809194 0.02604243710 10.670
## floors_fator3 0.16881553971 0.01441232612 11.713
## floors_fator3.5 0.20602920353 0.14253987913 1.445
## long -0.34155451483 0.01829378042 -18.671
## sqft_lot 0.00000068783 0.00000007711 8.920
## sqft_lot15 -0.00000055383 0.00000012000 -4.615
## Pr(>|t|)
## (Intercept) < 0.0000000000000002 ***
## sqft_living15 < 0.0000000000000002 ***
## lat < 0.0000000000000002 ***
## sqft_above < 0.0000000000000002 ***
## sqft_basement < 0.0000000000000002 ***
## waterfront_fator1 < 0.0000000000000002 ***
## condition_fator2 0.398329
## condition_fator3 0.000157 ***
## condition_fator4 0.000000332107 ***
## condition_fator5 0.000000000247 ***
## floors_fator1.5 < 0.0000000000000002 ***
## floors_fator2 < 0.0000000000000002 ***
## floors_fator2.5 < 0.0000000000000002 ***
## floors_fator3 < 0.0000000000000002 ***
## floors_fator3.5 0.148361
## long < 0.0000000000000002 ***
## sqft_lot < 0.0000000000000002 ***
## sqft_lot15 0.000003956865 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.2847 on 16192 degrees of freedom
## Multiple R-squared: 0.7052, Adjusted R-squared: 0.7049
## F-statistic: 2278 on 17 and 16192 DF, p-value: < 0.00000000000000022
##
## studentized Breusch-Pagan test
##
## data: modelo_Stepwise2
## BP = 968.99, df = 17, p-value < 0.00000000000000022
##
## Call:
## lm(formula = price ~ sqft_living + lat + sqft_living15 + waterfront_fator +
## condition_fator + floors_fator + long + sqft_lot + log(sqft_lot15),
## data = treino)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1081255 -115147 -13566 84083 4450680
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -63642836.01861 1794877.02589 -35.458 < 0.0000000000000002
## sqft_living 216.20252 3.03541 71.227 < 0.0000000000000002
## lat 651352.03782 12795.37146 50.905 < 0.0000000000000002
## sqft_living15 114.80342 4.10465 27.969 < 0.0000000000000002
## waterfront_fator1 803188.82034 20895.69323 38.438 < 0.0000000000000002
## condition_fator2 -12030.62383 52357.27521 -0.230 0.81827
## condition_fator3 -24857.01072 48784.86187 -0.510 0.61039
## condition_fator4 25218.46817 48827.68883 0.516 0.60553
## condition_fator5 75425.40253 49115.01976 1.536 0.12463
## floors_fator1.5 28126.02577 6321.00876 4.450 0.00000866
## floors_fator2 -8887.10801 4613.12563 -1.926 0.05406
## floors_fator2.5 232995.86089 19809.01799 11.762 < 0.0000000000000002
## floors_fator3 32413.51157 11381.55646 2.848 0.00441
## floors_fator3.5 335287.54197 109007.29116 3.076 0.00210
## long -268704.84076 14153.30213 -18.985 < 0.0000000000000002
## sqft_lot 0.42042 0.04944 8.503 < 0.0000000000000002
## log(sqft_lot15) -36088.89011 3154.58875 -11.440 < 0.0000000000000002
##
## (Intercept) ***
## sqft_living ***
## lat ***
## sqft_living15 ***
## waterfront_fator1 ***
## condition_fator2
## condition_fator3
## condition_fator4
## condition_fator5
## floors_fator1.5 ***
## floors_fator2 .
## floors_fator2.5 ***
## floors_fator3 **
## floors_fator3.5 **
## long ***
## sqft_lot ***
## log(sqft_lot15) ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 217600 on 16193 degrees of freedom
## Multiple R-squared: 0.6348, Adjusted R-squared: 0.6344
## F-statistic: 1759 on 16 and 16193 DF, p-value: < 0.00000000000000022
##
## studentized Breusch-Pagan test
##
## data: modelo_Stepwise2_semtransform
## BP = 2039.9, df = 16, p-value < 0.00000000000000022
## modelo_transformaçãoboxcox modelo_sem_transformaçãoboxcox
## r.squared 0.7051669 0.6347740
## adj.r.squared 0.7048573 0.6344131
## sigma 0.2846991 217630.0050467
## statistic 2278.0708917 1758.9954832
## p.value 0.0000000 0.0000000
## df 17.0000000 16.0000000
## logLik -2627.0020410 -222222.3318196
## AIC 5292.0040821 444480.6636391
## BIC 5438.1783708 444619.1445442
## deviance 1312.4195708 766946129631501.6250000
## df.residual 16192.0000000 16193.0000000
## nobs 16210.0000000 16210.0000000
# Clusterização - Criando contextos não observáveis
Comparacao visual da performance dos três modelos
Comparacao visual das retas ajustadas dos três modelos
# Modelo Multinível final ajustado com o contexto não observável criado