La base de datos Vivienda cuenta con registros de 8.322 viviendas e información de sus características como el área construida, la zona en la que se ubica, entre otras. Para llevar a cabo las estadísticas descriptivas y ajustar un modelo, usaremos las variables precio de la vivienda, área construida y tipo. Destacamos que la última variable es categórica.
## # A tibble: 8,319 x 12
## Zona piso Estrato precio_millon Area_contruida parqueaderos Banos
## <chr> <chr> <dbl> <dbl> <dbl> <chr> <dbl>
## 1 Zona Sur 2 6 880 237 2 5
## 2 Zona Oeste 2 4 1200 800 3 6
## 3 Zona Sur 3 5 250 86 NA 2
## 4 Zona Sur NA 6 1280 346 4 6
## 5 Zona Sur 2 6 1300 600 4 7
## 6 Zona Sur 3 6 513 160 2 4
## 7 Zona Sur 2 6 870 490 3 6
## 8 Zona Sur 5 5 310 82.5 1 2
## 9 Zona Sur 9 4 240 80 1 2
## 10 Zona Sur 6 6 690 150 2 5
## # ... with 8,309 more rows, and 5 more variables: Habitaciones <dbl>,
## # Tipo <chr>, Barrio <chr>, cordenada_longitud <dbl>, Cordenada_latitud <dbl>
En los datos, la vivienda más económica tiene un valor de 58 millones, el precio de la vivienda más costosa es de 1999 millones y el costo promedio de las viviendas es de 433.9 millones. Por otro lado, el área promedio de las viviendas es de 174.9 \(m^2\), el valor máximo de esta variable es 1745 y el mínimo 30. Para la variable área, podemos observar a través del gráfico anterior que el área de la vivienda es mayor cuando esta es de tipo apartamento. El área promedio de las viviendas es de 174.9349\(m^2\).
Se podría pensar que, si la vivienda es de tipo Casa, por lo general la área construida será mayor que la de un apartamento y por ende aumenta su precio, para ver gráficamente cómo se comportan estas variables usaremos la figura que sigue donde comparamos el precio según el tipo y el área construida, observando que a medida que el área construida aumenta, aumenta también el precio de la vivienda. Además, notamos que el precio y el área construida de los apartamentos toman valores menores a 2000 millones y 500, respectivamente, sólo unos pocos tienen un área mayor a 500.
Se presenta la estimación de un modelo de regresión multiple cuya variable dependiente será el precio de la vivienda (millón) y las variables independiente serán área construida y tipo de vivienda (\(m^2\)).
mr<-lm(precio_millon~Area_contruida + Tipo, data= Datos_Vivienda)
summary(mr)
##
## Call:
## lm(formula = precio_millon ~ Area_contruida + Tipo, data = Datos_Vivienda)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2926.71 -122.58 -49.12 71.12 1276.36
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 164.48412 4.07369 40.38 <2e-16 ***
## Area_contruida 1.79514 0.02145 83.69 <2e-16 ***
## TipoCasa -115.29391 6.29551 -18.31 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 234.1 on 8316 degrees of freedom
## Multiple R-squared: 0.4929, Adjusted R-squared: 0.4928
## F-statistic: 4042 on 2 and 8316 DF, p-value: < 2.2e-16
Recordemos que el valor del intercepto se obtiene cuando las variables independiente (en este caso área construida y tipo) toma el valor de cero y que para que su interpretación sea válida área construida debe contener en su rango el cero. En la base de datos, no se encuentra ninguna vivienda cuya área construida es cero, por lo tanto la estimación \(\hat\beta_0\)= 164.48412 podemos entenderla únicamente como una constante útil para el ajuste del modelo.
De las pruebas individuales t, podemos concluir que área construida y tipo tienen un aporte significativo para el modelo (los valores p asociados son apróximadamente cero lo que nos lleva a rechazar la afirmación en la que se planteaba que las variables no contribuyen al modelo significativamente). Se obtuvo que el coeficiente de determinación \(R^2\)=0.4929, así que puede afirmarse que el 49.29 % de la variabilidad de los precios de las viviendas es explicada por las variables área construida y tipo. De acuerdo con el modelo, se puede concluir que el precio del lote cuando no hay nada construido es $164.48412 , en este contexto no tendria mucho sentido. Adicionalmente, podemos observar que por cada metro cuadrado construido el precio de la vivienda aumenta en $1.795.140.
Procedemos a hacer la verificación de los supuestos ya que el no cumplimiento de ellos repercute negativamente en la utilidad del modelo al momento de hacer estimaciones y pérdida de propiedades importantes.
Para validar el supuesto de que los residuos no están correlacionados hacemos uso del test de Durbin-Watson cuyas hipótesis son: \(H_o\): No existe correlación entre los residuos \(H_1\): Los residuos están autocorrelacionados
## Loading required package: carData
## lag Autocorrelation D-W Statistic p-value
## 1 0.2347532 1.530081 0
## Alternative hypothesis: rho != 0
Se obtuvo un estadístico de prueba DW= 1.530081 cuyo valor asociado es cero. Por lo tanto, rechazamos la hipótesis nula y concluimos que hay evidencia suficiente para afirmar que hay presencia de autocorrelación. Por lo tanto, los estimadores mínimos cuadrados ordinarios no tienen la condición de optimalidad.
La validación gráfica del supuesto de homocedasticidad se hace usando el siguiente gráfico, que ubica los residuos ajustados contra los estudentizados, en el que nos interesa identificar si existe alguna tendencia entre los puntos.
En el gráfico de los residuos estudentizados contra los valores ajustados, los residuos parecen tener una tendencia decreciente, por lo que se podría considerar que los errores no tienen varianza constante. Para verificar lo anterior, usaremos la prueba de Breusch-Pagan, donde el valor p obtenido es aproximadamente 0, que es menor al nivel de significa = 0.05, por lo tanto hay evidencia suficiente para decir que no se cumple la homocedasticidad en los errores.
##
## studentized Breusch-Pagan test
##
## data: mr
## BP = 1922.7, df = 2, p-value < 2.2e-16
Usamos el gráfico cuantil-cuantil en el que esperamos observar que los puntos sigan aproximadamente una línea recta, si es el caso, concluimos que los errores del modelo siguen una distribución Normal.
## [1] 1017 3324
Aquí vemos que para los datos normales, los cuantiles muestrales y teóricos no siguen aproximadamente la línea recta de referencia y la mayoría de estos puntos se encuentran por fuera de la zona de confianza, por lo tanto los datos no presentan un comportamiento normal.
Dado que ninguno de los supuestos del modelo se cumple y al esto generar problemas en las estimaciones de este, le haremos una transformación y posteriormente verificaremos si el modelo mejoro.
Ya que al analizar los residuos del modelo para los datos de vivienda, mostró que hay problemas de heterocedasticidad y normalidad, vamos a encontrar una transformación que resuelva el problema usando el método de Box-Cox.
l<-boxcox.rm$x[boxcox.rm$y ==max(boxcox.rm$y)]
l
## [1] 0.03303303
Estos resultados arrojan que \(\lambda\)=0.03303303, por lo tanto podemos realizar la siguiente transformación al modelo:
rm2<-lm(log(precio_millon)~Area_contruida + Tipo, data= Datos_Vivienda)
summary(rm2)
##
## Call:
## lm(formula = log(precio_millon) ~ Area_contruida + Tipo, data = Datos_Vivienda)
##
## Residuals:
## Min 1Q Median 3Q Max
## -5.5236 -0.3299 -0.0051 0.3256 1.4180
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 5.294e+00 8.572e-03 617.629 <2e-16 ***
## Area_contruida 3.372e-03 4.513e-05 74.705 <2e-16 ***
## TipoCasa -1.131e-01 1.325e-02 -8.536 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.4925 on 8316 degrees of freedom
## Multiple R-squared: 0.4597, Adjusted R-squared: 0.4595
## F-statistic: 3537 on 2 and 8316 DF, p-value: < 2.2e-16
Procedemos a realizar el análisis de los residuos del modelo transformado:
## [1] 1017 3324
##
## One-sample Kolmogorov-Smirnov test
##
## data: rm2$residuals
## D = 0.019547, p-value = 0.003468
## alternative hypothesis: two-sided
Tenemos que al realizar la transformación de box cox al modelo, en el gráfico de los residuos estudentizados contra los valores ajustados, continúa una tendencia en los residuos decreciente, es decir que aún hay heteroscedasticidad, además través de la prueba de normalidad de Kolmogorov-Smirnov, pudimos encontrar que la no normalidad tampoco se corrigió, ya que el valor p asociado a dicha prueba es menor al nivel de significancia 0.05.
En el modelo inicial, donde tenemos como variables explicativa área construida y tipo, obtuvimos un \(R^2\) demasiado bajo (49,29%), pese a que estas variable son significativas en el modelo, no tienen una buena proporción en la variabilidad explicada del modelo de regresion. Además comprobando los supuesto, hallamos que estos no se cumplen (incluso haciendo la transformación pertiente), por lo que usar este modelo para estimar el precio de una vivienda sería impreciso.