Base de datos de la vivienda

La base de datos Vivienda cuenta con registros de 8.322 viviendas e información de sus características como el área construida, la zona en la que se ubica, entre otras. Para llevar a cabo las estadísticas descriptivas y ajustar un modelo, usaremos las variables precio de la vivienda, área construida y tipo. Destacamos que la última variable es categórica.

## # A tibble: 8,319 x 12
##    Zona       piso  Estrato precio_millon Area_contruida parqueaderos Banos
##    <chr>      <chr>   <dbl>         <dbl>          <dbl> <chr>        <dbl>
##  1 Zona Sur   2           6           880          237   2                5
##  2 Zona Oeste 2           4          1200          800   3                6
##  3 Zona Sur   3           5           250           86   NA               2
##  4 Zona Sur   NA          6          1280          346   4                6
##  5 Zona Sur   2           6          1300          600   4                7
##  6 Zona Sur   3           6           513          160   2                4
##  7 Zona Sur   2           6           870          490   3                6
##  8 Zona Sur   5           5           310           82.5 1                2
##  9 Zona Sur   9           4           240           80   1                2
## 10 Zona Sur   6           6           690          150   2                5
## # ... with 8,309 more rows, and 5 more variables: Habitaciones <dbl>,
## #   Tipo <chr>, Barrio <chr>, cordenada_longitud <dbl>, Cordenada_latitud <dbl>

1. Análisis exploratorio de las variables precio de vivienda, área de la vivienda y tipo de vivienda.

En los datos, la vivienda más económica tiene un valor de 58 millones, el precio de la vivienda más costosa es de 1999 millones y el costo promedio de las viviendas es de 433.9 millones. Por otro lado, el área promedio de las viviendas es de 174.9 \(m^2\), el valor máximo de esta variable es 1745 y el mínimo 30. Para la variable área, podemos observar a través del gráfico anterior que el área de la vivienda es mayor cuando esta es de tipo apartamento. El área promedio de las viviendas es de 174.9349\(m^2\).

Se podría pensar que, si la vivienda es de tipo Casa, por lo general la área construida será mayor que la de un apartamento y por ende aumenta su precio, para ver gráficamente cómo se comportan estas variables usaremos la figura que sigue donde comparamos el precio según el tipo y el área construida, observando que a medida que el área construida aumenta, aumenta también el precio de la vivienda. Además, notamos que el precio y el área construida de los apartamentos toman valores menores a 2000 millones y 500, respectivamente, sólo unos pocos tienen un área mayor a 500.

2. Modelo de regresión multple con las variables precio de la vivienda, área construida y tipo.

Se presenta la estimación de un modelo de regresión multiple cuya variable dependiente será el precio de la vivienda (millón) y las variables independiente serán área construida y tipo de vivienda (\(m^2\)).

mr<-lm(precio_millon~Area_contruida + Tipo, data= Datos_Vivienda)
summary(mr)
## 
## Call:
## lm(formula = precio_millon ~ Area_contruida + Tipo, data = Datos_Vivienda)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -2926.71  -122.58   -49.12    71.12  1276.36 
## 
## Coefficients:
##                  Estimate Std. Error t value Pr(>|t|)    
## (Intercept)     164.48412    4.07369   40.38   <2e-16 ***
## Area_contruida    1.79514    0.02145   83.69   <2e-16 ***
## TipoCasa       -115.29391    6.29551  -18.31   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 234.1 on 8316 degrees of freedom
## Multiple R-squared:  0.4929, Adjusted R-squared:  0.4928 
## F-statistic:  4042 on 2 and 8316 DF,  p-value: < 2.2e-16

Recordemos que el valor del intercepto se obtiene cuando las variables independiente (en este caso área construida y tipo) toma el valor de cero y que para que su interpretación sea válida área construida debe contener en su rango el cero. En la base de datos, no se encuentra ninguna vivienda cuya área construida es cero, por lo tanto la estimación \(\hat\beta_0\)= 164.48412 podemos entenderla únicamente como una constante útil para el ajuste del modelo.

De las pruebas individuales t, podemos concluir que área construida y tipo tienen un aporte significativo para el modelo (los valores p asociados son apróximadamente cero lo que nos lleva a rechazar la afirmación en la que se planteaba que las variables no contribuyen al modelo significativamente). Se obtuvo que el coeficiente de determinación \(R^2\)=0.4929, así que puede afirmarse que el 49.29 % de la variabilidad de los precios de las viviendas es explicada por las variables área construida y tipo. De acuerdo con el modelo, se puede concluir que el precio del lote cuando no hay nada construido es $164.48412 , en este contexto no tendria mucho sentido. Adicionalmente, podemos observar que por cada metro cuadrado construido el precio de la vivienda aumenta en $1.795.140.

3. Validación de supuestos

Procedemos a hacer la verificación de los supuestos ya que el no cumplimiento de ellos repercute negativamente en la utilidad del modelo al momento de hacer estimaciones y pérdida de propiedades importantes.

Supuesto de independencia

Para validar el supuesto de que los residuos no están correlacionados hacemos uso del test de Durbin-Watson cuyas hipótesis son: \(H_o\): No existe correlación entre los residuos \(H_1\): Los residuos están autocorrelacionados

## Loading required package: carData
##  lag Autocorrelation D-W Statistic p-value
##    1       0.2347532      1.530081       0
##  Alternative hypothesis: rho != 0

Se obtuvo un estadístico de prueba DW= 1.530081 cuyo valor asociado es cero. Por lo tanto, rechazamos la hipótesis nula y concluimos que hay evidencia suficiente para afirmar que hay presencia de autocorrelación. Por lo tanto, los estimadores mínimos cuadrados ordinarios no tienen la condición de optimalidad.

Supuesto de varianza constante

La validación gráfica del supuesto de homocedasticidad se hace usando el siguiente gráfico, que ubica los residuos ajustados contra los estudentizados, en el que nos interesa identificar si existe alguna tendencia entre los puntos.

En el gráfico de los residuos estudentizados contra los valores ajustados, los residuos parecen tener una tendencia decreciente, por lo que se podría considerar que los errores no tienen varianza constante. Para verificar lo anterior, usaremos la prueba de Breusch-Pagan, donde el valor p obtenido es aproximadamente 0, que es menor al nivel de significa = 0.05, por lo tanto hay evidencia suficiente para decir que no se cumple la homocedasticidad en los errores.

## 
##  studentized Breusch-Pagan test
## 
## data:  mr
## BP = 1922.7, df = 2, p-value < 2.2e-16

Supuesto de normalidad

Usamos el gráfico cuantil-cuantil en el que esperamos observar que los puntos sigan aproximadamente una línea recta, si es el caso, concluimos que los errores del modelo siguen una distribución Normal.

## [1] 1017 3324

Aquí vemos que para los datos normales, los cuantiles muestrales y teóricos no siguen aproximadamente la línea recta de referencia y la mayoría de estos puntos se encuentran por fuera de la zona de confianza, por lo tanto los datos no presentan un comportamiento normal.

Dado que ninguno de los supuestos del modelo se cumple y al esto generar problemas en las estimaciones de este, le haremos una transformación y posteriormente verificaremos si el modelo mejoro.

4. Transformación del modelo

Ya que al analizar los residuos del modelo para los datos de vivienda, mostró que hay problemas de heterocedasticidad y normalidad, vamos a encontrar una transformación que resuelva el problema usando el método de Box-Cox.

l<-boxcox.rm$x[boxcox.rm$y ==max(boxcox.rm$y)]
l
## [1] 0.03303303

Estos resultados arrojan que \(\lambda\)=0.03303303, por lo tanto podemos realizar la siguiente transformación al modelo:

rm2<-lm(log(precio_millon)~Area_contruida + Tipo, data= Datos_Vivienda)
summary(rm2)
## 
## Call:
## lm(formula = log(precio_millon) ~ Area_contruida + Tipo, data = Datos_Vivienda)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -5.5236 -0.3299 -0.0051  0.3256  1.4180 
## 
## Coefficients:
##                  Estimate Std. Error t value Pr(>|t|)    
## (Intercept)     5.294e+00  8.572e-03 617.629   <2e-16 ***
## Area_contruida  3.372e-03  4.513e-05  74.705   <2e-16 ***
## TipoCasa       -1.131e-01  1.325e-02  -8.536   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.4925 on 8316 degrees of freedom
## Multiple R-squared:  0.4597, Adjusted R-squared:  0.4595 
## F-statistic:  3537 on 2 and 8316 DF,  p-value: < 2.2e-16

Procedemos a realizar el análisis de los residuos del modelo transformado:

## [1] 1017 3324
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  rm2$residuals
## D = 0.019547, p-value = 0.003468
## alternative hypothesis: two-sided

Tenemos que al realizar la transformación de box cox al modelo, en el gráfico de los residuos estudentizados contra los valores ajustados, continúa una tendencia en los residuos decreciente, es decir que aún hay heteroscedasticidad, además través de la prueba de normalidad de Kolmogorov-Smirnov, pudimos encontrar que la no normalidad tampoco se corrigió, ya que el valor p asociado a dicha prueba es menor al nivel de significancia 0.05.

5. Conclusiones

En el modelo inicial, donde tenemos como variables explicativa área construida y tipo, obtuvimos un \(R^2\) demasiado bajo (49,29%), pese a que estas variable son significativas en el modelo, no tienen una buena proporción en la variabilidad explicada del modelo de regresion. Además comprobando los supuesto, hallamos que estos no se cumplen (incluso haciendo la transformación pertiente), por lo que usar este modelo para estimar el precio de una vivienda sería impreciso.