Tratar de identificar los factores que determinan el precio de las viviendas es un asunto complejo, ya que en el mercado inmobiliario intervienen múltiples actores cuyas decisiones inciden tanto en los factores físicos como en los especulativos, repercutiendo finalmente en el valor de los inmuebles. (Trinh, 2022)
En este trabajo, se estudia cómo los atributos físicos influyen en el precio de la vivienda para familias nucleares de aproximadamente cuatro personas, tomando como referencia el conjunto de datos hprice1 de Wooldridge.
Dicha base contiene información sobre precios de vivienda y características estructurales de hogares ubicados en Boston hacia el año 1990, con un total de 88 observaciones y 10 variables recopiladas.
El objetivo del análisis es construir un modelo econométrico que permita estimar, a través de una función log-lineal, el efecto de variables físicas como el área construida, el tamaño del lote, el número de habitaciones y el estilo arquitectónico sobre el precio de las viviendas.
Este enfoque resulta especialmente útil para analizar el comportamiento de hogares familiares promedio, donde el tamaño del lote y las dimensiones internas guardan relación directa con la habitabilidad y la valoración del inmueble.
Para responder nuestra pregunta, construiremos un Modelo hedonista de regresión lineal, donde la variable dependiente y será el precio con una transformación lineal (lprice). Mientras que el área construida (sqrft), el tamaño total del lote en el que está la propiedad (lotsize), el número de habitaciones (bdrms) y si la vivienda tiene un estilo colonial o no (colonial), serán nuestras variables regresoras.
Las variables regresoras fueron seleccionadas de acuerdo a la pregunta que nos planteamos, ya que sqrft, lotsize, bdrms y colonial obedecen a atributos físicos de la vivienda que pueden determinar su precio.
Nuestro modelo se vería así:
\[lprice= \beta_0 + \beta_1 sqrft + \beta_2 lotsize + \beta_3 bdrms + \beta_4 colonial\]
A continuación, hacemos el cargue de la base de datos y los paquetes.
## [1] "hprice1"
Primero, Definiremos las variables del modelo Log-Lin:
## [1] "lprice"
## [1] "bdrms" "lotsize" "sqrft" "colonial"
donde lprice es la variable dependiente y la transformación logaritmica de los precios. Mientras que, Bdrms, lotsize, sqrft y colonial son las variables regresoras en valores lineales.
Vamos a preparar los datos iniciales
## # A tibble: 6 × 10
## price assess bdrms lotsize sqrft colonial lprice lassess llotsize lsqrft
## <dbl> <dbl> <int> <dbl> <int> <int> <dbl> <dbl> <dbl> <dbl>
## 1 300 349. 4 6126 2438 1 5.70 5.86 8.72 7.80
## 2 370 352. 3 9903 2076 1 5.91 5.86 9.20 7.64
## 3 191 218. 3 5200 1374 0 5.25 5.38 8.56 7.23
## 4 195 232. 3 4600 1448 1 5.27 5.45 8.43 7.28
## 5 373 319. 4 6095 2514 1 5.92 5.77 8.72 7.83
## 6 466. 414. 5 8566 2754 1 6.14 6.03 9.06 7.92
Filtramos la información y eliminamos las observaciones 24, 42, 63, 73, 76, 77, 81. Las observaciones 73 y 77 las eliminamos por tener un área total demasiado grande como para cuatro personas, 31000 y 92681 pies cuadrados respectivamente.
Las observaciones 42 y 76 son eliminadas porque el precio es demasiado alto y sugiere que dicho valor no está directamente explicado por factores físicos presentes en h1price, sino por factores de ubicación y acceso a servicios.
Las observaciones 24 y 81 son omitidas por tener un precio bajo y un área baja. En teoría, por área, no serían suficiente para una acomodación comoda para cuatro personas. Mientras que por precio, parece ser que se asocia más con factores de locación que factores físicos de propiedad.
La observación 63 es dejada de lado porque el tamaño de las habitaciones es muy grande en comparación con el área de su lote. La descartamos porque sugiere que es una propiedad horizontal antes que una sola vivienda.
Procedemos luego, a hacer las estimaciones del modelo mediante el metodo de Minímos Cuadrados Ordinarios:
##
## Call:
## lm(formula = fml, data = df)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.74721 -0.09192 -0.01521 0.09352 0.69061
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 4.745e+00 9.269e-02 51.195 < 2e-16 ***
## bdrms 8.321e-03 2.979e-02 0.279 0.78071
## lotsize 5.650e-06 2.012e-06 2.808 0.00621 **
## sqrft 3.728e-04 4.176e-05 8.926 9.18e-14 ***
## colonial 8.147e-02 4.583e-02 1.778 0.07915 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.1875 on 83 degrees of freedom
## Multiple R-squared: 0.6361, Adjusted R-squared: 0.6186
## F-statistic: 36.28 on 4 and 83 DF, p-value: < 2.2e-16
Una vez hemos hecho la primera estimación con mols, procedemos a hacer la eliminación de los puntos de alta influencia identificados:
## 13 29 38 48 63 73 77
## 13 29 38 48 63 73 77
## 24 42 63 73 76 77 81
## 24 42 63 73 76 77 81
## 76 77 81
## 76 77 81
Ahora, observamos los datos básicos de nuestra base de datos sin puntos influyentes y filtrada:
## lprice bdrms lotsize sqrft
## Min. :5.193 Min. :2.000 Min. : 1000 Min. :1171
## 1st Qu.:5.438 1st Qu.:3.000 1st Qu.: 5850 1st Qu.:1664
## Median :5.580 Median :3.000 Median : 6460 Median :1854
## Mean :5.621 Mean :3.494 Mean : 7672 Mean :2004
## 3rd Qu.:5.756 3rd Qu.:4.000 3rd Qu.: 8566 3rd Qu.:2205
## Max. :6.354 Max. :7.000 Max. :20700 Max. :3880
## colonial
## Min. :0.0000
## 1st Qu.:0.0000
## Median :1.0000
## Mean :0.7037
## 3rd Qu.:1.0000
## Max. :1.0000
Las variables presentan el siguiente dato promedio de acuerdo a las observaciones: lprice, 5.621. bdrms, 3.494, lotsize, 7672, sqrft, 2004 y colonial. 0.7037.
Hacemos la reestimación con los datos restantes:
A continuación, veremos las gráficas de los residuos para cada variable:
Con esto, podemos decir que los gráficos de componente-residuo de cada una de las variables que permiten examinar la linealidad en el modelo muestran una tendencia de que se cumple el supuesto de linealidad del modelo.
Ahora examinamos gráficamente en busca de que la varianza de los errores tenga una tendencia constante:
Gráficamos los residuales parciales:
Haciendo una observación completa de los gráficos, nos parece que las variables lotsize y sqrft, presentan problemas de linealidad. Luego, parece que el modelo cumple con el supuesto de normalidad y que en general, no presentan problemas de heterocedasticidad.
Aunque visualmente el modelo parece ajustarse bien, verificaremos estadísticamente estos supuestos con pruebas formales.
Primero, evaluaremos si nuestro modelo cumple de manera rigurosa con el supuesto de linealidad. Para ello, aplicaremos la prueba Reset:
##
## RESET test
##
## data: m_ols_sin
## RESET = 1.7929, df1 = 2, df2 = 74, p-value = 0.1736
En esta prueba, la Hipotesis Nula es El modelo está correctamente especificado y la relación es lineal, la Hipotesis Alternativa es la negación de la nula. Ahora bien, trabajamos con un nivel de confianza del 95%, lo que significa que tenemos un nivel de significancia del 0.05 para cada prueba.
En esta prueba Reset, nuesto p-valor resultó siendo 0.1736, que es mayor a 0.05, por lo que no existe evidencia suficiente para rechazar la Hipotesis Nula. Así, concluimos que nuestro modelo está correctamente específicado y la relación es lineal
Para comprobar si el modelo cumple homocedasticidad, lo haremos a través de la prueba Breusch-Pagan:
##
## studentized Breusch-Pagan test
##
## data: m_ols_sin
## BP = 2.0949, df = 4, p-value = 0.7183
Está prueba tiene la siguiente Hipotesis Nula: La varianza de los errores es constante. La Hipotesis alternativa es la negación de la nula.
En este caso, como mencionamos al inicio, tenemos un nivel de significancia del 0.05. En esta prueba, tenemos un p-valor mayor al nivel de significancia 0.7183, por lo que no hay evidencia suficiente para rechazar la hipotesis nula y asumimos que nuestro modelo tiene una varianza de los errores constante .
Ahora examinamos si nuestro modelo cumple con el supuesto de normalidad. tomando en cuenta que la muestra es pequeña, suaremos la prueba shapiro-wilk, la cual posee mayor potencia para detectar desviaciones de normalidad en muestras pequeñas en comparación con Kolmogorov-Smirnov o Jarque-Bera.
##
## Shapiro-Wilk normality test
##
## data: residuals(m_ols_sin)
## W = 0.97738, p-value = 0.1619
El resultado del p-valor, 0.1619 termina siendo mayor al nivel de significancia que venimos manejando, por lo tanto, no hay evidencia suficiente para rechazar la Hipotesis Nula y por lo tanto Los datos se aproximan a una distribución normal
Ahora, analizamos multicolinealidad con la prueba VIF. En ella, se nos da un valor por cada variable regresora, los valores aceptables son los cercanos a uno y menores a cinco. Aquellos mayores a cinco se considera que tienen problemas moderados o bajos de colinealidad.
## bdrms lotsize sqrft colonial
## 1.746775 1.185694 1.777882 1.150819
Analizando los resultados, vemos que ninguna de las variables tienen problemas moderados o graves de colinealidad. sqrft y bdrms presentan en un grado despreciable colinealidad debido a que están relacionadas entre sí.
La conclusión es que el modelo cumple con no tener problemas de multicolinealidad.
##
## Call:
## lm(formula = fml, data = df_sin_infl)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.36849 -0.08127 -0.02772 0.08578 0.27008
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 4.737e+00 7.011e-02 67.567 < 2e-16 ***
## bdrms 1.586e-02 2.329e-02 0.681 0.498081
## lotsize 1.850e-05 4.425e-06 4.180 7.72e-05 ***
## sqrft 2.992e-04 3.439e-05 8.700 5.01e-13 ***
## colonial 1.234e-01 3.261e-02 3.785 0.000305 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.1249 on 76 degrees of freedom
## Multiple R-squared: 0.7517, Adjusted R-squared: 0.7386
## F-statistic: 57.51 on 4 and 76 DF, p-value: < 2.2e-16
Los resultados del modelo reestimado, una vez excluidas las observaciones con alta influencia, muestran un buen ajuste global y un cumplimiento adecuado de los supuestos clásicos de la regresión lineal.
El coeficiente de determinación R² = 0.7517 indica que el modelo explica aproximadamente el 75.17 % de la variabilidad del precio de la vivienda, mientras que el R² ajustado = 0.7386 —al corregir por el número de variables— sugiere que cerca del 73.86 % de la variación del precio se explica efectivamente por las variables independientes incluidas en el modelo.
Estos valores reflejan un ajuste sólido y una alta capacidad explicativa dentro del contexto de análisis.
La prueba F global (F = 57.51, p < 2.2e-16) permite rechazar la hipótesis nula
lo que confirma que el modelo es globalmente significativo; es decir, al menos una de las variables explicativas contribuye de forma estadísticamente relevante a explicar el precio de la vivienda.
En términos individuales, las variables lotsize, sqrft y colonial resultaron significativas al 1 %:
Un incremento de un pie cuadrado en el tamaño del lote se asocia con un aumento promedio del 0.00185 % en el precio de la vivienda.
Un incremento de un pie cuadrado en el área construida incrementa el precio en aproximadamente 0.0299 %.
Las viviendas de estilo colonial presentan, en promedio, un 12.34 % de precio superior a las no coloniales, manteniendo constantes las demás características.
Por otro lado, la variable bdrms (número de habitaciones) no resultó estadísticamente significativa, lo que sugiere que su efecto sobre el precio puede estar ya capturado por el tamaño total de la vivienda (sqrft).
En conjunto, el modelo estimado cumple los supuestos de linealidad, homocedasticidad, normalidad y ausencia de multicolinealidad, lo cual respalda la validez de los resultados obtenidos.
Por tanto, se concluye que los atributos físicos de la vivienda —principalmente el área construida, el tamaño del lote y el estilo arquitectónico— influyen de manera significativa y positiva en su valoración de mercado.
1. Trinh, T. H. (2022). Theoretical foundations of real estate market behavior. Cogent Business & Management, 9(1), 2132590. https://doi.org/10.1080/23311975.2022.2132590
2 Wooldridge, J. M. (2020). Introductory econometrics: A modern approach (7th ed.). Cengage Learning.