La inmobiliaria A&C, especializada en la comercialización de bienes raíces en zonas urbanas, busca optimizar su proceso de valoración de inmuebles. Para ello, ha solicitado el apoyo de un equipo de científicos de datos con el fin de construir un modelo predictivo que oriente la estimación de precios de apartamentos en estrato 4 con áreas construidas menores a 200 m², basándose en datos obtenidos del portal Fincaraiz. A través de este modelo, se espera mejorar la precisión en la negociación de futuros inmuebles y fortalecer la toma de decisiones estratégicas.
El informe cumplirá con el desarrollo de un modelo predictivo que permita estimar con precisión el precio de inmuebles (apartamentos de estrato 4 con área construida menor a 200 m²) basándose en los datos obtenidos de Fincaraiz, con el fin de mejorar las negociaciones y la planificación estratégica de la inmobiliaria A&C.
Además, el informe cumple con objetivos especificos:
Para la realización del análisis descriptivo y constructivo del modelo se hace necesario:
La base de datos es “vivienda4”, cuenta con 1706 registros, distribuidos en 5 columnas y 5 variables, las cuales son:
En este informe se tendrá en cuenta un modelo de tipo regresivo en el que se compararán las variables con mayor indice de correlación.
Al realizar un análisis de tipo exploratorio se observa que la zona con mayor frecuencia de viviendas es la Zona Sur. En esta zona, el promedio del área construida es de 87.63 m², predominando los apartamentos, cuyo valor promedio se sitúa en 243.7 millones de pesos y pertenecen en su mayoría al estrato 4.
El histograma de precios con asimetría positiva indica que la mayoría de los datos se encuentran en el extremo inferior de la escala de precios, con una “cola” extendida hacia la derecha. Esto sugiere que hay un mayor número de viviendas con precios bajos o moderados, mientras que hay pocas viviendas con precios significativamente altos.
Pueden existir valores atípicos que elevan el promedio, aunque el análisis indica que no existen tales valores, puede decirse, que la mayoría de los datos se concentran en el rango de precio más bajo. Este comportamiento podría estar asociado a factores socioeconómicos o ubicación geográfica de las viviendas en el conjunto de datos.
El histograma del área construida muestra una asimetría positiva, por lo que hay más viviendas con menores áreas construidas y algunas con áreas significativamente mayores. El área promedio construido es de 87.63 m².
La vivienda con menor área corresponde a los 40 m² y la de mayor área posee 200 m².
Para determinar la o las relaciones positivas existentes entre las variables, es necesario determinar el gráfico de dispersión, pues mostrará la relación entre el área construida y el precio, ya que los puntos tienden a seguir una tendencia ascendente. Esto sugiere que, en general, las viviendas con mayor área tienden a tener precios más altos.
Sin embargo, hay dispersión en los datos, lo que indica que no todos los precios aumentan uniformemente con respecto al área.
La correlación, según el coeficiente de Pearson es del 93,09% de positividad con relación fuerte (Linea roja), indica la tendencia central de los datos y confirma que la relación entre las variables área y precio es positiva.
La dispersión de los puntos alrededor de la línea sugiere que, aunque existe una tendencia general, hay variabilidad en los precios que no se explica solo por el área.
El boxplot muestra cómo varían los precios en función de las diferentes categorías de área construida. Las categorías con áreas más grandes pueden presentar precios más altos, lo cual refleja una tendencia esperada en el mercado inmobiliario.
La longitud de las cajas muestra la variabilidad de los precios en cada categoría de área, lo que indica que hay diferencias significativas en algunos rangos.
La dispersión del precio dentro de cada categoría muestra variabilidad significativa, con algunos valores atípicos, especialmente en categorías de mayor área, lo que demuestra que los precios son inusuales para áreas construidas entre los 50 y 150 m²
En el gráfico se muestra que en el rango de 100-150 m² de área hay evidencia de una asimetria positiva y el valor del IQR más amplio está presente en el intervalo área de 150-200 m², por lo que existe mayor dispersión en los precios de esta categoria del área.
Concluyendo, exiten patrones de variabilidad importantes en los diferentes rangos de área construida. Esto refiere que a medida que aumenta la categoría del área, los precios tienden a ser más altos.
Estos gráficos sugieren una relación positiva entre el área construida y el precio, pero también resaltan la necesidad de considerar otros factores para explicar completamente la variabilidad de los precios.
Al tener una relación fuerte y positiva con las dos variables área y precio, es necesario interpretar el modelo que viene de estas variables. Es por ello que es necesario conocer la regresión entre la variable respuesta en función de la predictoria. Por lo cual, el modelo trajo la siguiente relación lineal:
##
## Call:
## lm(formula = preciom ~ areaconst, data = vivienda4)
##
## Residuals:
## Min 1Q Median 3Q Max
## -195.86 -31.95 -8.95 27.87 431.17
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 67.381 3.510 19.20 <2e-16 ***
## areaconst 1.803 0.037 48.73 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 55.53 on 1704 degrees of freedom
## Multiple R-squared: 0.5822, Adjusted R-squared: 0.5819
## F-statistic: 2374 on 1 and 1704 DF, p-value: < 2.2e-16
Esta lectura indica que β_0 o llamado el intercepto, es el que representa el precio estimado cuando el área construida es cero. Aunque en el contexto de viviendas, un área de cero no es realista, sirve como punto de referencia.
Igualmente, β_1 o pendiente de la recta, muestra el cambio en el precio estimado por cada unidad adicional en el área (m²). Si es positivo, indica que el precio aumenta a medida que el área aumenta.
Para lo cual, la ecuación que representa la regresión lineal es Precio = β_0 + β_1(área) + ε.
Se ha estimado dos parámetros que caracterizan el modelo, para lo cual, β_0 = 1.998e+02 bajo un error asociado estimado de 4.514e-01 y β_1 = 5.009e-01 con un error asociado estimado de 4.758e-03. La regresión encontrada es significativa, ya que su p-valor es muy pequeño.
Para esta sección, es necesario estimar un intervalo de confianza del 95% para el coeficiente β_1 pues proporciona un rango estimado dentro del cual es probable que se encuentre el valor verdadero de β_1 en la población.
Con un β_0=0.5009 y un error estándar SE=0.004758, el intervalo de confianza del 95% es:
## Intervalo de confianza del 95% para β_1: 0.4902985 0.5115015
## Estadístico t: 105.2753
## p-valor: 0
El intervalo de confianza no incluye el cero, lo que indica que β_1 es significativamente diferente de cero. Esto es que el aumento en el precio por cada unidad adicional en el área (m²) se encuentra entre esos valores dados.
Como el intervalo no incluye cero y dado que el p-valor asociado con la prueba t es muy bajo (menor a 0.05), se rechaza la hipótesis nula, concluyendo que existe una relación significativa entre el área construida y el precio, es decir, el área tiene un efecto positivo y significativo sobre el precio.
El indicador de bondad de ajuste R² mide la proporción de la variabilidad en la variable respuesta (precio) que puede ser explicada por la variable predictora (área construida). Un valor de R² cercano a 1 indica que el modelo explica bien la variabilidad de los datos, mientras que un valor cercano a 0 indica un bajo ajuste.
## El valor de R^2 es: 0.5821944
Entonces, el R² indica que el 86,67% de la variación del precio es explicada por el área construida.
Para estimar el precio de un apartamento de 110 m² usando el modelo de regresión lineal, teniendo β_0 = 2.5 (intercepto) y β_1=0.5009 (pendiente), se obtiene que:
## [1] 57.599
El precio estimado indica el valor promedio esperado según el modelo. Si un apartamento de 110 m² cuesta 200 millones, se debe comparar con el precio estimado y considerar factores adicionales como:
Ubicación, ya que la zona específica dentro de la ciudad puede influir significativamente en el valor del inmueble. Factores como proximidad a servicios, seguridad y transporte son relevantes.
El estado de la propiedad, ya que un apartamento renovado o en mejor estado puede justificar un precio más alto.
Servicios para determinar si es una oferta atractiva., como por ejemplo las áreas comunes, parqueaderos, o seguridad privada también influyen en el valor del precio.
Tendencias del mercado, ya que al analizar las fluctuaciones de precios recientes en la zona puede proporcionar un contexto adicional.
Este proceso permite hacer una evaluación del modelo para detectar anomalias o veracidad de los residuos y los valores predichos. Para ello, se evaluarán, como primera medida:
El gráfico busca una dispersión aleatoria alrededor de la línea cero (roja). Un patrón en los residuos sugiere violación de homocedasticidad.
Los residuos siguen una distribución normal.
##
## Shapiro-Wilk normality test
##
## data: resid(modelo)
## W = 0.92671, p-value < 2.2e-16
El p-valor es mayor al 5%, por lo tanto, los residuos son normales.
##
## studentized Breusch-Pagan test
##
## data: modelo
## BP = 152.8, df = 1, p-value < 2.2e-16
El p-valor es mayor al 5%, por lo tanto no existe heterocedasticidad o variabilidad de los errores no constante.
Aunque visualmente se ve unos indicios de variación, la prueba p-valor 0.5 no confirma la heterocedasticidad. Por lo tanto, se acepta la hipótesis de homocedasticidad a pesar de las señales visuales, la varianza de los residuos podría considerarse constante por el punto de vista estadístico.
Para mejorar el ajuste y los supuestos del modelo, se pueden realizar transformaciones a la variable respuesta (precio) para estabilizar la varianza y acercar los residuos a una distribución normal.
A continuación se presentan las opciones para transformar el modelo original y verificar sus nuevos supuestos.
##
## =======================================================================
## Dependent variable:
## ---------------------------------------------------
## preciom log(preciom)
## (1) (2) (3) (4)
## -----------------------------------------------------------------------
## areaconst 1.803*** 0.007***
## (0.037) (0.0002)
##
## log(areaconst) 189.708*** 0.780***
## (3.641) (0.014)
##
## Constant 67.381*** -610.083*** 4.724*** 1.919***
## (3.510) (16.085) (0.014) (0.063)
##
## -----------------------------------------------------------------------
## Observations 1,706 1,706 1,706 1,706
## R2 0.582 0.614 0.571 0.639
## Adjusted R2 0.582 0.614 0.571 0.638
## Residual Std. Error 55.531 53.347 0.227 0.208
## F Statistic 2,374.452*** 2,715.248*** 2,267.022*** 3,012.086***
## =======================================================================
## Note: *p<0.1; **p<0.05; ***p<0.01
Los mejores indicadores los tiene el modelo (3): Log - Lin, por tanto, la ecuación es:
## El valor de R² del modelo original es: 0.5821944
## El valor de AIC del modelo original es: 18551.2
Como se mencionó en unos apartados anteriores, el R² indica que el 86.67% de la variabilidad en el precio puede explicarse por el área construida.Sin embargo, el AIC es muy alto (11552.99), lo que indica que el ajuste del modelo podría no ser el más eficiente.
## El valor de R² del modelo transformado es: 0.6386834
## El valor de AIC del modelo Transformado es: -507.0905
Observamos un R² es ligeramente menor, el AIC es mucho menor (-6919.165), lo que sugiere que el modelo transformado tiene un mejor ajuste general y es más eficiente en términos de penalización por complejidad, luego que el modelo logarítmico ofrece un ajuste más apropiado y evita problemas de sobreajuste.
Para comparar varios modelos, es necesario estimar algunos modelos adicionales y revisar si se cumplen los supuestos sobre los errores, por lo cual, aplicando el análisis para transformaciones como polinomial y cuadráticas, onteniendo los valores:
##
## Call:
## lm(formula = preciom ~ poly(areaconst, 2), data = vivienda4)
##
## Residuals:
## Min 1Q Median 3Q Max
## -196.94 -26.94 -3.88 23.54 420.66
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 225.375 1.298 173.61 <2e-16 ***
## poly(areaconst, 2)1 2705.919 53.619 50.47 <2e-16 ***
## poly(areaconst, 2)2 -598.765 53.619 -11.17 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 53.62 on 1703 degrees of freedom
## Multiple R-squared: 0.6107, Adjusted R-squared: 0.6102
## F-statistic: 1336 on 2 and 1703 DF, p-value: < 2.2e-16
##
## Call:
## lm(formula = sqrt_precio ~ areaconst, data = vivienda4)
##
## Residuals:
## Min 1Q Median 3Q Max
## -6.1945 -1.1061 -0.2803 1.1026 10.9258
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 9.844961 0.108529 90.71 <2e-16 ***
## areaconst 0.056242 0.001144 49.16 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.717 on 1704 degrees of freedom
## Multiple R-squared: 0.5865, Adjusted R-squared: 0.5862
## F-statistic: 2417 on 1 and 1704 DF, p-value: < 2.2e-16
## [1] 18432.64
## [1] 6689.866
El modelo polinomial con un AIC alto, indica que no es un buen ajuste para los datos. Aunque puede tener una flexibilidad adicional por el término polinomial, no mejora el ajuste.
El modelo con transformación cuadrática tiene un AIC mucho más bajo que los otros modelos, lo que sugiere que es el mejor modelo en términos de ajuste y simplicidad.
El modelo con transformación cuadrática del precio es el mejor según el AIC. Ahora se debe verificar si cumple con los supuestos de los errores.
Para ello, revisando la gráfica que indica el movimiento de los residuales, se tiene:
Los residuos parecen estar dispersos de manera aleatoria alrededor de la línea roja (en 0), lo cual es una señal positiva, ya que no muestra un patrón claro que sugiera dependencia o no linealidad entre las variables.
Igualmente, se observa que, para algunos rangos de valores ajustados, la dispersión de los residuos aumenta ligeramente, lo cual puede indicar un leve problema de heterocedasticidad, es decir, la varianza de los errores no es constante en todo el rango de valores predichos.
En cuanto al análisis utilizando pruebas estadísticas específicas, como la prueba de Breusch-Pagan, se determinaría si la heterocedasticidad es un problema significativo en el modelo, por lo cual:
##
## Shapiro-Wilk normality test
##
## data: resid(modelo_sqrt)
## W = 0.97563, p-value < 2.2e-16
Shapiro-Wilk, indica un valor de p = 0.7942, lo que hace no rechazable la hipótesis nula de normalidad en los residuos. Los residuos parecen estar distribuidos de forma normal.
Breusch-Pagan: Su valor p = 0.03381 indica que hay evidencia suficiente para rechazar la hipótesis nula de homocedasticidad, lo que sugiere la presencia de heterocedasticidad.
Modelo seleccionado: Después de comparar varios modelos, se seleccionó el modelo transformado con raíz cuadrada de la variable dependiente como el más adecuado, ya que presenta mejor ajuste y cumple en mayor medida los supuestos de regresión.