El propósito principal de este proyecto es atender la solicitud de su empresa en relación con el análisis y la modelización de los precios de inmuebles a partir de una base de datos proporcionada. Este documento tiene como objetivo realizar un análisis completo y avanzado que incluye análisis exploratorios univariados y bivariados, estimación de modelos de regresión lineal y otras técnicas de análisis estadístico y modelado predictivo. Al finalizar, ustedes contarán con un informe que brindará información crucial para la toma de decisiones relacionadas con la valoración y estrategias de precios de los inmuebles en cuestión.
Inicialmente, consideramos esencial proporcionar un análisis detallado de las categorías de inmuebles que figuran en la base de datos:
Tras un minucioso análisis de la base de datos, se ha identificado un total de 1.363 apartamentos y 343 casas. En consecuencia, y en línea con las conversaciones mantenidas con los directivos, este informe se centrará en el análisis específico del tipo de inmueble: apartamentos.
Finalmente, al considerar la base de datos proporcionada, se destaca que de los 1.706 registros totales, 30 de ellos corresponden a apartamentos de 200 m2. A pesar de que sus restricciones estipulan propiedades de menos de 200 m2, es importante informar que, con el objetivo de aprovechar plenamente la información disponible, estos 30 registros también se incluirán en el análisis.
Teniendo en cuenta el estado actual de la identificación de tipos de inmuebles y las fortalezas de mercado, me complace informar que nos hemos comprometido a abordar una lista de 10 requerimientos críticos para su organización. Estos requerimientos representan una oportunidad para impulsar mejoras significativas en los procesos, sistemas y resultados de su empresa.
Nuestro enfoque se basa en la atención meticulosa a cada detalle, la comprensión completa de sus necesidades y el compromiso de entregar soluciones efectivas. Cada uno de los 10 requerimientos ha sido cuidadosamente analizado, y estamos comprometidos en proporcionar soluciones que no solo cumplan con sus especificaciones, sino que también excedan sus expectativas.
La resolución exitosa de los siguientes10 requerimientos la encontrará en el siguiente apartado.
Realice un análisis exploratorio de las variables precio de vivienda (millones de pesos COP) y área de la vivienda (metros cuadrados) - incluir gráficos e indicadores apropiados interpretados.
Realice un análisis exploratorio bivariado de datos, enfocado en la relación entre la variable respuesta (precio) en función de la variable predictora (area construida) - incluir gráficos e indicadores apropiados interpretados.
Estime el modelo de regresión lineal simple entre precio=f(area)+ε . Interprete los coeficientes del modelo β0 , β1 en caso de ser correcto.
Construir un intervalo de confianza (95%) para el coeficiente β1, interpretar y concluir si el coeficiente es igual a cero o no. Compare este resultado con una prueba de hipótesis t.
Calcule e interprete el indicador de bondad R2.
¿Cuál sería el precio promedio estimado para un apartamento de 110 metros cuadrados? Considera entonces con este resultado que un apartamento en la misma zona con 110 metros cuadrados en un precio de 200 millones sería una atractiva esta oferta? ¿Qué consideraciones adicionales se deben tener?.
Realice la validación de los supuestos del modelo por medio de gráficos apropiados, interpretarlos y sugerir posibles soluciones si se violan algunos de ellos. Utilice las pruebas de hipótesis para la validación de supuestos y compare los resultados con lo observado en los gráficos asociados.
De ser necesario realice una transformación apropiada para mejorar el ajuste y supuestos del modelo.
De ser necesario compare el ajuste y supuestos del modelo inicial y el transformado.
Estime varios modelos y compare los resultados obtenidos. En el mejor de los modelos, ¿se cumplen los supuestos sobre los errores?
Realizar un análisis exploratorio de las variables precio de vivienda (millones de pesos COP) y área de la vivienda (metros cuadrados). Incluir gráficos e indicadores apropiados interpretados:
Revisión variable Precio
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 78.0 153.5 185.0 202.4 240.0 645.0
## Desviación Estándar de preciom: 65.29049
El valor mínimo registrado en la variable es de 78 millones de pesos COP. Esto representa el punto más bajo de los precios de inmuebles en el conjunto de datos.
El primer cuartil (25%) de la variable se sitúa en 153.5 millones de pesos COP. Esto indica que el 25% de los precios de inmuebles son iguales o inferiores a este valor, lo que sugiere una amplia variación en los precios.
La mediana de la variable es de 185 millones de pesos COP. La mediana es el valor que divide el conjunto de datos en dos partes iguales cuando se ordenan de menor a mayor. En este caso, el 50% de los precios de inmuebles son iguales o inferiores a 185 millones de pesos COP, lo que nos proporciona una medida central de la distribución de precios.
La media (promedio) de la variable es de 202.4 millones de pesos COP. La media representa el valor promedio de los precios en el conjunto de datos, lo que indica una tendencia general de los precios en la muestra.
El tercer cuartil (75%) de la variable se encuentra en 240 millones de pesos COP. Esto significa que el 75% de los precios de inmuebles son iguales o inferiores a este valor, lo que sugiere una dispersión considerable en los precios.
El valor máximo registrado en la variable es de 645 millones de pesos COP, lo que representa el precio más alto dentro del conjunto de datos.
En cuanto a la desviación estándar, se observa un valor de 65.29049 millones de pesos COP. La desviación estándar es una medida de dispersión que indica cuánto se alejan los precios de inmuebles de su promedio. En este caso, el valor de 65.29049 millones de pesos COP indica que, en promedio, los precios de inmuebles tienden a estar a una distancia de aproximadamente 65.29049 millones de pesos COP con respecto a la media. Esto refleja la variabilidad de los precios en el conjunto de datos y sugiere que los precios pueden fluctuar significativamente en relación con el promedio.
Revisión variable Área construida
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 40.00 60.00 70.00 75.48 84.00 200.00
## Desviación Estándar de areaconst: 22.56461
El valor mínimo en la variable es de 40. Esto representa el valor más bajo dentro del conjunto de datos.
El primer cuartil (25%) de la variable se encuentra en 60. Esto indica que el 25% de los datos son iguales o inferiores a este valor, lo que sugiere una distribución con una extensión considerable de valores bajos.
La mediana de la variable es de 70, lo que corresponde al valor que se sitúa en el centro de los datos cuando se ordenan de menor a mayor. Por tanto, el 50% de los datos son iguales o inferiores a este valor, proporcionando una medida central importante en la distribución de la variable.
La media (o promedio) de la variable es de 75.48. La media representa el valor promedio de la variable en el conjunto de datos, lo que indica una tendencia general de los valores.
El tercer cuartil (75%) de la variable se ubica en 84. Esto significa que el 75% de los datos son iguales o inferiores a este valor, mostrando que la mayoría de los valores están por debajo de este punto.
El valor máximo registrado en la variable es de 200, que representa el valor más alto en el conjunto de datos.
En lo que respecta a la desviación estándar, se observa un valor de 22.56461. La desviación estándar es una medida de dispersión que indica cuánto se alejan los valores de la variable de su promedio. En este caso, el valor de 22.56461 significa que, en promedio, los valores de la variable tienden a desviarse aproximadamente 22.56461 unidades con respecto a la media. Esta desviación refleja la variabilidad en la variable y sugiere que los valores pueden fluctuar significativamente en relación al promedio.
Realice un análisis exploratorio bivariado de datos, enfocado en la relación entre la variable respuesta (precio) en función de la variable predictora (area construida). Incluir gráficos e indicadores apropiados interpretados:
A continuación, se presentan gráficos de análisis bivariado de las variables precio y área construida:
## `geom_smooth()` using formula = 'y ~ x'
En el gráfico, el eje x representa el área construida en metros cuadrados, mientras que el eje y representa el precio en millones de pesos COP. Cada punto en el gráfico representa una observación de una vivienda.
El análisis del gráfico de dispersión revela varias observaciones importantes. En primer lugar, se observa una relación clara entre el área construida y el precio del inmueble. Esta relación es positiva, lo que significa que a medida que el área construida aumenta, el precio del inmueble tiende a aumentar. Esto se refleja en la línea azul de tendencia que muestra la dirección general de la relación.
Además, la dispersión de los puntos alrededor de la línea de tendencia nos proporciona información sobre la fuerza de la relación. Cuanto más cercanos estén los puntos a la línea de tendencia, más fuerte será la relación entre el área construida y el precio. Por otro lado, si los puntos están dispersos ampliamente alrededor de la línea, la relación podría ser más débil.
Por último, se observan algunos puntos que están notablemente alejados de la línea de tendencia. Estos puntos podrían considerarse como datos atípicos y deberían evaluarse en futuros análisis. La presencia de datos atípicos puede tener un impacto significativo en la fuerza de la relación y en la construcción de modelos predictivos precisos. Por lo tanto, se recomienda realizar una evaluación adicional y considerar la posibilidad de eliminar estos datos atípicos para obtener una comprensión más precisa de la relación entre el área construida y el precio de los inmuebles.
Estime el modelo de regresión lineal simple entre precio=f(area)+ε . Interprete los coeficientes del modelo β0 , β1 en caso de ser correcto.
##
## Call:
## lm(formula = preciom ~ areaconst, data = vivienda_apartamentos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -225.404 -23.902 -4.754 25.763 209.021
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 39.04679 4.09977 9.524 <2e-16 ***
## areaconst 2.16473 0.05204 41.595 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 43.34 on 1361 degrees of freedom
## Multiple R-squared: 0.5597, Adjusted R-squared: 0.5594
## F-statistic: 1730 on 1 and 1361 DF, p-value: < 2.2e-16
El modelo de regresión lineal simple se define de la siguiente manera:
precio = β0 + β1 * areaconst + ε
Donde:
β0 es el intercepto o constante del modelo.
β1 es el coeficiente asociado a la variable independiente areaconst.
ε representa el término de error aleatorio.
A continuación, se proporciona un análisis detallado de los coeficientes del modelo:
Intercepto (β0):
El valor del intercepto (β0) es de 39.04679. Es importante tener en cuenta que este valor representa el precio estimado de una vivienda cuando el área construida (areaconst) es igual a cero. Sin embargo, en el contexto de los datos de la base, es poco realista que el área construida sea cero. Por lo tanto, el intercepto puede carecer de una interpretación práctica directa.
Coeficiente de β1 (areaconst):
El coeficiente β1 tiene un valor de 2.16473. Este coeficiente refleja el cambio esperado en el precio de la vivienda por cada unidad adicional de área construida. Es decir, por cada metro cuadrado adicional de área construida, el precio promedio de la vivienda aumenta en 2.16473 millones de pesos COP.
Dado que el coeficiente es positivo y estadísticamente significativo (p-valor < 0.001), podemos concluir que existe una relación positiva y significativa entre el área construida y el precio de las viviendas. En otras palabras, a medida que el área construida aumenta, se espera que el precio de la vivienda aumente.
Análisis Adicional:
Es importante destacar que los coeficientes del modelo son estadísticamente significativos, ya que los p-valores asociados a ambos coeficientes son muy pequeños (p-valor < 0.001). Esto sugiere que la relación entre el precio y el área construida es altamente significativa en el contexto del modelo planteado. Por lo tanto, podemos confiar en que el modelo de regresión lineal simple proporciona una representación sólida de la relación entre estas dos variables y puede ser utilizado para hacer predicciones y análisis adicionales con confianza.
Construir un intervalo de confianza (95%) para el coeficiente β1, interpretar y concluir si el coeficiente es igual a cero o no. Compare este resultado con una prueba de hipótesis t.
Construcción del intervalo de confianza (95%)
Note lo siguiente
Intervalo de Confianza=β^1 ± tα/2 * SE (β^1)
Donde,
β^1= estimado del coeficiente β1 del modelo de regresión lineal,
tα/2= valor crítico de la distribución t de Student con n−2 grados de libertad, donde n es el número de observaciones,
SE (β^1)= error estándar del estimado de β1
De este modo
## [1] "El intervalo de confianza esta dado por: "
## [1] 2.062640 2.266826En referencia al análisis del intervalo de confianza para β1, se destaca que este intervalo no abarca el valor de 0. Por lo tanto, podemos concluir que β1 es estadísticamente diferente de 0. Esta observación respalda la afirmación de que existe una relación directa entre el área construida y el precio de las viviendas.
Para reforzar aún más este resultado, realizamos una prueba de hipótesis t. En primer lugar, se establece la hipótesis nula (H0) como sigue:
Hipótesis nula (H0): El coeficiente β1 es igual a 0 (H0: β1 = 0).
Hipótesis alternativa (Ha): El coeficiente β1 es distinto de 0 (Ha: β1 ≠ 0).
La evidencia del intervalo de confianza, junto con la prueba de hipótesis t, respalda la idea de que el coeficiente β1 es significativamente diferente de 0, lo que confirma la existencia de una relación entre el área construida y el precio de las viviendas.
## Hipótesis nula (H0) rechazada. Hay evidencia de relación entre areaconst y preciom.
## Valor t: 41.59515
## Valor Crítico t (Izquierda): -1.961709
## Valor Crítico t (Derecha): 1.961709
En consecuencia, dado que el valor de t se sitúa fuera de los intervalos críticos, se rechaza la hipótesis nula, lo que nos lleva a la sólida conclusión de que existe evidencia estadísticamente significativa que respalda la existencia de una relación significativa entre el área construida y el precio de las viviendas en la población de estudio.
Calcule e interprete el indicador de bondad R2.
La interpretación del coeficiente de determinación (R² ajustado) revela que este valor es de 0.5594, lo que significa que el 55.94% de la variabilidad en el precio de las viviendas puede ser explicada por la variabilidad en el área construida.
En este contexto, podemos concluir que el modelo proporciona una explicación aceptable de la variación en los precios de las viviendas en función del área construida. Sin embargo, es importante tener en cuenta que, dado que el valor de R² no se acerca a 1, todavía existe una cantidad significativa de variabilidad en el precio que no puede ser explicada por el modelo. Esto sugiere que otros factores no considerados en el modelo pueden estar contribuyendo a la variabilidad de los precios. Por lo tanto, se recomienda la incorporación de variables adicionales de interés en futuros estudios para una comprensión más completa y precisa de los determinantes del precio de las viviendas.
¿Cuál sería el precio promedio estimado para un apartamento de 110 metros cuadrados? Considera entonces con este resultado que un apartamento en la misma zona con 110 metros cuadrados en un precio de 200 millones sería una atractiva esta oferta? ¿Qué consideraciones adicionales se deben tener?.
## El Precio estimado para un apartamento de 110 mts² con base en el modelo de regresión lineal es de: 277.1674 millones de pesos COP
En cuanto a la evaluación de la conveniencia, es relevante destacar que el valor estimado obtenido es de 277 millones de pesos COP. En este contexto, la consideración de una oferta de un apartamento en la misma zona con 110 metros cuadrados y un precio de 200 millones de pesos COP podría resultar atractiva desde la perspectiva de agentes inmobiliarios. Adquirir una propiedad por debajo del valor promedio ofrecería la oportunidad de revenderla a un precio más elevado, generando así un margen de ganancia considerable.
Sin embargo, es crucial enfatizar que la decisión de compra no debe basarse únicamente en los resultados del modelo. Otros factores determinantes, como la ubicación, la disponibilidad de parqueaderos, la cantidad de baños y la demanda en el mercado, también deben ser cuidadosamente considerados. Se recomienda encarecidamente la inclusión de variables adicionales para realizar un análisis más completo antes de tomar una decisión de compra o inversión, con el fin de evaluar todas las facetas relevantes que puedan afectar el resultado final.
Realice la validación de los supuestos del modelo por medio de gráficos apropiados, interpretarlos y sugerir posibles soluciones si se violan algunos de ellos. Utilice las pruebas de hipótesis para la validación de supuestos y compare los resultados con lo observado en los gráficos asociados.
Validación de Supuestos
Para asegurar la robustez y confiabilidad del modelo de regresión lineal propuesto, se realiza un análisis de diagnóstico que abarca tanto la revisión de gráficos como la realización de pruebas de hipótesis. Este análisis tiene como objetivo validar los siguientes supuestos clave:
Linealidad: Se verifica la aproximada linealidad entre la variable independiente (en este caso, areaconst) y la variable dependiente (preciom). Este supuesto es esencial para garantizar la idoneidad del modelo.
Normalidad de los Residuales: Se evalúa si los residuales del modelo siguen una distribución normal. La normalidad de los residuales es fundamental para asegurar que los errores de predicción se distribuyen de manera adecuada.
Homocedasticidad: Se examina si la varianza de los residuales se mantiene constante en todos los niveles de la variable independiente. La homocedasticidad es crucial para garantizar que el modelo sea igualmente preciso en todos los rangos de valores de la variable independiente.
Para abordar estos supuestos, se presentan gráficos que facilitarán el análisis correspondiente.
## Loading required package: zoo
##
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
##
## as.Date, as.Date.numeric
## Loading required package: carData
Inferencias del Gráfico de Dispersión Residuales vs. Valores Ajustados
El Gráfico de dispersión de los residuales vs. valores ajustados se emplea con el propósito de evaluar el cumplimiento del supuesto de linealidad en el modelo y para detectar posibles patrones no lineales en los residuales.
Eje X (Valores Ajustados): Este eje representa los valores ajustados o predichos por el modelo para la variable dependiente (preciom). En otras palabras, son las estimaciones que el modelo proporciona para los precios de las viviendas.
Eje Y (Residuales): Aquí se encuentran los valores residuales, que corresponden a las diferencias entre los valores observados reales y los valores predichos por el modelo. Los residuales son una medida de cuánto se desvían las observaciones reales de las predicciones del modelo.
Cuando observamos el gráfico, la presencia de puntos dispersos de manera aleatoria alrededor de una línea horizontal centrada en cero (el eje Y) sugiere que el supuesto de linealidad se cumple. En este contexto, no se identifican patrones discernibles en la relación entre los valores ajustados y los residuales. Esto respalda la validez del modelo en términos de su capacidad para capturar relaciones lineales entre las variables involucradas, sin la presencia de efectos no lineales notables.
Validación normalidad de residuales
##
## Shapiro-Wilk normality test
##
## data: resid(modelo)
## W = 0.96486, p-value < 2.2e-16
Inferencias de la Prueba de Shapiro-Wilk para Normalidad de los Residuales
La prueba de Shapiro-Wilk se emplea para evaluar si los residuales siguen una distribución normal. A continuación, se presentan los resultados de la prueba:
Estadístico de Shapiro-Wilk (W): El valor de W, que en este caso es igual a 0.96486, es una estadística de prueba utilizada para determinar si los residuales siguen una distribución normal. Valores cercanos a 1 sugieren que los residuales pueden ajustarse a una distribución normal.
Valor p (p-value): El valor p es una medida de la evidencia en contra de la hipótesis nula de que los residuales siguen una distribución normal. En este análisis, el valor p es prácticamente cero (p < 2.2e-16), lo que indica una fuerte evidencia en contra de la normalidad de los residuales.
A pesar de que el valor de W sugiere cierta cercanía a la normalidad, es fundamental considerar el resultado del valor p. Con un valor p prácticamente nulo, se respalda la conclusión de que los residuales no siguen una distribución normal.
Basándonos en el valor p, se recomienda rechazar la hipótesis nula de normalidad, lo que sugiere que los valores residuales no se distribuyen normalmente. Este hallazgo indica que el modelo de regresión lineal simple puede no ser el más apropiado para describir la relación entre las variables.
Como recomendación, se sugiere explorar la aplicación de transformaciones de variables u otras técnicas que puedan mejorar la normalidad de los residuales y, por ende, la validez del modelo.
Validación Homocedasticidad
##
## studentized Breusch-Pagan test
##
## data: modelo
## BP = 292.99, df = 1, p-value < 2.2e-16
Inferencias sobre el Supuesto de Homocedasticidad y el Test de Breusch-Pagan
En este gráfico, se representan los valores ajustados en el eje X, mientras que los residuales estandarizados (residuales divididos por su desviación estándar) se disponen en el eje Y. Los residuales estandarizados se diseñan de manera que su varianza sea constante si se satisface el supuesto de homocedasticidad.
Dispersión de Residuales: La distribución aleatoria de los puntos alrededor de una línea horizontal sin patrón evidente en el gráfico indica que el supuesto de homocedasticidad se cumple. Esto significa que la variabilidad de los residuales se mantiene constante en todos los niveles de valores ajustados.
Supuesto de Homocedasticidad Violado: Si el supuesto de homocedasticidad se viola, por ejemplo, si el gráfico de dispersión de residuales estandarizados muestra un patrón de cono, se sugiere la aplicación de transformaciones de variables.
El resultado del test de Breusch-Pagan, que muestra un valor p prácticamente nulo, proporciona evidencia significativa en contra de la hipótesis nula de homocedasticidad. Esto confirma la violación del supuesto de homocedasticidad en el modelo.
En resumen, se puede concluir que el supuesto de homocedasticidad no se cumple en el modelo de regresión planteado en la sección 4.3.
Como recomendación, se sugiere explorar la utilización de transformaciones de variables u otras técnicas que puedan corregir la heterocedasticidad y mejorar la calidad del modelo.
De ser necesario compare el ajuste y supuestos del modelo inicial y el transformado.
Transformación de Variables: Enfoque Logarítmico
Dado que se ha identificado la violación de los supuestos fundamentales del modelo de regresión lineal, se propone una transformación en las variables con el objetivo de mejorar tanto el ajuste del modelo como el cumplimiento de los supuestos. La transformación sugerida consiste en aplicar una función logarítmica a las variables relevantes.
Transformación logarítmica
## [1] "Supuesto 1: Linealidad (Dispersión de los residuales vs. valores ajustados)"
## [1] "Supuesto 2: Normalidad de los Residuales (Prueba de normalidad Shapiro-Wilk)"
##
## Shapiro-Wilk normality test
##
## data: resid(modelo_log)
## W = 0.98958, p-value = 2.857e-08
## [1] "Supuesto 3: Homocedasticidad (Prueba de Breusch-Pagan para homocedasticidad)"
##
## studentized Breusch-Pagan test
##
## data: modelo_log
## BP = 92.877, df = 1, p-value < 2.2e-16Análisis de las Validaciones de Supuestos en el Modelo Transformado
A continuación, se detallan los análisis que permiten interpretar las validaciones de los supuestos clave del modelo transformado:
Linealidad: La verificación de la linealidad se basa en la disposición de los puntos en los gráficos. Cuando los puntos se dispersan aleatoriamente alrededor de una línea horizontal centrada en cero (el eje Y), se sugiere que el supuesto de linealidad se cumple. En este caso, no se observan patrones discernibles en la relación entre los valores ajustados y los residuales, lo que respalda la validez del supuesto de linealidad.
Normalidad de Residuales: La normalidad de los residuales es un aspecto crítico. El valor p obtenido de la prueba de normalidad Shapiro-Wilk es aproximadamente 0, lo que respalda la premisa de que los valores residuales no siguen una distribución normal. La no normalidad de los residuales debe ser considerada al interpretar el modelo y al tomar decisiones basadas en él.
Homocedasticidad: La prueba de Breusch-Pagan revela un valor p aproximadamente igual a 0, lo que reafirma la premisa en contra de la hipótesis nula de homocedasticidad. Esto indica que la varianza de los residuales no es constante a lo largo de todos los niveles de valores ajustados, lo que es contrario al supuesto de homocedasticidad.
En resumen, los análisis indican que el supuesto de linealidad se cumple en el modelo transformado. Sin embargo, se mantiene la evidencia en contra de la normalidad de los residuales y la homocedasticidad, lo que debe ser considerado al interpretar y utilizar el modelo.
Comparación de modelo inicial y transformación
## [1] " Comparación de modelos"
##
## Call:
## lm(formula = preciom ~ areaconst, data = vivienda_apartamentos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -225.404 -23.902 -4.754 25.763 209.021
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 39.04679 4.09977 9.524 <2e-16 ***
## areaconst 2.16473 0.05204 41.595 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 43.34 on 1361 degrees of freedom
## Multiple R-squared: 0.5597, Adjusted R-squared: 0.5594
## F-statistic: 1730 on 1 and 1361 DF, p-value: < 2.2e-16
##
## Call:
## lm(formula = log_precio ~ log_areaconst, data = vivienda_apartamentos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.8890 -0.1119 0.0028 0.1343 0.7538
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.48373 0.08703 17.05 <2e-16 ***
## log_areaconst 0.88175 0.02026 43.52 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.1914 on 1361 degrees of freedom
## Multiple R-squared: 0.5819, Adjusted R-squared: 0.5816
## F-statistic: 1894 on 1 and 1361 DF, p-value: < 2.2e-16
Comparación de Modelos y Selección del Modelo
Preferencial
Para evaluar y comparar los modelos, se presenta un resumen que destaca las variables de comparación más relevantes:
Modelo Original:
R cuadrado ajustado: 0.5594
Coeficiente de área construida: 2.16473
Supuestos de regresión: Violación de homocedasticidad.
Modelo Logarítimico:
R cuadrado ajustado: 0.5816
Coeficiente de Logaritmo de área construida: 0.88175
Supuestos de regresión: Violación de homocedasticidad.
Considerando los resultados anteriores y la comparación de los datos presentados, la selección del modelo preferencial se basa en la búsqueda del modelo con el valor más alto de R cuadrado ajustado. En este caso, el modelo logarítmico exhibe un R cuadrado ajustado superior, lo que lo posiciona como la elección preferida.
Es fundamental tener en cuenta que, a pesar de la violación del supuesto de homocedasticidad en ambos modelos, el modelo logarítmico ofrece un ajuste estadístico más sólido, lo que respalda su preferencia en términos de su capacidad para explicar la variabilidad en los datos.
Estime varios modelos y compare los resultados obtenidos. En el mejor de los modelos, ¿se cumplen los supuestos sobre los errores?
##
## Shapiro-Wilk normality test
##
## data: resid(modelo_sqrt)
## W = 0.98639, p-value = 5.39e-10
##
## studentized Breusch-Pagan test
##
## data: modelo_sqrt
## BP = 197.45, df = 1, p-value < 2.2e-16
Transformación recíproco
##
## Shapiro-Wilk normality test
##
## data: resid(modelo_reciproco)
## W = 0.96427, p-value < 2.2e-16
##
## studentized Breusch-Pagan test
##
## data: modelo_reciproco
## BP = 0.4984, df = 1, p-value = 0.4802
##
## Call:
## lm(formula = reciproco_precio ~ reciproco_areaconst, data = vivienda_apartamentos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.0040604 -0.0006786 -0.0001167 0.0005261 0.0054855
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.0004085 0.0001190 3.433 0.000614 ***
## reciproco_areaconst 0.3520871 0.0081927 42.976 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.0009848 on 1361 degrees of freedom
## Multiple R-squared: 0.5757, Adjusted R-squared: 0.5754
## F-statistic: 1847 on 1 and 1361 DF, p-value: < 2.2e-16
Análisis de Comparación de Modelos Transformados
En el contexto de la comparación de los dos modelos transformados, se presenta el siguiente resumen:
Modelo Raíz Cuadrada:
R cuadrado ajustado: 0.5741
Coeficiente de Raíz cuadrada de área construida: 1.38521
Supuestos de regresión: Violación de homocedasticidad.
Modelo Raíz Recíproco:
R cuadrado ajustado: 0.5754
Coeficiente de recíproco de área construida: 0.35208
Supuestos de regresión: Violación de homocedasticidad.
En ambos modelos transformados, se observa una violación del supuesto de homocedasticidad, lo cual indica que la varianza de los residuales no es constante a lo largo de los niveles de los valores ajustados.
Es relevante mencionar que, al igual que en el modelo original y en el modelo logarítmico, no se cumplen los supuestos establecidos para estos modelos transformados. Esto subraya la importancia de la elección cuidadosa de las transformaciones de variables y la consideración de otras técnicas que puedan abordar la violación de los supuestos.
Luego de un exhaustivo análisis de los modelos de regresión lineal y sus respectivas transformaciones, se presentan las siguientes conclusiones:
Modelos de Regresión Lineal:
El modelo original exhibe un R cuadrado ajustado de 0.5594, lo que significa que aproximadamente el 55.94% de la variabilidad en el precio de la vivienda se explica por la variabilidad en el área construida. Sin embargo, se viola el supuesto de homocedasticidad, lo que indica que la varianza de los residuales no es constante.
El modelo logarítmico muestra una mejora en el R cuadrado ajustado, alcanzando un valor de 0.5816. A pesar de esta mejora, sigue siendo evidente la violación del supuesto de homocedasticidad.
Modelos Transformados (Raíz Cuadrada y Raíz Recíproco):
Dadas las consideraciones anteriores, se presenta la siguiente recomendación:
Recomendación Final:
Basado en el análisis y la comparación de los modelos, el Modelo Logarítmico es el preferido debido a su R cuadrado ajustado más alto, que indica una mejor capacidad para explicar la variabilidad en los datos. Sin embargo, es importante destacar que este modelo también incumple el supuesto de homocedasticidad, lo que sugiere que la variabilidad de los residuales no es constante en todos los niveles de valores ajustados.
Dada la persistente violación del supuesto de homocedasticidad en todos los modelos evaluados, se recomienda la exploración de técnicas adicionales, como la inclusión de variables de interacción o la aplicación de transformaciones más avanzadas, con el fin de mejorar el ajuste del modelo y cumplir con los supuestos necesarios para un análisis de regresión sólido.
También se insta a considerar otros factores clave, como la ubicación, cantidad de parqueaderos, cantidad de baños y la demanda en el mercado, que pueden influir en el precio de la vivienda. Un análisis completo que incluya estas variables puede proporcionar una visión más precisa y robusta de los determinantes del precio de las viviendas.
La toma de decisiones informada y estratégica es esencial en el ámbito inmobiliario. Los análisis realizados hasta ahora brindan una base sólida para tomar decisiones, pero también destacan la importancia de continuar investigando y refinando el modelo para obtener resultados aún más precisos. La inversión en la mejora del modelo y la consideración de factores adicionales conducirán a una toma de decisiones más sólida y beneficiosa para su empresa en el mercado inmobiliario.