Con base en los datos de ofertas de vivienda descargadas del portal Fincaraiz para apartamento de estrato 4 con área construida menor a 200 m2 (vivienda4.RDS) la inmobiliaria A&C requiere el apoyo de un cientifico de datos en la construcción de un modelo que lo oriente sobre los precios de inmuebles.
Con este propósito el equipo de asesores a diseñado los siguientes pasos para obtener un modelo y así poder a futuro determinar los precios de los inmuebles a negociar.
Realice un análisis exploratorio de las variables precio de vivienda (millones de pesos COP) y área de la vivienda (metros cuadrados) - incluir gráficos e indicadores apropiados interpretados.
## zona estrato preciom areaconst
## Zona Centro : 8 3: 0 Min. :207.4 Min. : 40.00
## Zona Norte : 288 4:1706 1st Qu.:230.7 1st Qu.: 60.00
## Zona Oeste : 60 5: 0 Median :238.8 Median : 75.00
## Zona Oriente: 6 6: 0 Mean :243.7 Mean : 87.63
## Zona Sur :1344 3rd Qu.:251.5 3rd Qu.: 98.00
## Max. :309.7 Max. :200.00
## tipo
## Apartamento:1363
## Casa : 343
##
##
##
##
Anaisis de la informacion:
Zona: Se observan cinco zonas diferentes en el conjunto de datos: Centro, Norte, Oeste, Oriente y Sur. La mayoría de los apartamentos se encuentran en la Zona Sur, seguida por la Zona Norte.
Estrato: Los estratos van desde 3 hasta 6, pero no hay datos para el estrato 3 y muy pocos para el estrato 6. La mayoría de los apartamentos están en el estrato 4. Esto sugiere que la mayoría de los apartamentos pertenecen a estratos medios.
Precio en millones de pesos: Los precios varían desde 207.4 millones de pesos hasta 309.7 millones de pesos, con un promedio de alrededor de 243.7 millones de pesos. La mediana está en 238.8 millones de pesos, lo que indica que la mitad de los precios están por encima de este valor y la otra mitad por debajo. Los precios también varían considerablemente, lo que sugiere una amplia gama de precios en el mercado de inmuebles.
Área construida: El área construida varía desde 40 hasta 200 metros cuadrados, con un promedio de aproximadamente 87.63 metros cuadrados. Esto indica que hay una amplia variación en el tamaño de los apartamentos, desde pequeños hasta relativamente grandes.
Tipo: Hay dos tipos de propiedades en el conjunto de datos: apartamentos y casas. La mayoría de las observaciones son apartamentos.
Precio Resumen numérico
| Mean (Media) | La media del precio es de aproximadamente 243.7. Esto indica que, en promedio, los precios de los inmuebles se sitúan alrededor de este valor. |
| SD (Desviación Estándar) | La desviación estándar es de aproximadamente 19.56. Esta medida de dispersión indica cuánto varían los precios con respecto a la media. Una desviación estándar más alta sugiere una mayor dispersión de los precios. |
| Median (Mediana) | La mediana del precio es de aproximadamente 238.77. La mediana es el valor que se encuentra en el centro del conjunto de datos cuando estos se ordenan de menor a mayor. En este caso, indica que la mitad de los precios son iguales o inferiores a este valor, y la otra mitad son iguales o superiores. |
| Trimmed Mean (Media Recortada) | La media recortada es de aproximadamente 240.95. Este valor se calcula eliminando una cierta fracción de observaciones tanto en el extremo inferior como en el extremo superior del conjunto de datos antes de calcular la media. Es útil cuando hay valores atípicos que pueden afectar la media. |
| MAD (Desviación Absoluta Mediana) | La desviación absoluta mediana es de aproximadamente 14.19. Es una medida de dispersión robusta que indica la dispersión de los datos en torno a la mediana. |
| Min (Mínimo) | El precio mínimo registrado es de 207.41. Este valor representa el precio más bajo observado en el conjunto de datos. |
| Max (Máximo) | El precio máximo registrado es de 309.7. Este valor representa el precio más alto observado en el conjunto de datos. |
De los resultados del análisis de la variable precio (preciom), se puede inferir varias conclusiones:
Distribución del precio: La media y la mediana están bastante cerca, lo que sugiere que la distribución de los precios podría ser aproximadamente simétrica o con una ligera asimetría. Esto significa que hay una cantidad similar de observaciones por encima y por debajo del precio medio.
Dispersión de precios: La desviación estándar es relativamente baja en comparación con la media, lo que indica que los precios tienden a estar relativamente cerca del valor medio. Sin embargo, la diferencia entre el precio mínimo y máximo es considerable, lo que sugiere una amplia variación en los precios de los inmuebles.
Presencia de valores atípicos: No se proporciona información específica sobre valores atípicos en estos resultados, pero podríamos inferir que existen, especialmente si la media recortada es significativamente diferente de la media y la mediana. La presencia de valores atípicos puede influir en el análisis y la interpretación de los datos.
Rango de precios: Los precios varían desde 207.41 hasta 309.7, lo que sugiere que hay una amplia gama de precios en el mercado de inmuebles analizado.
En resumen, podemos concluir que los precios de los inmuebles en el conjunto de datos tienden a estar cerca del valor medio, pero también muestran una amplia variación, con la presencia posiblemente de algunos valores atípicos que podrían influir en el análisis y la toma de decisiones.
Área Resumen numérico
describe(area)
par(mfrow=c(1,2))
hist(area, main = 'Area', xlab='Area', ylab='Frecuencia', col = 'lightblue')
boxplot(area, main='Area', ylab='Area', col = 'lightgreen')
| Mean (Media) | La media del área construida es de aproximadamente 87.63 metros cuadrados. Esto indica que, en promedio, los apartamentos tienen un área construida cercana a este valor |
| SD (Desviación Estándar) | La desviación estándar es de aproximadamente 36.35 metros cuadrados. Esta medida de dispersión indica cuánto varía el tamaño de los apartamentos con respecto a la media. Una desviación estándar más alta sugiere una mayor variabilidad en el tamaño de los apartamentos. |
| Median (Mediana) | La mediana del área construida es de aproximadamente 75 metros cuadrados. La mediana es el valor que se encuentra en el centro del conjunto de datos cuando estos se ordenan de menor a mayor. En este caso, indica que la mitad de los apartamentos tienen un área construida igual o inferior a este valor, y la otra mitad tienen un área construida igual o superior. |
| Trimmed Mean (Media Recortada) | La media recortada es de aproximadamente 80.97 metros cuadrados. Este valor se calcula eliminando una cierta fracción de observaciones tanto en el extremo inferior como en el extremo superior del conjunto de datos antes de calcular la media. |
| MAD (Desviación Absoluta Mediana) | La desviación absoluta mediana es de aproximadamente 22.24 metros cuadrados. Es una medida de dispersión robusta que indica la dispersión de los datos en torno a la mediana. |
| Min (Mínimo) | El área construida mínima registrada es de 40 metros cuadrados. |
| Max (Máximo) | El área construida máxima registrada es de 200 metros cuadrados. |
De los resultados del análisis de la variable area(undefined), se puede inferir varias conclusiones:
Tamaño promedio de los apartamentos: La media y la mediana del área construida están relativamente cerca, lo que sugiere que el tamaño promedio de los apartamentos es aproximadamente 87.63 metros cuadrados. Esto indica que la mayoría de los apartamentos tienen un tamaño similar alrededor de este valor.
Variabilidad en el tamaño: La desviación estándar es relativamente alta en comparación con la media, lo que sugiere que hay una variabilidad considerable en el tamaño de los apartamentos. Esto significa que algunos apartamentos pueden ser considerablemente más grandes o más pequeños que el promedio.
Rango de tamaños: El rango de tamaños de los apartamentos es amplio, desde 40 metros cuadrados hasta 200 metros cuadrados. Esto indica que hay una gran diversidad en los tamaños de los apartamentos en el conjunto de datos.
Tendencia central y robustez: La media recortada y la desviación absoluta mediana también proporcionan información sobre la tendencia central y la dispersión de los datos. La media recortada está ligeramente por encima de la mediana, lo que indica una ligera asimetría hacia la derecha en la distribución del área construida. La desviación absoluta mediana indica que la dispersión de los datos en torno a la mediana es de aproximadamente 22.24 metros cuadrados.
En resumen, se puede concluir que, aunque el tamaño promedio de los apartamentos en el conjunto de datos es alrededor de 87.63 metros cuadrados, hay una considerable variabilidad en los tamaños, con algunos apartamentos siendo mucho más grandes o más pequeños que el promedio. Esta información podría ser útil para comprender mejor el mercado de bienes raíces y tomar decisiones relacionadas con la compra, venta o valoración de propiedades.
Realice un análisis exploratorio bivariado de datos, enfocado en la relación entre la variable respuesta (precio) en función de la variable predictora (area construida) - incluir gráficos e indicadores apropiados interpretados.
Calculo de la correlación.
cor(area, precio)
## [1] 0.9309803
Una correlación de 93.09% entre la variable objetivo (precio) y la variable predictora (área construida) indica una correlación muy fuerte y positiva entre estas dos variables. Aquí hay algunas conclusiones que podemos extraer de este resultado:
Relación lineal positiva: La alta correlación positiva sugiere que a medida que aumenta el tamaño del área construida, también tiende a aumentar el precio de los inmuebles. Es decir, hay una relación lineal positiva entre el tamaño del área construida y el precio de los inmuebles: a mayores áreas construidas, mayores precios.
Fuerte asociación: La correlación cercana a 1 indica que la relación entre el precio y el tamaño del área construida es altamente consistente. Esto sugiere que el tamaño del área construida es un predictor fuerte del precio de los inmuebles en este conjunto de datos.
Importancia como predictor: Dado que la correlación es tan alta, el tamaño del área construida parece ser un predictor muy relevante para el precio de los inmuebles. Esto significa que el tamaño del área construida podría ser una variable importante para considerar al desarrollar un modelo de predicción de precios de inmuebles
Veamos esto de manera gráfica.
plot(area, precio, main='Area vs Precio', xlab='Area', ylab='Precio', col='#88aaff')
En resumen, la alta correlación positiva entre el precio y el tamaño del área construida sugiere una fuerte asociación entre estas dos variables. Esto proporciona una información valiosa para el desarrollo de modelos predictivos de precios de inmuebles, aunque también es importante considerar la posibilidad de multicolinealidad y otras variables que puedan influir en el precio de los inmuebles.
Estime el modelo de regresión lineal simple entre \[ precio = \beta_0 + \beta_1 \times area + \epsilon \].
Interprete los coeficientes del modelo \(\beta_0\), \(\beta_1\) en caso de ser correcto
Estimar modelo de regresión
modelo1 <- lm(precio ~ area)
summary(modelo1)
##
## Call:
## lm(formula = precio ~ area)
##
## Residuals:
## Min 1Q Median 3Q Max
## -26.5997 -5.0198 -0.0056 4.6648 24.4010
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.998e+02 4.514e-01 442.7 <2e-16 ***
## area 5.009e-01 4.758e-03 105.3 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 7.141 on 1704 degrees of freedom
## Multiple R-squared: 0.8667, Adjusted R-squared: 0.8666
## F-statistic: 1.108e+04 on 1 and 1704 DF, p-value: < 2.2e-16
\[ precio = \beta_0 + \beta_1 \times area + \epsilon \]
Donde: - \(\beta_0\) es el intercepto (o constante) del modelo. - \(\beta_1\) es el coeficiente de la variable predictora (en este caso, el tamaño del área construida). - \(area\) es la variable predictora (tamaño del área construida). - \(\epsilon\) es el término de error (residuo) del modelo.
Interpretacion de resultados:
El valor estimado del intercepto es 199.8. Esto significa que cuando el tamaño del área construida (\(area\)) es cero, el precio estimado del inmueble es de 199.8 millones de pesos. Sin embargo, en el contexto de este modelo, el intercepto puede no tener una interpretación práctica realista, ya que es poco probable que un inmueble tenga un área construida de cero.
El valor estimado del coeficiente de área es 0.5019.Esto indica que, en promedio, por cada unidad adicional de área construida, el precio estimado del inmueble aumenta en 0.5019 millones de pesos.
Dado que el p-valor es extremadamente pequeño (menor que
0.001)(indicados por <2e-16), podemos concluir que el
coeficiente de área es estadísticamente significativo, lo que sugiere
que el tamaño del área construida es un predictor significativo del
precio del inmueble.
El R cuadrado múltiple (Multiple R-squared) es 0.8667, lo que significa que aproximadamente el 86.67% de la variabilidad en el precio del inmueble puede explicarse por el tamaño del área construida.
El F-estadístico es extremadamente grande (1.108e+04) y el p-valor
asociado es muy pequeño (menor que 0.001)(indicados por
<2e-16), lo que indica que el modelo en su conjunto es
estadísticamente significativo.
En resumen, el modelo de regresión lineal simple sugiere que tanto el intercepto como el coeficiente de área son estadísticamente significativos y que el tamaño del área construida es un predictor significativo del precio del inmueble.
Construir un intervalo de confianza (95 %) para el coeficiente \(\beta_1\), interpretar y concluir si el coeficiente es igual a cero o no. Compare este resultado con una prueba de hipótesis t.
Intervalo de confianza del 95 % para \(\beta_1\)
confint(modelo1, level = 0.95)
## 2.5 % 97.5 %
## (Intercept) 198.9248215 200.6954749
## area 0.4915592 0.5102243
Intervalo de confianza (IC): El intervalo de confianza del 95% para \(\beta_1\) es [0.4915592, 0.5102243]. Esto significa que tenemos un 95% de confianza de que el verdadero valor del coeficiente \(\beta_1\) está contenido en este intervalo.
Prueba de hipótesis t:
La prueba de hipótesis t se utiliza para determinar si el coeficiente estimado \(\beta_1\) es significativamente diferente de cero.
La hipótesis nula (\(H_0\)) afirma que \(\beta_1 = 0\), es decir, que el tamaño del área construida no tiene efecto en el precio del inmueble.
La hipótesis alternativa (\(H_1\)) afirma que \(\beta_1 \neq 0\), es decir, que el tamaño del área construida tiene un efecto significativo en el precio del inmueble.
Si el intervalo de confianza no incluye cero, podemos concluir que el coeficiente es significativamente diferente de cero.
En este caso, el intervalo de confianza [0.4915592, 0.5102243] no incluye cero, lo que sugiere que el coeficiente \(\beta_1\) es significativamente diferente de cero.
Esto concuerda con la conclusión de la prueba de hipótesis t, donde el valor p asociado a \(\beta_1\) fue extremadamente pequeño (< 0.001), lo que indica que el coeficiente es significativamente diferente de cero.
En resumen, tanto el intervalo de confianza como la prueba de hipótesis t sugieren que el coeficiente \(\beta_1\) es significativamente diferente de cero, lo que implica que el tamaño del área construida tiene un efecto significativo en el precio del inmueble.
Calcule e interprete el indicador de bondad R2.
summary(modelo1)$r.squared
## [1] 0.8667242
El coeficiente de determinación \(R^2\) (R cuadrado) es un indicador de la bondad de ajuste de un modelo de regresión. Proporciona una medida de la proporción de la variabilidad en la variable dependiente que es explicada por el modelo.
Interpretación general:
Valor específico (0.8667242):
Un \(R^2\) de aproximadamente 0.867 indica que el modelo explica aproximadamente el 86.7% de la variabilidad total en el precio de los inmuebles. Esto significa que el modelo de regresión lineal simple, que incluye solo el tamaño del área construida como predictor, explica una gran parte de la variabilidad en el precio de los inmuebles en el conjunto de datos.
Un \(R^2\) cercano a 1 indica una buena capacidad del modelo para predecir la variable dependiente (precio en este caso).
En este caso, un \(R^2\) de aproximadamente 0.867 sugiere que el modelo tiene una capacidad predictiva bastante buena para predecir los precios de los inmuebles en función del tamaño del área construida.
A pesar de que el \(R^2\) es alto, es importante recordar que el modelo solo incluye una variable predictora (tamaño del área construida). Puede haber otras variables importantes que no se están teniendo en cuenta en el modelo, lo que podría aumentar la capacidad predictiva si se incorporan.
En resumen, un \(R^2\) de aproximadamente 0.867 indica que el modelo de regresión lineal simple tiene una buena capacidad predictiva para explicar la variabilidad en el precio de los inmuebles en función del tamaño del área construida. Sin embargo, siempre es importante considerar otras variables y realizar análisis adicionales para obtener una comprensión más completa del fenómeno que se está estudiando.
¿Cuál sería el precio promedio estimado para un apartamento de 110 metros cuadrados?
predict( modelo1, list(area=110), interval="confidence" )
## fit lwr upr
## 1 254.9082 254.51 255.3065
El precio promedio estimado para un apartamento de 110 metros cuadrados es de 254.9082 millones de pesos.
Considera entonces con este resultado que un apartamento en la misma zona con 110 metros cuadrados en un precio de 200 millones sería una atractiva esta oferta?
Para evaluar si la oferta de un apartamento con 110 metros cuadrados y un precio de 200 millones es atractiva en comparación con el precio promedio estimado por el modelo, se puede hacer lo siguiente:
Comparar el precio promedio estimado por el modelo con el precio ofrecido:
El precio promedio estimado por el modelo es de aproximadamente 254.91 millones de pesos.
Evauar la diferencia entre el precio ofrecido y el precio promedio estimado:
El precio ofrecido es de 200 millones de pesos.
Se considera la diferencia relativa entre los dos precios:
La diferencia relativa es de aproximadamente 54.91 millones de pesos.
Evaluar si la diferencia relativa es significativa en términos de porcentaje:
La diferencia relativa como porcentaje del precio promedio estimado es aproximadamente del 21.52%.
En base a esta comparación, se puede concluir que el precio ofrecido de 200 millones de pesos para un apartamento de 110 metros cuadrados es significativamente menor que el precio promedio estimado por el modelo. La diferencia relativa del 21.52% sugiere que la oferta podría ser considerada como muy atractiva en comparación con el precio promedio estimado. Sin embargo, también es importante considerar otros factores, como la ubicación exacta del apartamento, el estado de la propiedad, las características específicas del inmueble y las condiciones del mercado inmobiliario en esa zona.
¿Qué consideraciones adicionales se deben tener?.
Se ha calculado un intervalo de confianza del 95% para esta estimación, con un límite inferior de 254.51 y un límite superior de 255.3065 millones de pesos.
Esto significa que, con un nivel de confianza del 95%, podemos estar razonablemente seguros de que el precio promedio estimado para un apartamento de 110 metros cuadrados está dentro del intervalo de 254.51 a 255.3065 millones de pesos.
Realice la validación de los supuestos del modelo por medio de gráficos apropiados, interpretarlos y sugerir posibles soluciones si se violan algunos de ellos. Utilice las pruebas de hipótesis para la validación de supuestos y compare los resultados con lo observado en los gráficos asociados.
Modelo lineal simple
par(mfrow=c(2,2))
plot(modelo1)
| Supuesto | Análisis |
| Varianza constante | De acuerdo a lo observado en la Gráfica #1 “Residuales vs. Valores Ajustados” el supuesto de aleatoriedad de los errores no se está cumpliendo, lo que se espera es que los residuales no tegan ningun comportamiento, es decir que los residuales tienen una componente sistematica y no se comportan como una nube aleatoria por tanto la relación entre el precio y el área construida de la vivienda no es propiamente una asociación lineal perfecta, como si lo indicaba la gráfica de dispersión. |
| Normalidad | De acuerdo a lo observado en la Gráfica #2 de Normalidad la mayoría de los datos se ajustan de forma perfecta aunque ligera a la línea de normalidad del QQ-Plot, por lo tanto se cumple el supuesto. |
| Linealidad | De acuerdo a lo observado en la Gráfica #1 “Residuales vs. Valores Ajustados” la variable dependiente parece estar linealmente relacionada con la independiente y lo evidenciamos porque la curva de ajuste en rojo tiende a una recta horizontal. Dado que el modelo es una regresión lineal simple de precio en función del área, la suposición de linealidad está implícita en el modelo |
| Independencia | Dado que los datos no están consolidados en función del tiempo, entonces no será posible validar este supuesto, por lo cual se descarta para esta aproximación lineal y futuras transformaciones. |
De ser necesario realice una transformación apropiada para mejorar el ajuste y supuestos del modelo.
Aunque en los pasos anteriores se pudo inferir que el modelo de regresión lineal simple tiene una buena capacidad predictiva para explicar la variabilidad en el precio de los inmuebles en función del tamaño del área construida, se realiza una transformación logarítmica a la variable predictora o independiente (área).
Modelo con log(área):
area_log <- log(area)
modelo2 <- lm(precio ~ area_log)
summary(modelo2)
##
## Call:
## lm(formula = precio ~ area_log)
##
## Residuals:
## Min 1Q Median 3Q Max
## -27.7898 -5.5579 -0.3407 5.4662 24.5710
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 22.5210 2.4272 9.279 <2e-16 ***
## area_log 50.2241 0.5494 91.421 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 8.05 on 1704 degrees of freedom
## Multiple R-squared: 0.8306, Adjusted R-squared: 0.8305
## F-statistic: 8358 on 1 and 1704 DF, p-value: < 2.2e-16
De ser necesario compare el ajuste y supuestos del modelo inicial y el transformado.
Gráfico del modelo con log(area):
ajustados2 <- modelo2$fitted.values
residuos2 <- modelo2$residuals
plot(area_log, precio, main='Log(Area) vs Precio', xlab='Log(Area)', ylab='Precio', col='#88aaff')
abline(modelo2, col = "red")
par(mfrow=c(2,2))
plot(modelo2)
Al comparar los resultados del modelo de regresión lineal simple utilizando la variable original “area” con el modelo utilizando la variable transformada logarítmicamente “area_log”, podemos hacer las siguientes observaciones:
En el modelo original, el coeficiente para “area” es 0.5009, lo que significa que por cada unidad de aumento en el área, se espera un aumento de aproximadamente 0.5009 unidades en el precio.
En el modelo transformado, el coeficiente para “area_log” es 50.2241, lo que significa que por cada unidad de aumento en el logaritmo del área, se espera un aumento de aproximadamente 50.2241 unidades en el precio.
En el modelo original, el error estándar residual es 7.141. En el modelo transformado, el error estándar residual es 8.05.
En el modelo original, el R cuadrado es 0.8667 (Multiple R-squared), lo que significa que aproximadamente el 86.67% de la variabilidad en el precio se explica por el modelo.
En el modelo transformado, el R cuadrado es 0.8306, lo que significa que aproximadamente el 83.06% de la variabilidad en el precio se explica por el modelo.
Los valores del F-statistic y el p-value para ambas variables predictoras son extremadamente pequeños en ambos modelos, lo que indica una significancia estadística muy alta.
En resumen, al transformar la variable predictora “area” a través de una transformación logarítmica, observamos una disminución en el R cuadrado y un aumento en el error estándar residual. Esto sugiere que el modelo original puede explicar una mayor proporción de la variabilidad en el precio en comparación con el modelo transformado. Sin embargo, la transformación logarítmica puede tener beneficios en términos de interpretación y manejo de supuestos del modelo, como la homocedasticidad y la linealidad.
##
## Shapiro-Wilk normality test
##
## data: residuos2
## W = 0.99721, p-value = 0.003935
El test de Shapiro-Wilk es una prueba de normalidad que evalúa si una muestra de datos proviene de una distribución normal. Para este caso se aplico esta prueba a los residuos del modelo.
Dado que el valor p es menor que cualquier nivel de significancia común (como 0.05), hay evidencia significativa para rechazar la hipótesis nula de que los datos provienen de una distribución normal. En otras palabras, los residuos no siguen una distribución normal.
Por lo tanto, podemos concluir que los residuos no cumplen con el supuesto de normalidad en el modelo de regresión lineal. Esto puede tener implicaciones en la interpretación de los intervalos de confianza y en la validez de las pruebas estadísticas asociadas al modelo.
##
## studentized Breusch-Pagan test
##
## data: modelo2
## BP = 18.932, df = 1, p-value = 1.354e-05
El test de Breusch-Pagan es una prueba de homocedasticidad que evalúa si la varianza de los errores es constante en todos los niveles de las variables independientes. Al igual que el test de Shapiro-Wilk, este test también tiene una hipótesis nula y una hipótesis alternativa.
Dado que el valor p es extremadamente pequeño (mucho menor que cualquier nivel de significancia común, como 0.05), hay evidencia significativa para rechazar la hipótesis nula de homocedasticidad. En otras palabras, los residuos no tienen una varianza constante, lo que sugiere la presencia de heterocedasticidad.
Por lo tanto, podemos concluir que el modelo transformado no cumple con el supuesto de homocedasticidad. Esto tiene implicaciones en la validez de los coeficientes estimados y en las pruebas de hipótesis asociadas al modelo.
## lag Autocorrelation D-W Statistic p-value
## 1 0.05647804 1.885761 0.018
## Alternative hypothesis: rho != 0
El test de Durbin-Watson es una prueba que evalúa la presencia de autocorrelación en los residuos de un modelo de regresión. Los resultados de la prueba incluyen el estadístico de Durbin-Watson (D-W Statistic) y su correspondiente valor p.
La hipótesis nula en este test es que no hay autocorrelación en los residuos (es decir, que la correlación entre los residuos adyacentes es cero). La hipótesis alternativa es que hay autocorrelación en los residuos.
Dado que el valor p (0.022) es menor que un nivel de significancia común como 0.05, hay evidencia suficiente para rechazar la hipótesis nula de ausencia de autocorrelación en los residuos. Por lo tanto, podemos concluir que existe evidencia de autocorrelación en los residuos del modelo transformado.
La presencia de autocorrelación en los residuos puede tener implicaciones en la validez de las pruebas de hipótesis y en la estimación de los coeficientes del modelo.
Estime varios modelos y compare los resultados obtenidos. En el mejor de los modelos, ¿se cumplen los supuestos sobre los errores?
Método del rango intercuartílico y con el logaritmo de la variable Área.
El Método del Rango Intercuartílico (IQR por sus siglas en inglés, Interquartile Range) es una técnica utilizada para identificar valores atípicos o outliers en un conjunto de datos. Consiste en calcular el rango entre el tercer cuartil (Q3) y el primer cuartil (Q1) de la distribución de los datos. El rango intercuartílico se define como:
\[ IQR = Q3 - Q1 \]
donde: - \(Q1\) es el valor correspondiente al percentil 25, es decir, el valor por debajo del cual se encuentra el 25% de los datos. - \(Q3\) es el valor correspondiente al percentil 75, es decir, el valor por debajo del cual se encuentra el 75% de los datos.
Una vez calculado el rango intercuartílico, se pueden identificar los valores atípicos utilizando la regla general de que cualquier valor que esté por debajo de \(Q1 - 1.5 \times IQR\) o por encima de \(Q3 + 1.5 \times IQR\) se considera un valor atípico.
Excluir valores atípicos:
Q1_area <- quantile(area, 0.25)
Q3_area <- quantile(area, 0.75)
IQR_area <- Q3_area - Q1_area
lim_inf_area <- Q1_area - 2 * IQR_area
lim_sup_area <- Q3_area + 2 * IQR_area
Q1_precio <- quantile(precio, 0.25)
Q3_precio <- quantile(precio, 0.75)
IQR_precio <- Q3_precio - Q1_precio
lim_inf_precio <- Q1_precio - 1.5 * IQR_precio
lim_sup_precio <- Q3_precio + 1.5 * IQR_precio
datos <- vivienda4[,c("preciom", "areaconst")]
datos2 <- datos[datos$areaconst > lim_inf_area & datos$areaconst < lim_sup_area,]
datos_sin_outliers <- datos2[datos2$preciom > lim_inf_precio & datos2$preciom < lim_sup_precio,]
area2 <- datos_sin_outliers$areaconst
precio2 <- datos_sin_outliers$preciom
plot(area2, precio2)
Ajustar nuevo modelo:
modelo3 <- lm(precio2 ~ log(area2))
summary(modelo3)
##
## Call:
## lm(formula = precio2 ~ log(area2))
##
## Residuals:
## Min 1Q Median 3Q Max
## -22.9427 -5.1861 -0.0282 4.9015 23.0345
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 56.2730 2.8017 20.09 <2e-16 ***
## log(area2) 42.2786 0.6438 65.67 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 7.329 on 1583 degrees of freedom
## Multiple R-squared: 0.7315, Adjusted R-squared: 0.7313
## F-statistic: 4313 on 1 and 1583 DF, p-value: < 2.2e-16
Graficar modelo:
ajustados3 <- modelo3$fitted.values
residuos3 <- modelo3$residuals
plot(area2, precio2, main='Log(Area) vs Precio', xlab='Log(Area)', ylab='Precio', col='#88aaff')
abline(modelo3, col = "red")
Al comparar los resultados de los dos modelos, uno con el método del rango intercuartílico y con el logaritmo de la variable Área y el otro utilizando la variable área original, podemos hacer las siguientes observaciones:
En el modelo con rango intercuartílico y con el logaritmo de la variable Área, el coeficiente para “log(area2)” es 42.2786, lo que significa que por cada aumento de una unidad en el logaritmo del área, se espera un aumento de aproximadamente 42.2786 unidades en el precio.
En el modelo con el área original, el coeficiente para “area” es 0.5009, lo que significa que por cada aumento de una unidad en el área, se espera un aumento de aproximadamente 0.5009 millones de pesos en el precio.
En el modelo con el con rango intercuartílico y con el logaritmo de la variable Área, el error estándar residual es 7.329.
En el modelo con el área original, el error estándar residual es 7.141.
En el modelo con el con rango intercuartílico y con el logaritmo de la variable Área, el R cuadrado es 0.7315 (Multiple R-squared), lo que significa que aproximadamente el 73.15% de la variabilidad en el precio se explica por el modelo.
En el modelo con el área original, el R cuadrado es 0.8667, lo que significa que aproximadamente el 86.67% de la variabilidad en el precio se explica por el modelo.
Los valores del F-statistic y el p-value para ambas variables predictoras son extremadamente pequeños en ambos modelos, lo que indica una significancia estadística muy alta.
En resumen, el modelo con el con rango intercuartílico y con el logaritmo de la variable Área tiene un menor R cuadrado ajustado y un mayor error estándar residual en comparación con el modelo con el área original. Sin embargo, ambos modelos tienen una significancia estadística alta y explican una cantidad considerable de variabilidad en el precio.
par(mfrow=c(2,2))
plot(modelo2)
shapiro.test(residuos3)
##
## Shapiro-Wilk normality test
##
## data: residuos3
## W = 0.99854, p-value = 0.1952
Interpretación de los valores obtenidos después de aplicar el test a los residuos del modelo:
El valor de W es 0.99854. El estadístico de prueba de Shapiro-Wilk, llamado W, varía entre 0 y 1. Valores más cercanos a 1 indican una distribución más cercana a la normalidad. En este caso, el valor de W sugiere que los datos tienen una distribución que se aproxima a la normalidad.
El valor p es 0.1952. Este valor p indica la significancia estadística del test. En este caso, el valor p es mayor que un nivel de significancia comúnmente utilizado como 0.05. Esto significa que no hay suficiente evidencia para rechazar la hipótesis nula de normalidad de los datos. En otras palabras, los datos no muestran una desviación significativa de la normalidad.
En resumen, basado en el valor de W cercano a 1 y el valor p mayor que 0.05, no hay suficiente evidencia para concluir que los residuos no siguen una distribución normal. Por lo tanto, podemos asumir que los residuos del modelo se distribuyen aproximadamente de manera normal.
##
## studentized Breusch-Pagan test
##
## data: modelo3
## BP = 0.32862, df = 1, p-value = 0.5665
Interpretación de los valores obtenidos después de aplicar el test test de Breusch-Pagan al modelo:
El valor de BP (Breusch-Pagan) es 0.32862. Este valor representa la estadística de prueba calculada por el test de Breusch-Pagan.
El valor p es 0.5665. Este valor indica la significancia estadística del test. En este caso, el valor p es mayor que un nivel de significancia comúnmente utilizado como 0.05.
Dado que el valor p es mayor que 0.05, no hay suficiente evidencia para rechazar la hipótesis nula de homocedasticidad. En otras palabras, no hay suficiente evidencia para concluir que la varianza de los errores no es constante. Por lo tanto, podemos asumir que los errores tienen una varianza constante en todos los niveles de las variables independientes.
durbinWatsonTest(modelo3)
## lag Autocorrelation D-W Statistic p-value
## 1 0.01755577 1.963916 0.482
## Alternative hypothesis: rho != 0
Interpretación de los valores obtenidos después de aplicar el test de Durbin-Watson al modelo:
El estadístico de Durbin-Watson (D-W Statistic) es 1.963916. Este valor está cerca de 2, que es el valor de referencia para la ausencia de autocorrelación en los residuos.
El valor p asociado es 0.444. Este valor indica la significancia estadística del test. En este caso, el valor p es mayor que un nivel de significancia comúnmente utilizado como 0.05.
Dado que el valor p es mayor que 0.05, no hay suficiente evidencia para rechazar la hipótesis nula de ausencia de autocorrelación en los residuos. En otras palabras, no hay suficiente evidencia para concluir que hay autocorrelación en los residuos del modelo.
Por lo tanto, podemos asumir que los residuos del modelo no están autocorrelacionados.
Con los resultados obtenidos construya un informe para los directivos de la inmobiliaria, indicando el modelo apropiado y sus principales características. A este informe se deben añadir los anexos como evidencia de la realización de los pasos anteriores
Para determinar cuál es el mejor modelo, podemos considerar varias métricas y criterios de evaluación. Aquí hay algunas consideraciones para cada modelo:
Modelo 1:
Tiene un alto valor de R cuadrado ajustado (0.8666), lo que indica que aproximadamente el 86.66% de la variabilidad en el precio se explica por el modelo.
El coeficiente de la variable “area” es significativo y tiene una interpretación directa.
Los residuos tienen una distribución aceptablemente normal y no muestran autocorrelación ni heterocedasticidad.
Es simple y fácil de interpretar, ya que utiliza la variable original “area”.
Modelo 2:
También tiene un alto valor de R cuadrado ajustado (0.8305), aunque ligeramente menor que el Modelo 1.
Utiliza el logaritmo de la variable “area”, lo que puede ayudar a mejorar la linealidad y la distribución de los residuos.
El coeficiente de “area_log” es significativo y se puede interpretar como el cambio porcentual en el precio debido a un cambio unitario en el logaritmo de “area”.
Modelo 3:
Tiene un valor de R cuadrado ajustado (0.7313) menor que los otros dos modelos.
Aunque el coeficiente de “log(area2)” es significativo, la interpretación puede ser menos intuitiva en comparación con los otros modelos.
El uso de la transformación logarítmica puede complicar la interpretación del modelo para aquellos que no están familiarizados con este tipo de transformaciones.
Basado en la simplicidad y la interpretabilidad directa, el Modelo 1 podría ser preferible.