attach(datos_vivienda)
summary(datos_vivienda)
## Area_construida precio_millon
## Min. : 80.0 Min. :240.0
## 1st Qu.: 86.0 1st Qu.:251.2
## Median : 97.0 Median :305.0
## Mean :115.7 Mean :332.1
## 3rd Qu.:130.0 3rd Qu.:395.0
## Max. :195.0 Max. :480.0
library(ggplot2)
library(ggpubr)
par(mfrow=c(2,2))
boxplot(precio_millon, main = "Precio de Vivienda", horizontal = TRUE, xlab = "Precio de Vivienda", col = "#6CA6CD")
hist(precio_millon, breaks = 5, main = "Precio de vivienda", xlab = "Precio de Vivienda", col = "#7CCD7C")
boxplot(Area_construida, main = "Área Construida", horizontal = TRUE, xlab = "Área Construida", col = "#6CA6CD")
hist(Area_construida, breaks = 5, main = "Área Construida", xlab = "Área Construida", col = "#7CCD7C")
El precio de las viviendas incluidas en la muestra está centrado en 332.1 millones, sin embargo, la distribución de precios de vivienda esta ligeramente sesgada a la derecha, el rango de valores del precio de las viviendas varía entre 240 y 480 millones. Con respecto a la variable independiente, el área construida, el promedio de las casas muestreadas tiene 115.7 metros cuadrados, con un rango entre 80 metros cuadrados y 195 metros cuadrados.
La distribución del área de las viviendas si muestra un sesgo bastante pronunciado a la derecha; podemos observar que el 50% de las viviendas tienen entre 80 y 97 metros cuadrados, mientras que el otro 50% tiene entre 97 metros cuadrados y 195 metros cuadrados.
g1=ggplot(datos_vivienda,aes(y=precio_millon,x=Area_construida))+geom_point(fill="#69b3a2", color="black")+theme_bw()+geom_smooth()
g1
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'
cor.test(y=precio_millon,x=Area_construida)
##
## Pearson's product-moment correlation
##
## data: Area_construida and precio_millon
## t = 11.422, df = 24, p-value = 3.45e-11
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.8255707 0.9634168
## sample estimates:
## cor
## 0.9190295
En el diagrama de dispersión se puede determinar que existe una relación lineal directa entre el precio de la vivienda y el área construida, pero esta relación se encuentra en algunos valores extremos del precio de la vivienda y los metros cuadrados, por lo que finalmente se determina en este. Según el coeficiente de correlación es 91,9%, el cual, existe una fuerte correlación lineal positiva entre los precios de la vivienda y el área construida.
modelo_regresion=lm(precio_millon~Area_construida)
summary(modelo_regresion)
##
## Call:
## lm(formula = precio_millon ~ Area_construida)
##
## Residuals:
## Min 1Q Median 3Q Max
## -51.673 -25.612 -6.085 24.875 67.650
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 86.234 22.479 3.836 0.000796 ***
## Area_construida 2.124 0.186 11.422 3.45e-11 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 33.05 on 24 degrees of freedom
## Multiple R-squared: 0.8446, Adjusted R-squared: 0.8381
## F-statistic: 130.5 on 1 and 24 DF, p-value: 3.45e-11
El modelo de regresión lineal se estima en: Precio = 86.234 + 2.124 * Area_Construida.
𝛽0 = 86.234, este coeficiente nos indica el valor de la variable precio cuando no se tiene efecto del área construida. Para el ejemplo no se puede decir una casa de 0 m2 vale 86 millones, pero si podemos concluir que el precio base de las casas sin la influencia del metraje es de 86.234 millones en promedio.
𝛽1 = 2.124, este coeficiente nos indica el cambio en el precio por cada metro cuadrado variado en la vivienda. En otras palabras, el incremento de un metro cuadrado de área construida genera un aumento en el precio de la vivienda de 2.124 millones aproximadamente.
De acuerdo con el p-valor, se rechaza la hipótesis nula con un 95% de confianza, lo que nos indica que la variable área construida es significativa, y que el precio de las viviendas si depende de esta variable.
confint(modelo_regresion)
## 2.5 % 97.5 %
## (Intercept) 39.83983 132.627917
## Area_construida 1.74017 2.507771
Con respecto al coeficiente 𝛽1, el intervalo de 95% de confianza para este estimador es (1.74017, 2.507771), dado que el 0 no está incluido en el intervalo de confianza, podemos concluir que se rechaza la hipótesis nula, por lo cual, se concluye que la variable liquidación es significativa y que los precios de la vivienda dependen de esta variable. En otras palabras, cuanto mayor sea la superficie construida, mayor será el precio de la casa. Este es el mismo resultado que la prueba t de significación para la regresión lineal, donde el valor de P es inferior al 5 % y se rechaza la hipótesis nula de que el parámetro 𝑏 es igual a 0.
summary(modelo_regresion)
##
## Call:
## lm(formula = precio_millon ~ Area_construida)
##
## Residuals:
## Min 1Q Median 3Q Max
## -51.673 -25.612 -6.085 24.875 67.650
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 86.234 22.479 3.836 0.000796 ***
## Area_construida 2.124 0.186 11.422 3.45e-11 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 33.05 on 24 degrees of freedom
## Multiple R-squared: 0.8446, Adjusted R-squared: 0.8381
## F-statistic: 130.5 on 1 and 24 DF, p-value: 3.45e-11
Con base en el coeficiente de determinación ajustado, se puede concluir que el modelo explica el 83,81% de los cambios en el precio de la vivienda. Este coeficiente indica que el modelo se ajusta bien a los datos y que es un modelo confiable y funciona bien en predicciones futuras.
predict(modelo_regresion,newdata = list(Area_construida=110),interval = "confidence")
## fit lwr upr
## 1 319.8706 306.3133 333.4279
El precio estimado por el modelo para un apartamento de 110 metros cuadrados es de 319.9 millones, la oferta de una vivienda de 110 metros cuadrados a 200 millones resultaría una muy buena oferta dado que es un valor por debajo del esperado.
Como se trata de una vivienda no se puede solo decidir por el precio sino también considerar la ubicación exacta, el estado del inmueble, la antigüedad, su condición jurídica, es decir, libre de embargos, hipotecas, etc.
par(mfrow=c(2,2))
plot(modelo_regresion)
Como se puede observar la gráfica de los valores residuales siguen un comportamiento definido y no aleatorio, lo cual nos da señales que el modelo se puede ajustar para cubrir en un mayor porcentaje de relaciones entre áreas y precios. Cuando se identifique una aleatoriedad en los datos residuales podríamos decir que ya no hay ajuste que mejore el modelo. En la gráfica de prueba de normalidad se puede ver que hay puntos que no siguen la línea recta que nos asegura una distribución normal de los datos.
w=1/Area_construida
modelo_transformacion=lm(precio_millon~w)
summary(modelo_transformacion)
##
## Call:
## lm(formula = precio_millon ~ w)
##
## Residuals:
## Min 1Q Median 3Q Max
## -36.987 -16.743 -5.023 18.547 44.379
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 635.35 18.27 34.77 < 2e-16 ***
## w -32464.72 1895.32 -17.13 5.84e-15 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 23.05 on 24 degrees of freedom
## Multiple R-squared: 0.9244, Adjusted R-squared: 0.9212
## F-statistic: 293.4 on 1 and 24 DF, p-value: 5.839e-15
par(mfrow=c(2,2))
plot(modelo_transformacion)
Se decidió realizar una transformación hiperbólica de la variable dependiente (w = 1/x) para mejorar el modelo de regresión lineal porque el diagrama de dispersión, como se describió anteriormente, reveló una relación hiperbólica entre el precio de la vivienda y el área construida. El modelo resultante muestra que la variable de área construida con transformación sigue siendo significativa para predecir los precios de la vivienda.
summary(modelo_transformacion)
##
## Call:
## lm(formula = precio_millon ~ w)
##
## Residuals:
## Min 1Q Median 3Q Max
## -36.987 -16.743 -5.023 18.547 44.379
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 635.35 18.27 34.77 < 2e-16 ***
## w -32464.72 1895.32 -17.13 5.84e-15 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 23.05 on 24 degrees of freedom
## Multiple R-squared: 0.9244, Adjusted R-squared: 0.9212
## F-statistic: 293.4 on 1 and 24 DF, p-value: 5.839e-15
Después de la transformación, el coeficiente de determinación mejora en comparación con el primer modelo con un valor de R2 ajustado de 92,12%, esto sugiere que el modelo hiperbólico explica mejor los precios de la vivienda que el modelo simple.