Regresión Lineal Simple

attach(datos_vivienda)

Realice un análisis exploratorio de las variables precio de vivienda (millones de pesos COP) y área de la vivienda (metros cuadrados) - incluir gráficos e indicadores apropiados interpretados.

summary(datos_vivienda)

##  Area_construida precio_millon  
##  Min.   : 80.0   Min.   :240.0  
##  1st Qu.: 86.0   1st Qu.:251.2  
##  Median : 97.0   Median :305.0  
##  Mean   :115.7   Mean   :332.1  
##  3rd Qu.:130.0   3rd Qu.:395.0  
##  Max.   :195.0   Max.   :480.0

library(ggplot2)
library(ggpubr)

par(mfrow=c(2,2))

boxplot(precio_millon, main =  "Precio de Vivienda", horizontal = TRUE, xlab =  "Precio de Vivienda", col = "#6CA6CD")
hist(precio_millon, breaks = 5, main =  "Precio de vivienda", xlab =  "Precio de Vivienda", col = "#7CCD7C")

boxplot(Area_construida, main = "Área Construida",  horizontal = TRUE, xlab =  "Área Construida", col = "#6CA6CD")
hist(Area_construida, breaks = 5, main = "Área Construida", xlab =  "Área Construida", col = "#7CCD7C")

El precio de las viviendas incluidas en la muestra está centrado en 332.1 millones, sin embargo, la distribución de precios de vivienda esta ligeramente sesgada a la derecha, el rango de valores del precio de las viviendas varía entre 240 y 480 millones. Con respecto a la variable independiente, el área construida, el promedio de las casas muestreadas tiene 115.7 metros cuadrados, con un rango entre 80 metros cuadrados y 195 metros cuadrados.

La distribución del área de las viviendas si muestra un sesgo bastante pronunciado a la derecha; podemos observar que el 50% de las viviendas tienen entre 80 y 97 metros cuadrados, mientras que el otro 50% tiene entre 97 metros cuadrados y 195 metros cuadrados.

Realice un análisis exploratorio bivariado de datos enfocado en la relación entre la variable respuesta (y=precio) en función de la variable predictora (x=área) - incluir gráficos e indicadores apropiados interpretados.

g1=ggplot(datos_vivienda,aes(y=precio_millon,x=Area_construida))+geom_point(fill="#69b3a2", color="black")+theme_bw()+geom_smooth()
g1

## `geom_smooth()` using method = 'loess' and formula 'y ~ x'

cor.test(y=precio_millon,x=Area_construida)

## 
##  Pearson's product-moment correlation
## 
## data:  Area_construida and precio_millon
## t = 11.422, df = 24, p-value = 3.45e-11
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.8255707 0.9634168
## sample estimates:
##       cor 
## 0.9190295

En el diagrama de dispersión se puede determinar que existe una relación lineal directa entre el precio de la vivienda y el área construida, pero esta relación se encuentra en algunos valores extremos del precio de la vivienda y los metros cuadrados, por lo que finalmente se determina en este. Según el coeficiente de correlación es 91,9%, el cual, existe una fuerte correlación lineal positiva entre los precios de la vivienda y el área construida.

Estime el modelo de regresión lineal simple entre precio = f(área) +e. Interprete los coeficientes del modelo β0, β1 en caso de ser correcto.

modelo_regresion=lm(precio_millon~Area_construida)
summary(modelo_regresion)

## 
## Call:
## lm(formula = precio_millon ~ Area_construida)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -51.673 -25.612  -6.085  24.875  67.650 
## 
## Coefficients:
##                 Estimate Std. Error t value Pr(>|t|)    
## (Intercept)       86.234     22.479   3.836 0.000796 ***
## Area_construida    2.124      0.186  11.422 3.45e-11 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 33.05 on 24 degrees of freedom
## Multiple R-squared:  0.8446, Adjusted R-squared:  0.8381 
## F-statistic: 130.5 on 1 and 24 DF,  p-value: 3.45e-11

El modelo de regresión lineal se estima en: Precio = 86.234 + 2.124 * Area_Construida.

𝛽0 = 86.234, este coeficiente nos indica el valor de la variable precio cuando no se tiene efecto del área construida. Para el ejemplo no se puede decir una casa de 0 m2 vale 86 millones, pero si podemos concluir que el precio base de las casas sin la influencia del metraje es de 86.234 millones en promedio.

𝛽1 = 2.124, este coeficiente nos indica el cambio en el precio por cada metro cuadrado variado en la vivienda. En otras palabras, el incremento de un metro cuadrado de área construida genera un aumento en el precio de la vivienda de 2.124 millones aproximadamente.

De acuerdo con el p-valor, se rechaza la hipótesis nula con un 95% de confianza, lo que nos indica que la variable área construida es significativa, y que el precio de las viviendas si depende de esta variable.

Construir un intervalo de confianza (95%) para el coeficiente β1, interpretar y concluir si el coeficiente es igual a cero o no. Compare este resultado con una prueba de hipótesis t.

confint(modelo_regresion)

##                    2.5 %     97.5 %
## (Intercept)     39.83983 132.627917
## Area_construida  1.74017   2.507771

Con respecto al coeficiente 𝛽1, el intervalo de 95% de confianza para este estimador es (1.74017, 2.507771), dado que el 0 no está incluido en el intervalo de confianza, podemos concluir que se rechaza la hipótesis nula, por lo cual, se concluye que la variable liquidación es significativa y que los precios de la vivienda dependen de esta variable. En otras palabras, cuanto mayor sea la superficie construida, mayor será el precio de la casa. Este es el mismo resultado que la prueba t de significación para la regresión lineal, donde el valor de P es inferior al 5 % y se rechaza la hipótesis nula de que el parámetro 𝑏 es igual a 0.

Calcule e interprete el indicador de bondad y ajuste R2.

summary(modelo_regresion)

## 
## Call:
## lm(formula = precio_millon ~ Area_construida)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -51.673 -25.612  -6.085  24.875  67.650 
## 
## Coefficients:
##                 Estimate Std. Error t value Pr(>|t|)    
## (Intercept)       86.234     22.479   3.836 0.000796 ***
## Area_construida    2.124      0.186  11.422 3.45e-11 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 33.05 on 24 degrees of freedom
## Multiple R-squared:  0.8446, Adjusted R-squared:  0.8381 
## F-statistic: 130.5 on 1 and 24 DF,  p-value: 3.45e-11

Con base en el coeficiente de determinación ajustado, se puede concluir que el modelo explica el 83,81% de los cambios en el precio de la vivienda. Este coeficiente indica que el modelo se ajusta bien a los datos y que es un modelo confiable y funciona bien en predicciones futuras.

¿Cuál sería el precio promedio estimado para un apartamento de 110 metros cuadrados? ¿Considera entonces con este resultado que un apartamento en la misma zona con 110 metros cuadrados en un precio de 200 millones sería una buena oferta? ¿Qué consideraciones adicionales se deben tener?

predict(modelo_regresion,newdata = list(Area_construida=110),interval = "confidence")

##        fit      lwr      upr
## 1 319.8706 306.3133 333.4279

El precio estimado por el modelo para un apartamento de 110 metros cuadrados es de 319.9 millones, la oferta de una vivienda de 110 metros cuadrados a 200 millones resultaría una muy buena oferta dado que es un valor por debajo del esperado.

Como se trata de una vivienda no se puede solo decidir por el precio sino también considerar la ubicación exacta, el estado del inmueble, la antigüedad, su condición jurídica, es decir, libre de embargos, hipotecas, etc.

Realice la validación de supuestos del modelo por medio de graficos apropiados, interpretarlos y sugerir posibles soluciones si se violan algunos de ellos.

par(mfrow=c(2,2))
plot(modelo_regresion)

Como se puede observar la gráfica de los valores residuales siguen un comportamiento definido y no aleatorio, lo cual nos da señales que el modelo se puede ajustar para cubrir en un mayor porcentaje de relaciones entre áreas y precios. Cuando se identifique una aleatoriedad en los datos residuales podríamos decir que ya no hay ajuste que mejore el modelo. En la gráfica de prueba de normalidad se puede ver que hay puntos que no siguen la línea recta que nos asegura una distribución normal de los datos.

De ser necesario realice una transformación apropiada para mejorar el ajuste y supuestos del modelo.

w=1/Area_construida
modelo_transformacion=lm(precio_millon~w)
summary(modelo_transformacion)

## 
## Call:
## lm(formula = precio_millon ~ w)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -36.987 -16.743  -5.023  18.547  44.379 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    635.35      18.27   34.77  < 2e-16 ***
## w           -32464.72    1895.32  -17.13 5.84e-15 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 23.05 on 24 degrees of freedom
## Multiple R-squared:  0.9244, Adjusted R-squared:  0.9212 
## F-statistic: 293.4 on 1 and 24 DF,  p-value: 5.839e-15

par(mfrow=c(2,2))
plot(modelo_transformacion)

Se decidió realizar una transformación hiperbólica de la variable dependiente (w = 1/x) para mejorar el modelo de regresión lineal porque el diagrama de dispersión, como se describió anteriormente, reveló una relación hiperbólica entre el precio de la vivienda y el área construida. El modelo resultante muestra que la variable de área construida con transformación sigue siendo significativa para predecir los precios de la vivienda.

De ser necesario compare el ajuste y supuestos del modelo inicial y el transformado.

summary(modelo_transformacion)

## 
## Call:
## lm(formula = precio_millon ~ w)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -36.987 -16.743  -5.023  18.547  44.379 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    635.35      18.27   34.77  < 2e-16 ***
## w           -32464.72    1895.32  -17.13 5.84e-15 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 23.05 on 24 degrees of freedom
## Multiple R-squared:  0.9244, Adjusted R-squared:  0.9212 
## F-statistic: 293.4 on 1 and 24 DF,  p-value: 5.839e-15

Después de la transformación, el coeficiente de determinación mejora en comparación con el primer modelo con un valor de R2 ajustado de 92,12%, esto sugiere que el modelo hiperbólico explica mejor los precios de la vivienda que el modelo simple.

Regresión Lineal Simple

Karol Stefani Mejia

Miércoles 05 de Octubre de 2022