Taller de Regresión Lineal Simple

Pontificia Universidad Javeriana Cali

Curso: Métodos y simulación estadística

Tema: Regresión Lineal Simple

Preguntas

Con base en los datos de ofertas de vivienda descargadas del portal Fincaraiz (datos_vivienda.xls - descarga) realizar los siguientes puntos:

Realice un análisis exploratorio de las variables precio de vivienda (millones de pesos COP) y área de la vivienda (metros cuadrados) - incluir gráficos e indicadores apropiados interpretados.

Se puede ver en la siguiente salida una impresión del encabezado de los datos. Esta tabla contiene 26 registros de viviendas y contienen información sobre el area total ($m^2$) y el precio en millones de cada una. Las dos variables a relacionar son cuantitativas continuas.

##   Area_contruida precio_millon
## 1             86           250
## 2            118           385
## 3            130           395
## 4            181           419
## 5             86           240
## 6             98           320

Análisis univariado

A continuación se imprime una tabla y dos gráficos con el fin de describir cada una de las dos variables.

##        min max promedio mediana Desv. Std. Shapiro
## Área    80 195 115.7469      97   35.54332  0.0006
## Precio 240 480 332.0769     305   82.14423  0.0027

Para el área se observa que la vivienda con menor area construida mide 80 $m^2$ y la vivienda con mayor area construida mide 195 $m^2$, que el area promedio de las viviendas es de 115.8 $m^2$ y el area mediana de 97 $m^2$, siendo menor que la media e indicando que la distribución del area es asimétrica hacia la izquierda. Por último la desviación estándar del area construida indica una dispersión alrededor de mas o menos 35,54 $m^2$.

Para los precios se observa que la vivienda con menor precio es de $240 millones y la vivienda con un precio mayor es de $480 millones, que el precio promedio de una vivienda es de 332,1 millones de pesos y su mediana de 305 millones, lo que indica que al igual que la variable área, que la distribución del precio de las viviendas es asimétrica hacia la izquierda. Por último, la desviación del precio de las viviendas muestra que los precios se dispersan alrededeor de más o menos $82,14 millones.

Además, con una significancia del 5% se rechaza la hipótesis de que las variables se distribuyen Normal (según el test de Shapiro Wilk). Esto se observa gráficamente en los siguientes histogramas, donde se observa que las distribuciones no tienen una forma acampanada,

Realice un análisis exploratorio bivariado de datos enfocado en la relación entre la variable respuesta (y=precio) en función de la variable predictora (x=area) - incluir gráficos e indicadores apropiados interpretados.

Ahora bien, se puede asumir que hay una relación directamente proporcional entre las dos variables estudiadas; puesto que generalmente, a mayor area construida una vivienda valdrá más.

## [1] "Correlación lineal:  0.919"

En el gráfico de puntos entre las variables Área y Precio se muestra que las viviendas con mayores áreas tienden a tener precios mayores, también que se producen tres espacios entre los datos de la variable Área, y quizá podría deberse al tamaño de muestra bajo $n=26$. En ese mismo sentido, se calcula el coeficiente de correlación que toma un valor de 0,919 lo cual es muestra de una correlación lineal posivita y fuerte entre las dos variables de estudio.

Estimación del modelo de regresión lineal simple: Estime el modelo de regresión lineal simple entre $𝑝𝑟𝑒𝑐𝑖𝑜 = 𝑓(𝑎𝑟𝑒𝑎) + 𝑒.$ Interprete los coeficientes del modelo $𝛽_0, 𝛽_1$ en caso de ser correcto.

Se estimará el modelo:

\[ \hat{y_i} = \hat{\beta_0} + \hat{\beta_1}x_{1i} \]

Donde $y$ y $x$ representan respectivamente los registros de los precios de las viviendas y los de áreas construidas, y donde $i = {1,...,26}$. Después del proceso de ajuste el modelo queda conformado por la ecuación:

\[ \hat{y_i} = 86.234 + 2.124x_{1i} \]

## 
## Call:
## lm(formula = precio_millon ~ Area_contruida, data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -51.673 -25.612  -6.085  24.875  67.650 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      86.234     22.479   3.836 0.000796 ***
## Area_contruida    2.124      0.186  11.422 3.45e-11 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 33.05 on 24 degrees of freedom
## Multiple R-squared:  0.8446, Adjusted R-squared:  0.8381 
## F-statistic: 130.5 on 1 and 24 DF,  p-value: 3.45e-11

Interpretación de los parámetros

El modelo queda ajustado con intercepto de 86.234 no tiene sentido en la interpretación (porque no hay valores existentes de areas iguales a 0)
La pendiente del modelo es igual a 2.124 que indica que por cada metro cuadrádo que aumente el área construida el precio de la vivienda aumentará en promedio un 2,124 millones de pesos. Además, la prueba t asociada arroja un valor muy cercano a 0, entonces con una significancia del 5% se puede asumir que la pendiente es diferente de 0.

Gráfica de la recta ajustada

plot(datos, main="Gráfico de dispersión entre Area construida y Precio",pch=16, col="blue",
     xlab = expression(paste("Area ",m^2)), ylab = paste("Precio"))
abline(modelo, lty = 2, lwd=2, col = "red")

Construir un intervalo de confianza (95%) para el coeficiente $𝛽_1$, interpretar y concluir si el coeficiente es igual a cero o no. Compare este resultado con una prueba de hipotesis t.

##  2.5 % 97.5 % 
##  1.740  2.508

Se tiene como resultado el intervalo de confianza dado por $(1.74;2.50)$, por lo tanto, con un 95% de confianza se puede afirmar que el valor real del aumento en el precios de la vivienda al aumentar un metro el area construida está entre 1.74 millones a 2.50 millones. En este caso, el intervalo de confianza no contiene al cero, lo cual concuerda con la conclusión de la prueba t respecto a que $\beta_1 = 0$.

Calcule e interprete el indicador de bondad y ajuste $𝑅^2$.

El coeficiente de determinación arroja un valor de $R^2 = 0.845$, es decir, que el 84,5% de la variabilidad total del precio de las viviendas, son representadas por las variaciones en las áreas construidas.

¿Cuál sería el precio promedio estimado para un apartamento de 110 metros cuadrados? Considera entonces con este resultado que un apartamento en la misma zona con 110 metros cuadrados en un precio de 200 millones sería una buena oferta? ¿Qué consideraciones adicionales se deben tener?.

predict(modelo, newdata =  list(Area_contruida = 110))

##        1 
## 319.8706

En este caso reemplazamos el valor del Area = 110 en el modelo y así obtenemos el resultado estimado de $\hat{y}=319,87$ . Indicando que para el área dada, el precio de la vivienda se ajusta a $\$ 319,87$ millones de pesos.

Ahora bien, Obtener una oferta de $ 200 millones de pesos por una casa con 110 $m^2$ podría pensarse entonces que será una muy buena oferta o “gangazo”, sin embargo, al querer estimar el precio de una vivienda se debe tener encuenta otras variables que pueden afectar el precio, variables que no se integraron, variables tales como: Número de habitaciones, la presencia o no de garaje, el número de pisos construidos, entre otras. Por lo tanto habría que percatarse de más caracteristicas de la casa para poder saber si es una buena oferta realmente. Si se introducen estas o más variables al modelo ya no estaríamos ante un modelo de regresión simple sino ante un modelo de regresión lineal múltiple.

Realice la validación de supuestos del modelo por medio de gráficos apropiados, interpretarlos y sugerir posibles soluciones si se violan algunos de ellos.

En este punto la validación de los supuestos mediante los gráficos de la función “plot(modelo).

Para cumplir el supuesto de ajuste adecuado, la grafica de los valores ajustados VS residuos deberían mostrar un comportamiento aleatorio, tal como una nube de puntos no relacionada. Sin embargo, se observa que los residuales del modelo tienen un comportamiento curvo o como función cuadrática, indicando la presencia de una relación no necesariamente lineal. Es posible que el modelo mejore respecto a su ajuste si en sus estimaciones se aumenta el tamaño de muestra, y también si se incluyen otras variables que estén relacionadas con el precio de una vivienda.

Supuesto 1: Ajuste adecuado

Supuesto 2: Normalidad

Respecto a la normalidad, se observa que los residuos se ajustan al rededor de la función identidad, por lo que se puede concluir a favor de la normalidad de los residuos.

De ser necesario realice una transformación apropiada para mejorar el ajuste y supuestos del modelo.

Transformación $Ln(precios)$

El modelo con la variable $ln(precios)$ arroja los siguientes resultados, donde se observa que los residuales tienen el mismo comportamiento, solo que cambian la unidades de los residuos.

Supuesto 1: Ajuste adecuado

Supuesto 2: Normalidad

El gráfico de normalidad parece tener un comportamiento similar al arrojado por el modelo anterior, cumpliendose el supuesto de normalidad.

Transformación: $\sqrt{x}$

Para observar otro tipo de información, se transforma la variable $x=\sqrt{x}$, obteniendo los siguientes resultados:

Supuesto 1: Ajuste adecuado

En este caso, el comportamiento de los residuos contra los valores ajustados sigue siendo el mismo a los anteriores modelos.

Supuesto 2: Normalidad

Además, el comportamiento de los residuos respecto a la normalidad sigue siendo similar, respecto a los anteriores modelos.

De ser necesario compare el ajuste y supuestos del modelo inicial y el transformado.

##                P-v Modelo    Rsq P-v Residuos Shapiro
## Modelo y                0 0.8446               0.3009
## Modelo ln(y)            0 0.8172               0.1368
## Modelo raiz(x)          0 0.8733               0.4477

En la anterior corrida, se presentan varios indicadores como el P-valor de la prueba F del modelo, donde se observa que todos son significativos para explicar la variable precio de las viviendas. Luego, los $R^2$ arrojan valores mayores a 80% en todos los modelos, sin embargo en el modelo con la transformación $\sqrt{x}$ alcanza un máximo de 87.33%. Y por último, la prueba Shapiro Wilk bajo una significancia del 5% no se rechaza la hipótesis de normalidad de los residuales en ninguno de los modelos.

Dado que la transformación no mejora el supuesto en la aleatorización de residuos, no se comparan más elementos de los tres modelos, sin embargo se puede recomendar la posibilidad de integrar más datos y más variables al análisis.

Taller de Regresión Lineal Simple

Carlos Andrés Torres Ricaurte

1/10/2022

Pontificia Universidad Javeriana Cali

Curso: Métodos y simulación estadística

Tema: Regresión Lineal Simple

Preguntas

Análisis univariado

Interpretación de los parámetros

Gráfica de la recta ajustada

Supuesto 1: Ajuste adecuado

Supuesto 2: Normalidad

Transformación \(Ln(precios)\)

Supuesto 1: Ajuste adecuado

Supuesto 2: Normalidad

Transformación: \(\sqrt{x}\)

Supuesto 1: Ajuste adecuado

Supuesto 2: Normalidad