Pontificia Universidad Javeriana Cali

Curso: Métodos y simulación estadística

Tema: Regresión Lineal Simple

Preguntas

Con base en los datos de ofertas de vivienda descargadas del portal Fincaraiz (datos_vivienda.xls - descarga) realizar los siguientes puntos:

  1. Realice un análisis exploratorio de las variables Precio de vivienda (millones de pesos COP) y Área de la vivienda (metros cuadrados), incluir gráficos e indicadores apropiados interpretados.

Observemos primero una salida con la impresión del encabezado de los datos. La tabla contiene 26 registros de viviendas con información sobre el area total (\(m^2\)) y el precio en millones pesos de cada una. Se trata de dos variables cuantitativas continuas.

##   Area_construida precio_millon
## 1              86           250
## 2             118           385
## 3             130           395
## 4             181           419
## 5              86           240
## 6              98           320

Análisis univariado

A continuación se imprime una tabla y dos gráficos con el fin de describir cada una de las dos variables.

##        min max promedio mediana Desv. Std. Shapiro
## Área    80 195 115.7469      97   35.54332  0.0006
## Precio 240 480 332.0769     305   82.14423  0.0027

Para la variable Área de la vivienda se observa que la vivienda con menor área construida es de 80 \(m^2\) mientras la vivienda con mayor area construida es de 195 \(m^2\), a su vez se observa que el área promedio de las viviendas es de 115.8 \(m^2\) y el área mediana es de 97 \(m^2\), siendo menor que la media; esto indica que la distribución del area es asimétrica hacia la izquierda. Por último, se observa que la desviación estándar del área construida muestra una dispersión de mas o menos 35,54 \(m^2\).

Para la variable Precio de la vivienda se observa que la vivienda con menor precio es de $240 millones de pesos mientras que la vivienda con mayor precio es de $480 millones de pesos, a su vez se observa que el precio promedio de una vivienda es de $332,1 millones de pesos y su mediana de $305 millones de pesos, lo cual indica que la distribución del precio de las viviendas es asimétrica hacia la izquierda. Por último, se observa que la desviación estándar del precio de las viviendas muestra una dispersión en los precios de más o menos $82,14 millones de pesos.

Según el test de Shapiro-Wilk, con una significancia del 5% se rechaza la hipótesis de que las variables se distribuyen de manera Normal. Esto se observa gráficamente en los siguientes histogramas, donde se observa que las distribuciones no tienen una forma acampanada,

  1. Realice un análisis exploratorio bivariado de datos enfocado en la relación entre la variable de respuesta (y=precio) en función de la variable predictora (x=area), incluir gráficos e indicadores apropiados interpretados.

Inicialmente podemos asumir que hay una relación directamente proporcional entre las dos variables estudiadas, y que a mayor área construida una vivienda mayor su precio.

## [1] "Correlación lineal:  0.919"

En el gráfico de puntos entre las variables Área de la vivienda y Precio de la vivienda, se observa que las viviendas con mayores áreas tienden a tener precios mayores, también se observa que los datos de la variable Área se agrupan dejando espacio entre ellos, lo cual podría deberse a que el tamaño de muestra es bajo \(n=26\). También se observa que el coeficiente de correlación toma un valor de 0,919 lo cual es indica una correlación lineal posivita y fuerte entre las dos variables de estudio.

  1. Estimación del modelo de regresión lineal simple: Estime el modelo de regresión lineal simple entre \(𝑝𝑟𝑒𝑐𝑖𝑜 = 𝑓(𝑎𝑟𝑒𝑎) + 𝑒.\) Interprete los coeficientes del modelo \(𝛽_0, 𝛽_1\) en caso de ser correcto.

Primero, se estima el modelo:

\[ \hat{y_i} = \hat{\beta_0} + \hat{\beta_1}x_{1i} \]

Donde \(y\) y \(x\) representan respectivamente los registros de los precios de las viviendas y los de áreas construidas, y donde \(i = {1,...,26}\). Después del proceso de ajuste el modelo queda conformado por la ecuación:

\[ \hat{y_i} = 86.234 + 2.124x_{1i} \]

## 
## Call:
## lm(formula = precio_millon ~ Area_construida, data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -51.673 -25.612  -6.085  24.875  67.650 
## 
## Coefficients:
##                 Estimate Std. Error t value Pr(>|t|)    
## (Intercept)       86.234     22.479   3.836 0.000796 ***
## Area_construida    2.124      0.186  11.422 3.45e-11 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 33.05 on 24 degrees of freedom
## Multiple R-squared:  0.8446, Adjusted R-squared:  0.8381 
## F-statistic: 130.5 on 1 and 24 DF,  p-value: 3.45e-11

Interpretación de los parámetros

Gráfica de la recta ajustada

plot(datos, main="Gráfico de dispersión entre Area construida y Precio",pch=16, col="blue",
     xlab = expression(paste("Area ",m^2)), ylab = paste("Precio"))
abline(modelo, lty = 2, lwd=2, col = "red")

  1. Construir un intervalo de confianza (95%) para el coeficiente \(𝛽_1\), interpretar y concluir si el coeficiente es igual a cero o no. Compare este resultado con una prueba de hipotesis t.
##  2.5 % 97.5 % 
##  1.740  2.508

Se tiene como resultado el intervalo de confianza dado por \((1.74;2.50)\), por lo tanto, con un 95% de confianza se puede afirmar que el valor real del aumento en el precios de la vivienda al aumentar un metro el area construida está entre 1.74 millones a 2.50 millones. En este caso, el intervalo de confianza no contiene al cero, lo cual concuerda con la conclusión de la prueba t respecto a que \(\beta_1 = 0\).

  1. Calcule e interprete el indicador de bondad y ajuste \(𝑅^2\).

El coeficiente de determinación arroja un valor de \(R^2 = 0.845\), es decir, que el 84,5% de la variabilidad total del precio de las viviendas, son representadas por las variaciones en las áreas construidas.

  1. ¿Cuál sería el precio promedio estimado para un apartamento de 110 metros cuadrados? Considera entonces con este resultado que un apartamento en la misma zona con 110 metros cuadrados en un precio de 200 millones sería una buena oferta? ¿Qué consideraciones adicionales se deben tener?.
predict(modelo, newdata =  list(Area_construida = 110))
##        1 
## 319.8706

En este caso reemplazamos el valor del Area = 110 en el modelo y así obtenemos el resultado estimado de \(\hat{y} = 319,87\) . Indicando que para el área dada, el precio de la vivienda se ajusta a $ $ 319,87$ millones de pesos.

Ahora bien, obtener una oferta de $ 200 millones de pesos por una casa con 110 \(m^2\) podría pensarse entonces que será una muy buena oferta o “gangazo”, sin embargo, al querer estimar el precio de una vivienda se debe tener encuenta otras variables que pueden afectar el precio, variables que no se integraron, variables tales como: Número de habitaciones, la presencia o no de garaje, el número de pisos construidos, entre otras. Por lo tanto habría que percatarse de más caracteristicas de la casa para poder saber si es una buena oferta realmente. Si se introducen estas o más variables al modelo ya no estaríamos ante un modelo de regresión simple sino ante un modelo de regresión lineal múltiple.

  1. Realice la validación de supuestos del modelo por medio de gráficos apropiados, interpretarlos y sugerir posibles soluciones si se violan algunos de ellos.

En este punto la validación de los supuestos mediante los gráficos de la función "plot(modelo).

Para cumplir el supuesto de ajuste adecuado, la gráfica de los valores ajustados versus residuos deberían mostrar un comportamiento aleatorio, tal como una nube de puntos no relacionada. Sin embargo, se observa que los residuales del modelo tienen un comportamiento curvo, indicando la presencia de una relación no necesariamente lineal. Es posible que el modelo mejore respecto a su ajuste si en sus estimaciones se aumenta el tamaño de muestra, y también si se incluyen otras variables que estén relacionadas con el precio de una vivienda.

Supuesto 1: Ajuste adecuado

Supuesto 2: Normalidad

Respecto a la normalidad, se observa que los residuos se ajustan al rededor de la función identidad, por lo que se puede concluir a favor de la normalidad de los residuos.

8. De ser necesario realice una transformación apropiada para mejorar el ajuste y supuestos del modelo.

Transformación \(Ln(precios)\)

El modelo con la variable \(ln(precios)\) arroja los siguientes resultados, donde se observa que los residuales tienen el mismo comportamiento, solo que cambian la unidades de los residuos.

Supuesto 1: Ajuste adecuado

Supuesto 2: Normalidad

El gráfico de normalidad parece tener un comportamiento similar al arrojado por el modelo anterior, cumpliendose el supuesto de normalidad.

Transformación: \(\sqrt{x}\)

Para observar otro tipo de información, se transforma la variable $ x= $, obteniendo los siguientes resultados:

Supuesto 1: Ajuste adecuado

En este caso, el comportamiento de los residuos contra los valores ajustados sigue siendo el mismo a los anteriores modelos.

Supuesto 2: Normalidad

Además, el comportamiento de los residuos respecto a la normalidad sigue siendo similar, respecto a los anteriores modelos.

  1. De ser necesario compare el ajuste y supuestos del modelo inicial y el transformado.
##                P-v Modelo    Rsq P-v Residuos Shapiro
## Modelo y                0 0.8446               0.3009
## Modelo ln(y)            0 0.8172               0.1368
## Modelo raiz(x)          0 0.8733               0.4477

de acuerdo con los resultados, se presentan varios indicadores como el P-valor de la prueba F del modelo, donde se observa que todos son significativos para explicar la variable precio de las viviendas. Luego, los \(R^2\) arrojan valores mayores a 80% en todos los modelos, sin embargo en el modelo con la transformación $ $ alcanza un máximo de 87.33%. Por último, la prueba Shapiro Wilk bajo una significancia del 5% no se rechaza la hipótesis de normalidad de los residuales en ninguno de los modelos.

Dado que la transformación no mejora el supuesto en la distribución aleatoria de los residuos, no se comparan más elementos de los tres modelos, sin embargo se puede recomendar que para obtener mejores resultados es necesario contar con más registros así como integrar nuevas variables al modelo.