Con base en los datos de ofertas de vivienda descargadas del portal Fincaraiz (datos_vivienda.xls - descarga) realizar los siguientes puntos:
Observemos primero una salida con la impresión del encabezado de los datos. La tabla contiene 26 registros de viviendas con información sobre el area total (\(m^2\)) y el precio en millones pesos de cada una. Se trata de dos variables cuantitativas continuas.
## Area_construida precio_millon
## 1 86 250
## 2 118 385
## 3 130 395
## 4 181 419
## 5 86 240
## 6 98 320
A continuación se imprime una tabla y dos gráficos con el fin de describir cada una de las dos variables.
## min max promedio mediana Desv. Std. Shapiro
## Área 80 195 115.7469 97 35.54332 0.0006
## Precio 240 480 332.0769 305 82.14423 0.0027
Para la variable Área de la vivienda se observa que la vivienda con menor área construida es de 80 \(m^2\) mientras la vivienda con mayor area construida es de 195 \(m^2\), a su vez se observa que el área promedio de las viviendas es de 115.8 \(m^2\) y el área mediana es de 97 \(m^2\), siendo menor que la media; esto indica que la distribución del area es asimétrica hacia la izquierda. Por último, se observa que la desviación estándar del área construida muestra una dispersión de mas o menos 35,54 \(m^2\).
Para la variable Precio de la vivienda se observa que la vivienda con menor precio es de $240 millones de pesos mientras que la vivienda con mayor precio es de $480 millones de pesos, a su vez se observa que el precio promedio de una vivienda es de $332,1 millones de pesos y su mediana de $305 millones de pesos, lo cual indica que la distribución del precio de las viviendas es asimétrica hacia la izquierda. Por último, se observa que la desviación estándar del precio de las viviendas muestra una dispersión en los precios de más o menos $82,14 millones de pesos.
Según el test de Shapiro-Wilk, con una significancia del 5% se rechaza la hipótesis de que las variables se distribuyen de manera Normal. Esto se observa gráficamente en los siguientes histogramas, donde se observa que las distribuciones no tienen una forma acampanada,
Inicialmente podemos asumir que hay una relación directamente proporcional entre las dos variables estudiadas, y que a mayor área construida una vivienda mayor su precio.
## [1] "Correlación lineal: 0.919"
En el gráfico de puntos entre las variables Área de la vivienda y Precio de la vivienda, se observa que las viviendas con mayores áreas tienden a tener precios mayores, también se observa que los datos de la variable Área se agrupan dejando espacio entre ellos, lo cual podría deberse a que el tamaño de muestra es bajo \(n=26\). También se observa que el coeficiente de correlación toma un valor de 0,919 lo cual es indica una correlación lineal posivita y fuerte entre las dos variables de estudio.
Primero, se estima el modelo:
\[ \hat{y_i} = \hat{\beta_0} + \hat{\beta_1}x_{1i} \]
Donde \(y\) y \(x\) representan respectivamente los registros de los precios de las viviendas y los de áreas construidas, y donde \(i = {1,...,26}\). Después del proceso de ajuste el modelo queda conformado por la ecuación:
\[ \hat{y_i} = 86.234 + 2.124x_{1i} \]
##
## Call:
## lm(formula = precio_millon ~ Area_construida, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -51.673 -25.612 -6.085 24.875 67.650
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 86.234 22.479 3.836 0.000796 ***
## Area_construida 2.124 0.186 11.422 3.45e-11 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 33.05 on 24 degrees of freedom
## Multiple R-squared: 0.8446, Adjusted R-squared: 0.8381
## F-statistic: 130.5 on 1 and 24 DF, p-value: 3.45e-11
El modelo queda ajustado con intercepto de 86.234 no tiene sentido en la interpretación (porque no hay valores existentes de areas iguales a 0)
La pendiente del modelo es igual a 2.124 que indica que por cada metro cuadrádo que aumente el área construida el precio de la vivienda aumentará en promedio un 2,124 millones de pesos. Además, la prueba t asociada arroja un valor muy cercano a 0, entonces con una significancia del 5% se puede asumir que la pendiente es diferente de 0.
plot(datos, main="Gráfico de dispersión entre Area construida y Precio",pch=16, col="blue",
xlab = expression(paste("Area ",m^2)), ylab = paste("Precio"))
abline(modelo, lty = 2, lwd=2, col = "red")
## 2.5 % 97.5 %
## 1.740 2.508
Se tiene como resultado el intervalo de confianza dado por \((1.74;2.50)\), por lo tanto, con un 95% de confianza se puede afirmar que el valor real del aumento en el precios de la vivienda al aumentar un metro el area construida está entre 1.74 millones a 2.50 millones. En este caso, el intervalo de confianza no contiene al cero, lo cual concuerda con la conclusión de la prueba t respecto a que \(\beta_1 = 0\).
El coeficiente de determinación arroja un valor de \(R^2 = 0.845\), es decir, que el 84,5% de la variabilidad total del precio de las viviendas, son representadas por las variaciones en las áreas construidas.
predict(modelo, newdata = list(Area_construida = 110))
## 1
## 319.8706
En este caso reemplazamos el valor del Area = 110 en el modelo y así obtenemos el resultado estimado de \(\hat{y} = 319,87\) . Indicando que para el área dada, el precio de la vivienda se ajusta a $ $ 319,87$ millones de pesos.
Ahora bien, obtener una oferta de $ 200 millones de pesos por una casa con 110 \(m^2\) podría pensarse entonces que será una muy buena oferta o “gangazo”, sin embargo, al querer estimar el precio de una vivienda se debe tener encuenta otras variables que pueden afectar el precio, variables que no se integraron, variables tales como: Número de habitaciones, la presencia o no de garaje, el número de pisos construidos, entre otras. Por lo tanto habría que percatarse de más caracteristicas de la casa para poder saber si es una buena oferta realmente. Si se introducen estas o más variables al modelo ya no estaríamos ante un modelo de regresión simple sino ante un modelo de regresión lineal múltiple.
En este punto la validación de los supuestos mediante los gráficos de la función "plot(modelo).
Para cumplir el supuesto de ajuste adecuado, la gráfica de los valores ajustados versus residuos deberían mostrar un comportamiento aleatorio, tal como una nube de puntos no relacionada. Sin embargo, se observa que los residuales del modelo tienen un comportamiento curvo, indicando la presencia de una relación no necesariamente lineal. Es posible que el modelo mejore respecto a su ajuste si en sus estimaciones se aumenta el tamaño de muestra, y también si se incluyen otras variables que estén relacionadas con el precio de una vivienda.
Respecto a la normalidad, se observa que los residuos se ajustan al rededor de la función identidad, por lo que se puede concluir a favor de la normalidad de los residuos.
8. De ser necesario realice una transformación apropiada para mejorar el ajuste y supuestos del modelo.
El modelo con la variable \(ln(precios)\) arroja los siguientes resultados, donde se observa que los residuales tienen el mismo comportamiento, solo que cambian la unidades de los residuos.
El gráfico de normalidad parece tener un comportamiento similar al arrojado por el modelo anterior, cumpliendose el supuesto de normalidad.
Para observar otro tipo de información, se transforma la variable $ x= $, obteniendo los siguientes resultados:
En este caso, el comportamiento de los residuos contra los valores ajustados sigue siendo el mismo a los anteriores modelos.
Además, el comportamiento de los residuos respecto a la normalidad sigue siendo similar, respecto a los anteriores modelos.
## P-v Modelo Rsq P-v Residuos Shapiro
## Modelo y 0 0.8446 0.3009
## Modelo ln(y) 0 0.8172 0.1368
## Modelo raiz(x) 0 0.8733 0.4477
de acuerdo con los resultados, se presentan varios indicadores como el P-valor de la prueba F del modelo, donde se observa que todos son significativos para explicar la variable precio de las viviendas. Luego, los \(R^2\) arrojan valores mayores a 80% en todos los modelos, sin embargo en el modelo con la transformación $ $ alcanza un máximo de 87.33%. Por último, la prueba Shapiro Wilk bajo una significancia del 5% no se rechaza la hipótesis de normalidad de los residuales en ninguno de los modelos.
Dado que la transformación no mejora el supuesto en la distribución aleatoria de los residuos, no se comparan más elementos de los tres modelos, sin embargo se puede recomendar que para obtener mejores resultados es necesario contar con más registros así como integrar nuevas variables al modelo.