Con base en los datos de ofertas de vivienda descargadas del portal Fincaraiz (datos_vivienda.xls - descarga) realizar los siguientes puntos:
Se puede ver en la siguiente salida una impresión del encabezado de los datos. Esta tabla contiene 26 registros de viviendas y contienen información sobre el area total (\(m^2\)) y el precio en millones de cada una. Las dos variables a relacionar son cuantitativas continuas.
## Area_contruida precio_millon
## 1 86 250
## 2 118 385
## 3 130 395
## 4 181 419
## 5 86 240
## 6 98 320
A continuación se imprime una tabla y dos gráficos con el fin de describir cada una de las dos variables.
## min max promedio mediana Desv. Std. Shapiro
## Área 80 195 115.7469 97 35.54332 0.0006
## Precio 240 480 332.0769 305 82.14423 0.0027
Para el área se observa que la vivienda con menor area construida mide 80 \(m^2\) y la vivienda con mayor area construida mide 195 \(m^2\), que el area promedio de las viviendas es de 115.8 \(m^2\) y el area mediana de 97 \(m^2\), siendo menor que la media e indicando que la distribución del area es asimétrica hacia la izquierda. Por último la desviación estándar del area construida indica una dispersión alrededor de mas o menos 35,54 \(m^2\).
Para los precios se observa que la vivienda con menor precio es de $240 millones y la vivienda con un precio mayor es de $480 millones, que el precio promedio de una vivienda es de 332,1 millones de pesos y su mediana de 305 millones, lo que indica que al igual que la variable área, que la distribución del precio de las viviendas es asimétrica hacia la izquierda. Por último, la desviación del precio de las viviendas muestra que los precios se dispersan alrededeor de más o menos $82,14 millones.
Además, con una significancia del 5% se rechaza la hipótesis de que las variables se distribuyen Normal (según el test de Shapiro Wilk). Esto se observa gráficamente en los siguientes histogramas, donde se observa que las distribuciones no tienen una forma acampanada,
Ahora bien, se puede asumir que hay una relación directamente proporcional entre las dos variables estudiadas; puesto que generalmente, a mayor area construida una vivienda valdrá más.
## [1] "Correlación lineal: 0.919"
En el gráfico de puntos entre las variables Área y Precio se muestra que las viviendas con mayores áreas tienden a tener precios mayores, también que se producen tres espacios entre los datos de la variable Área, y quizá podría deberse al tamaño de muestra bajo \(n=26\). En ese mismo sentido, se calcula el coeficiente de correlación que toma un valor de 0,919 lo cual es muestra de una correlación lineal posivita y fuerte entre las dos variables de estudio.
Se estimará el modelo:
\[ \hat{y_i} = \hat{\beta_0} + \hat{\beta_1}x_{1i} \]
Donde \(y\) y \(x\) representan respectivamente los registros de los precios de las viviendas y los de áreas construidas, y donde \(i = {1,...,26}\). Después del proceso de ajuste el modelo queda conformado por la ecuación:
\[ \hat{y_i} = 86.234 + 2.124x_{1i} \]
##
## Call:
## lm(formula = precio_millon ~ Area_contruida, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -51.673 -25.612 -6.085 24.875 67.650
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 86.234 22.479 3.836 0.000796 ***
## Area_contruida 2.124 0.186 11.422 3.45e-11 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 33.05 on 24 degrees of freedom
## Multiple R-squared: 0.8446, Adjusted R-squared: 0.8381
## F-statistic: 130.5 on 1 and 24 DF, p-value: 3.45e-11
El modelo queda ajustado con intercepto de 86.234 no tiene sentido en la interpretación (porque no hay valores existentes de areas iguales a 0)
La pendiente del modelo es igual a 2.124 que indica que por cada metro cuadrádo que aumente el área construida el precio de la vivienda aumentará en promedio un 2,124 millones de pesos. Además, la prueba t asociada arroja un valor muy cercano a 0, entonces con una significancia del 5% se puede asumir que la pendiente es diferente de 0.
plot(datos, main="Gráfico de dispersión entre Area construida y Precio",pch=16, col="blue",
xlab = expression(paste("Area ",m^2)), ylab = paste("Precio"))
abline(modelo, lty = 2, lwd=2, col = "red")
## 2.5 % 97.5 %
## 1.740 2.508
Se tiene como resultado el intervalo de confianza dado por \((1.74;2.50)\), por lo tanto, con un 95% de confianza se puede afirmar que el valor real del aumento en el precios de la vivienda al aumentar un metro el area construida está entre 1.74 millones a 2.50 millones. En este caso, el intervalo de confianza no contiene al cero, lo cual concuerda con la conclusión de la prueba t respecto a que \(\beta_1 = 0\).
El coeficiente de determinación arroja un valor de \(R^2 = 0.845\), es decir, que el 84,5% de la variabilidad total del precio de las viviendas, son representadas por las variaciones en las áreas construidas.
predict(modelo, newdata = list(Area_contruida = 110))
## 1
## 319.8706
En este caso reemplazamos el valor del Area = 110 en el modelo y así obtenemos el resultado estimado de \(\hat{y}=319,87\) . Indicando que para el área dada, el precio de la vivienda se ajusta a \(\$ 319,87\) millones de pesos.
Ahora bien, Obtener una oferta de $ 200 millones de pesos por una casa con 110 \(m^2\) podría pensarse entonces que será una muy buena oferta o “gangazo”, sin embargo, al querer estimar el precio de una vivienda se debe tener encuenta otras variables que pueden afectar el precio, variables que no se integraron, variables tales como: Número de habitaciones, la presencia o no de garaje, el número de pisos construidos, entre otras. Por lo tanto habría que percatarse de más caracteristicas de la casa para poder saber si es una buena oferta realmente. Si se introducen estas o más variables al modelo ya no estaríamos ante un modelo de regresión simple sino ante un modelo de regresión lineal múltiple.
En este punto la validación de los supuestos mediante los gráficos de la función “plot(modelo).
Para cumplir el supuesto de ajuste adecuado, la grafica de los valores ajustados VS residuos deberían mostrar un comportamiento aleatorio, tal como una nube de puntos no relacionada. Sin embargo, se observa que los residuales del modelo tienen un comportamiento curvo o como función cuadrática, indicando la presencia de una relación no necesariamente lineal. Es posible que el modelo mejore respecto a su ajuste si en sus estimaciones se aumenta el tamaño de muestra, y también si se incluyen otras variables que estén relacionadas con el precio de una vivienda.
Respecto a la normalidad, se observa que los residuos se ajustan al rededor de la función identidad, por lo que se puede concluir a favor de la normalidad de los residuos.
El modelo con la variable \(ln(precios)\) arroja los siguientes resultados, donde se observa que los residuales tienen el mismo comportamiento, solo que cambian la unidades de los residuos.
El gráfico de normalidad parece tener un comportamiento similar al arrojado por el modelo anterior, cumpliendose el supuesto de normalidad.
Para observar otro tipo de información, se transforma la variable \(x=\sqrt{x}\), obteniendo los siguientes resultados:
En este caso, el comportamiento de los residuos contra los valores ajustados sigue siendo el mismo a los anteriores modelos.
Además, el comportamiento de los residuos respecto a la normalidad sigue siendo similar, respecto a los anteriores modelos.
## P-v Modelo Rsq P-v Residuos Shapiro
## Modelo y 0 0.8446 0.3009
## Modelo ln(y) 0 0.8172 0.1368
## Modelo raiz(x) 0 0.8733 0.4477
En la anterior corrida, se presentan varios indicadores como el P-valor de la prueba F del modelo, donde se observa que todos son significativos para explicar la variable precio de las viviendas. Luego, los \(R^2\) arrojan valores mayores a 80% en todos los modelos, sin embargo en el modelo con la transformación \(\sqrt{x}\) alcanza un máximo de 87.33%. Y por último, la prueba Shapiro Wilk bajo una significancia del 5% no se rechaza la hipótesis de normalidad de los residuales en ninguno de los modelos.
Dado que la transformación no mejora el supuesto en la aleatorización de residuos, no se comparan más elementos de los tres modelos, sin embargo se puede recomendar la posibilidad de integrar más datos y más variables al análisis.