1 - Realice un análisis exploratorio de las variables precio de vivienda (millones de pesos COP) y area de la vivienda (metros cuadrados) - incluir graficos e indicadores apropiados interpretados.
Area_construida Min. : 80.0 1st Qu.: 86.0 Median : 97.0 Mean :115.7
precio_millon Min. :240.0 1st Qu.:251.2 Median :305.0 Mean :332.1
Area_construida 3rd Qu.:130.0 Max. :195.0
precio_millon 3rd Qu.:395.0 Max. :480.0
Interpretación: El análisis de la variable Area Construida no cumple una distribución normal observando al observar la gráfica de cajas y la grafica QQ evidencia discontinuidad en la muestra. El promedio del Area Construida es aproximadamente 115.747 m² con desviación de +/- 35.543 m² y un mínimo de 80 m² y un máximo de 195 m² dentro del tamaño de cada propiedad. De igual forma, aplicando el teorema de shapiro, se evidencia que no cumple con la hipótesis de >= 0.05 para identificar que los datos viene de una distribución normal.
Interpretación: El análisis de la variable Precio Millon no cumple una distribución normal observando la gráfica de cajas y la grafica QQ evidencia discontinuidad en la muestra. El promedio del Precio Millon es aproximadamente 332.077 millones de pesos, con desviación de +/- 82.144 millones de pesos, con un mínimo de 240 millones y un máximo de 480 millones dentro precio de cada propiedad. De igual forma, aplicando el teorema de shapiro, se evidencia que no cumple con la hipótesis de >= 0.05 para identificar que los datos viene de una distribución normal.
2 - Realice un análisis exploratorio bivariado de datos enfocado en la relación entre la variable respuesta (y=precio) en función de la variable predictora (x=area) - incluir graficos e indicadores apropiados interpretados.
Interpretación: En la gráfica se observa una relación lineal positiva directa entre las variables Area construida y precio millon, a mayor Area construida aumenta el coste de la vivienda. Al realizar el cálculo del coeficiente de correlación entre las 2 variables, se obtiene un valor aproximadamente igual a 0.91 clasificando la relación lineal como Position Fuerte entre el intervalo [0.8, 1.0]. Debido a poca cantidad de datos, una línea recta no es el mejor ajuste para los datos.
3 - Estime el modelo de regresión lineal simple entre precio = f (area) + e. Interprete los coeficientes del modelo β0 , β1 en caso de ser correcto.
Call:
lm(formula = precio_millon ~ Area_construida, data = vivienda)
Residuals:
Min 1Q Median 3Q Max
-51.673 -25.612 -6.085 24.875 67.650
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 86.234 22.479 3.836 0.000796 ***
Area_construida 2.124 0.186 11.422 3.45e-11 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 33.05 on 24 degrees of freedom
Multiple R-squared: 0.8446, Adjusted R-squared: 0.8381
F-statistic: 130.5 on 1 and 24 DF, p-value: 3.45e-11
Los coeficientes del modelo de regresión lineal β0 y β1 son:
[1] "β0(Intercepto): 86.2338735556962 - β1(Pendiante): 2.12397049516249"
Por lo tanto, La funcion de regresión lineal: Costo = β0 + β1 * Area:
[1] "Costo = 86.2338735556962 + 2.12397049516249 * Area"
Interpretación: β1 = 2.12>0. Observa una relación creciente entre las variables Area_construida(x) y precio_millon(y). Cuando Area_construida aumentar el costo de la vivienda aumenta. Por lo tanto, la pendiente se puede interpretar así: Por cada punto se incremente el costo de las propiedades, entonces, el costo de las viviendas se incrementa en 2.12(1) = 2.12 millones de pesos. β0 = 86.23, el gasto mínimo de una vivienda es de 86.23 millones de pesos.
4 - Construir un intervalo de confianza (95%) para el coeficiente β1 , interpretar y concluir si el coeficiente es igual a cero o no. Compare este resultado con una prueba de hipotesis t.
2.5 % 97.5 %
Area_construida 1.74017 2.507771
Interpretación: El coeficiente β1 no es igual cero porque en el intervalo de confianza de 0.95 el cero no es contenido.
Hipotesis:
H0: β1 = 0
H1: β1 != 0
Interpretación: Usando el valor de p-value = 3.45e-11 de la prueba T y un nivel de significancia de 0,05 se rechaza la hipotesis H0 donde β1 = 0.
5 - Calcule e interprete el indicador de bondad y ajuste R2.
[1] "Multiple R-squared: 0.844615168561367 - Adjusted R-squared: 0.838140800584757"
Interpretación: Para el análisis tenemos en cuenta el Adjusted R-squared = 0.83 que explica la variabilidad de los datos en torno a la media. Entre mayor sea Adjusted R-squared explica que modelo tiene una mayor relación de variabilidad con los datos. Un R² = 0.83 es un valor bastante significativo, lo que indica que el modelo de regresión lineal creado representa muy bien la variabilidad en conjunto de los datos.
6 - Cual seria el precio promedio estimado para un apartamento de 110 metros cuadrados? Considera entonces con este resultado que un apartemento en la misma zona con 110 metros cuadrados en un precio de 200 millones seria una buena oferta? Que consideraciones adicionales se deben tener?.
[1] "El precio promedio de un apartamento de 110m² es 319.87 millones de pesos."
Interpretación: El encontrar en la misma zona un apartamento de 110m² por 200 millones es una gran oferta. En modelo predice que en la zona como minimo un apartamento se adquiere por 319.87 millones de pesos, por lo cual, encontrar un apartemento en la zona por 200 millones es una gran oportunidad.
7 - Realice la validación de supuestos del modelo por medio de graficos apropiados, interpretarlos y sugerir posibles soluciones si se violan algunos de ellos.
Interpretación: En el anterior conjunto de gráficas podemos observar:
Residuals vs Fitted: Se observa la existencia de un patrón y no de aleatoriedad.
Normal Q-Q: Cumple la normalidad.
Scale-Location o homocedasticidad: No se observa una varianza constante.
Residuals vs Leverage: Se observan datos atípicos.
Teniendo en cuenta el análisis de los puntos 1 al 4 podemos concluir que no existe una relación lineal como se pensaba anteriormente. Por tanto, es necesario realizar la transformación.
8 - De ser necesario realice una transformación apropiada para mejorar el ajuste y supuestos del modelo.
Para esta transformación se utiliza por una transformación polynomica de orden 4.
Call:
lm(formula = precio_millon ~ poly(Area_construida, ord), data = vivienda)
Residuals:
Min 1Q Median 3Q Max
-28.716 -16.250 -5.113 15.511 41.284
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 332.077 4.226 78.582 < 2e-16 ***
poly(Area_construida, ord)1 377.465 21.548 17.518 5.21e-14 ***
poly(Area_construida, ord)2 -125.411 21.548 -5.820 8.90e-06 ***
poly(Area_construida, ord)3 5.747 21.548 0.267 0.792
poly(Area_construida, ord)4 26.474 21.548 1.229 0.233
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 21.55 on 21 degrees of freedom
Multiple R-squared: 0.9422, Adjusted R-squared: 0.9312
F-statistic: 85.58 on 4 and 21 DF, p-value: 1.09e-12
Interpretación: En el anterior conjunto de gráficas podemos observar:
Residuals vs Fitted: Se observa aleatoriedad en los datos.
Normal Q-Q: Mejora de la normalidad comparada con la regresión lineal.
Scale-Location o homocedasticidad: Se observa una varianza mucho más constante y estable (poca variabilidad.
Residuals vs Leverage: Se observan datos atípicos.
Teniendo en cuenta el análisis de los puntos 1 al 4 podemos concluir que la transformación a una función polinómica evidencia una mejora con base a la función lineal, pero la cantidad de datos de las muestras no es suficiente para reducir el error significativamente.
9 - De ser necesario compare el ajuste y supuestos del modelo inicial y el transformado.
| Dependent variable: | ||
| precio_millon | ||
| (1) | (2) | |
| Area_construida | 2.124*** | |
| (0.186) | ||
| poly(Area_construida, ord)1 | 377.465*** | |
| (21.548) | ||
| poly(Area_construida, ord)2 | -125.411*** | |
| (21.548) | ||
| poly(Area_construida, ord)3 | 5.747 | |
| (21.548) | ||
| poly(Area_construida, ord)4 | 26.474 | |
| (21.548) | ||
| Constant | 86.234*** | 332.077*** |
| (22.479) | (4.226) | |
| Observations | 26 | 26 |
| R2 | 0.845 | 0.942 |
| Adjusted R2 | 0.838 | 0.931 |
| Residual Std. Error | 33.048 (df = 24) | 21.548 (df = 21) |
| F Statistic | 130.455*** (df = 1; 24) | 85.581*** (df = 4; 21) |
| Note: | p<0.1; p<0.05; p<0.01 | |
Dentro de los supuestos de la regresión lineal simple versus la transformacional se puede decir lo siguiente:
Residuals vs Fitted: No se cumple el supuesto, porque en la transformación se optimiza el comportamiento de la dispersión.
Normal Q-Q: Se cumple, porque no se observa un cambio importante de normalidad.
Scale-Location o homocedasticidad: No se cumple, en la transformación se optimiza la estabilidad de R².
Residuals vs Leverage: Se cumple, la regresión lineal presenta datos atípicos y en la transformación de igual forma se observa la existencia de datos atípicos.