1. Realice un análisis exploratorio de las variables precio de vivienda (millones de pesos COP) y area de la vivienda (metros cuadrados) - incluir graficos e indicadores apropiados interpretados.
El paso con el que iniciaremos la exploración de los datos es realizando un gráfica entre el área construída y el precio de la vivienda. Teniendo como resultado el siguiente gráfico:
Inicialmente no es muy claro establecer el tipo de comportamiento de los datos explorados, si bien se podría interpretar una tendencia lineal es posible que se pueda describir una tendencia logarítmica; sin embargo, se dasarrollará el ejercicio basándonos en un comportamiento lineal.
2. Realice un análisis exploratorio bivariado de datos enfocado en la relación entre la variable respuesta (y=precio) en función de la variable predictora (x=area) - incluir graficos e indicadores apropiados interpretado.
En este punto evaluaremos los datos empleando un modelo de regresión lineal simple, del cual se obtienen los siguientes gráficos:
Como podemos observar, el gráfico de error residual indica que parte de los datos están yéndose con el error no mostrando un comportamiento aleatorio, mientras que en el gráfico de normalidad observamos que los datos no se encuentran totalmente alineados sobre la línea de normalidad.
3. Estime el modelo de regresión lineal simple entre precio = f(area) +e. Interprete los coeficientes del modelo β0, β1 en caso de ser correcto.
A continuación se presenta el resumen de los indicadores para el modelo lineal:
##
## Call:
## lm(formula = precio_millon ~ Area_contruida, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -51.673 -25.612 -6.085 24.875 67.650
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 86.234 22.479 3.836 0.000796 ***
## Area_contruida 2.124 0.186 11.422 3.45e-11 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 33.05 on 24 degrees of freedom
## Multiple R-squared: 0.8446, Adjusted R-squared: 0.8381
## F-statistic: 130.5 on 1 and 24 DF, p-value: 3.45e-11
Para el modelo lineal obtenemos valores de β0 = 86.234, β1 = 2.124, con un 0.8446 de ajuste del modelo.
4. Construir un intervalo de confianza (95%) para el coeficiente β1, interpretar y concluir si el coeficiente es igual a cero o no. Compare este resultado con una prueba de hipotesis t.
| 2.5 % | 97.5 % | |
|---|---|---|
| (Intercept) | 39.839830 | 132.627917 |
| Area_contruida | 1.740169 | 2.507772 |
| Límite Inferior | Límite Superior |
|---|---|
| 1.657555 | 2.590445 |
De acuerdo con los cálculos, obtenemos que el valor de t es igual a 2.50; a partir de este valor se calcularon los intervalos de confianza para β1 entre 1.657555 y 2.590445. Además el p-Value corresponde a 3.45e-11 ***; dicho esto, confirmaríamos la variable del área construida es significativa dentro del modelo.
5. Calcule e interprete el indicador de bondad y ajuste R2.
Como se detalló en el punto 3, el cálculo del indicador de bondad y ajuste arrojó un valor de 0.8446. Esto indica que el área construida representa el 84.5% del precio por millón de los inmueles detallados en la muestra objeto del presente estudio.
6. Cual seria el precio promedio estimado para un apartamento de 110 metros cuadrados? Considera entonces con este resultado que un apartemento en la misma zona con 110 metros cuadrados en un precio de 200 millones seria una buena oferta? Que consideraciones adicionales se deben tener?
| Precio Promedio | Precio Más Bajo | Precio Más Alto |
|---|---|---|
| 319.8706 | 306.3133 | 333.4279 |
De acuerdo a los datos arrojados por la predicción para un apartamento de 110mts2 el precio promedio sería de ~320MCOP. Es decir, un apartamento en la misma zona con la misma área en 200MCOP sería una buena oferta. Sin embargo se debe tener en cuenta el piso en el que se encuentra ubicado el apartamento, si cuenta o no con ascensor, si incluye parqueadero cubierto, entre otros.
7. Realice la validación de supuestos del modelo por medio de graficos apropiados, interpretarlos y sugerir posibles soluciones si se violan algunos de ellos.
De acuerdo a las gráficas, el primer punto a resaltar es que la muestra tomada para el estudio es muy pequeña, el histográma no presenta una forma normal y además se evidencia descontinuidad entre los datos de la muestra. Por otra parte, el gráfico de normalidad muestra cómo los datos se encuentran dispersos al rededor de la línea de normalidad. Se considera necesario ampliar el tamaño de la muestra e implementar transformaciones para mejorar el modelo.
8. De ser necesario realice una transformación apropiada para mejorar el ajuste y supuestos del modelo.
Si bien empleando un modelo lineal simple arrojo resultados aceptable, en este punto realizaremos las mismas gráficas pero en esta ocasión empleando un modelo doble logarítmico, del cual obtenemos las siguientes gráficas:
De acuerdo con las gráficas, el modelo doble logarítmico presenta el mismo comportamiento en relación a su salida con respecto al modelo lineal simple. Dicho esto, es necesario evaluar todos los indicadores que nos arroja cada modelo para una comparación más objetiva.
A continuación, se presenta el resumen de los indicadores para el modelo doble logarítmico::
##
## Call:
## lm(formula = log(precio_millon) ~ log(Area_contruida), data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.13325 -0.07583 -0.01435 0.07501 0.16051
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.96408 0.29228 6.72 5.97e-07 ***
## log(Area_contruida) 0.80928 0.06194 13.06 2.11e-12 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.08859 on 24 degrees of freedom
## Multiple R-squared: 0.8767, Adjusted R-squared: 0.8716
## F-statistic: 170.7 on 1 and 24 DF, p-value: 2.109e-12
Para el modelo doble logarítmico se obtuvieron valores de β0 = 1.96408, β1 = 0.80928, con un ajuste del modelo de 0.8767.
Ahora, evaluaremos los interválos de confianza para β1:
| 2.5 % | 97.5 % | |
|---|---|---|
| (Intercept) | 1.3608381 | 2.5673230 |
| log(Area_contruida) | 0.6814351 | 0.9371257 |
| Límite Inferior | Límite Superior |
|---|---|
| 0.7512344 | 0.8673256 |
Ahora, con el modelo doble logarítmico procederemos a predecir el valor para un apartamento de 110mt2, obteniendo los siguientes resultados:.
| Precio Promedio | Precio Más Bajo | Precio Más Alto |
|---|---|---|
| 319.9252 | 308.6499 | 331.6124 |
Con estos resultados procedemos a generar los gráficos correspondientes:
De acuerdo con los resultados, el modelo que representa en mejor medida a los datos de la muestra es el modelo doble logarítmico; con esto se lograría un ajuste de ~3% con respecto al modelo lineal simple.
9. De ser necesario compare el ajuste y supuestos del modelo inicial y el transformado.
De acuerdo con los resultados obtenidos en el punto 4, el modelo que representaría en un 84.5% el comportamiento del precio de las viviendas con respecto al área construida tendría la siguiente formula:
y = 86.234 + 2.124(x)
Ahora, con los cálculos y ajustes en el modelo resaltados en el punto 8 se lograría un ajuste en el comportamiento de 87.8%, teniendo la siguiente formula:
y = Exp(1.96402 + 0.80928(Log(x)))