## New names:
## * `` -> ...3
## * `` -> ...4
## * `` -> ...5
## * `` -> ...6

Actividad

Con base en los datos de ofertas de vivienda descargadas del portal Fincaraiz (datos_vivienda.xls - descarga) realizar los siguientes puntos:

Punto 1

Realice un análisis exploratorio de las variables precio de vivienda (millones de pesos COP) y area de la vivienda (metros cuadrados) - incluir graficos e indicadores apropiados interpretados.

De acuerdo al gráfico de distribución de viviendas por área construida se puede observar que la mayor parte de las casas tienen un valor aproximado de área construida de 85 a 90 metros cuadrados.

## The following objects are masked from vivienda (pos = 3):
## 
##     ...3, ...4, ...5, ...6, Area_contruida, precio_millon

De acuerdo al gráfico de distribución de viviendas de precio por millon se puede observar que la mayor parte de las casas tienen un valor aproximado a 240 y 250 millones.

Teniendo en cuenta los gráficos se puede determinar que para ambos casos contamos con una distribución asimétrica, para el caso del gráfico de área construida la mayor parte de los datos se concentran para áreas construidas entre 86 y 96 metros cuadrados aproximadamente, de igual forma de acuerdo a la grafico precio por millón se puede indicar que el precio de las casas en sus mayorías se concentra en unos valores aproximados entre 250 y 300 millones aproximadamente.

Punto 2

Realice un análisis exploratorio bivariado de datos enfocado en la relación entre la variable respuesta (y=precio) en función de la variable predictora (x=area) - incluir gráficos e indicadores apropiados interpretados.

De acuerdo a la representación gráfica se puede observar que la mayor parte de las casas tienen un área aproximada entre 80 y 96 metros cuadrados y su valor oscila entre 250 y 290 millones de pesos, también se puede evidenciar que las casas con áreas aproximadas a 180 metros cuadrados tienen un costo aproximado de 450 millones de pesos.

Punto 3

Estime el modelo de regresión lineal simple entre precio = f(area) +e. Interprete los coeficientes del modelo β0, β1 en caso de ser correcto.

## 
## Call:
## lm(formula = precio_millon ~ Area_contruida)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -51.673 -25.612  -6.085  24.875  67.650 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      86.234     22.479   3.836 0.000796 ***
## Area_contruida    2.124      0.186  11.422 3.45e-11 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 33.05 on 24 degrees of freedom
## Multiple R-squared:  0.8446, Adjusted R-squared:  0.8381 
## F-statistic: 130.5 on 1 and 24 DF,  p-value: 3.45e-11

Considerando los valores obtenidos de acuerdo al modelo. Se puede indicar que el coeficiente del modelo β0 = 86,234 millones de pesos indica que el valor corresponde al precio base de las casas, respecto al valor de β1 = 2.124 indica que el valor del inmueble se incrementa en ese valor por cada metro cuadrado.

Punto 4

Construir un intervalo de confianza (95%) para el coeficiente β1, interpretar y concluir si el coeficiente es igual a cero o no. Compare este resultado con una prueba de hipótesis t.

##                   2.5 %     97.5 %
## (Intercept)    39.83983 132.627917
## Area_contruida  1.74017   2.507771
## 
##  One Sample t-test
## 
## data:  modelo_regre_lineal$coefficients
## t = 1.0505, df = 1, p-value = 0.4843
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  -490.1799  578.5377
## sample estimates:
## mean of x 
##  44.17892

De acuerdo al análisis respecto al intervalo de confianza del 95% para el coeficiente β1, en relación al área construida este puede tomar un valor entre [1.74017 - 2.507771] millones de pesos por cada metro cuadrado de área construida, de igual manera se puede indicar que la variable β1 es estadísticamente significativa para el modelo dado que el valor p es menor a 0.05 [p-value = 0.4843].

Punto 5

Calcule e interprete el indicador de bondad y ajuste R2.

## 
## Call:
## lm(formula = precio_millon ~ Area_contruida)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -51.673 -25.612  -6.085  24.875  67.650 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      86.234     22.479   3.836 0.000796 ***
## Area_contruida    2.124      0.186  11.422 3.45e-11 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 33.05 on 24 degrees of freedom
## Multiple R-squared:  0.8446, Adjusted R-squared:  0.8381 
## F-statistic: 130.5 on 1 and 24 DF,  p-value: 3.45e-11

De acuerdo al cálculo realizado se puede observar que el ajuste del modelo corresponde a un valor de R2=0.8446, esto implica que el modelo define el 84% de la variabilidad del precio de las viviendas, lo cual indica el cambio de valor de las viviendas según los metros construidos.

Punto 6

Cual sería el precio promedio estimado para un apartamento de 110 metros cuadrados? Considera entonces con este resultado que un apartamento en la misma zona con 110 metros cuadrados en un precio de 200 millones seria una buena oferta? Que consideraciones adicionales se deben tener?.

##        fit      lwr      upr
## 1 319.8706 306.3133 333.4279

De acuerdo a los cálculos realizados se puede indicar que el valor promedio para un apartamento de 110 metros cuadrados es de 318.8706 millones de pesos, con otro valor posible de 306.3133 y 333.4279 millones de pesos, de acuerdo a los análisis previos para un apartamento de 110 metros cuadrados su valor aproximado oscila entre 350 y 380 millones de pesos, de esta manera si el apartamento corresponde a las características de cualquier apartamento promedio sería una excelente oferta adquirirlo en este valor, sin embargo al tener en cuenta una diferencia tan notoria entre el valor de venta vs el valor promedio de venta es necesario identificar otras características del apartamento a nivel de infraestructura, afectación familiar, escrituras, humedad, hipotecas etc etc. que puedan definir realmente por que el valor del inmueble es tan bajo.

Punto 7

Realice la validación de supuestos del modelo por medio de gráficos apropiados, interpretarlos y sugerir posibles soluciones si se violan algunos de ellos.

## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(modelo_regre_lineal)
## W = 0.95489, p-value = 0.3009

De acuerdo a la gráfica de Residuals vs Fitted se puede observar que el valor de media corresponde a valor cero, luego se cumple. Sin embargo, la varianza no es constante. De igual manera se puede detallar a nivel grafico que no se cuenta con una distribución de los residuales, luego es necesario aplicar la prueba Shapiro-wilk normality que plantea la hipótesis nula que una muestra proviene de una distribución normal, de acuerdo a los resultados obtenidos indica que posiblemente exista una normalidad, luego es necesario realizar una transformación para lograr que los supuestos se cumplan acertadamente.

Punto 8

De ser necesario realice una transformación apropiada para mejorar el ajuste y supuestos del modelo.

Como mencionamos anteriormente se hace necesario realizar una transformación para lograr que los supuestos se cumplan acertadamente. De esta manera se emplea Un gráfico Cuantil-Cuantil que permite observar cuan cerca está la distribución de un conjunto de datos a alguna distribución ideal ó comparar la distribución de dos conjuntos de datos.

## 
##  Shapiro-Wilk normality test
## 
## data:  modelo_regre_lineal$residuals
## W = 0.95489, p-value = 0.3009

De acuerdo a los resultados obtenidos se sigue presentando normalidad en los residuales.

## 
## Call:
## lm(formula = log(precio_millon) ~ log(Area_contruida))
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.13325 -0.07583 -0.01435  0.07501  0.16051 
## 
## Coefficients:
##                     Estimate Std. Error t value Pr(>|t|)    
## (Intercept)          1.96408    0.29228    6.72 5.97e-07 ***
## log(Area_contruida)  0.80928    0.06194   13.06 2.11e-12 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.08859 on 24 degrees of freedom
## Multiple R-squared:  0.8767, Adjusted R-squared:  0.8716 
## F-statistic: 170.7 on 1 and 24 DF,  p-value: 2.109e-12
par(mfrow=c(2,2))
plot(modelo_regre_lineal_2)

Para este análisis fue necesario realizar una transformación con log para las variables X y Y, sin embargo, no se presentan mejoras.

Punto 9

De ser necesario compare el ajuste y supuestos del modelo inicial y el transformado.

Al validar los modelos [ modelo_regre_lineal y modelo_regre_lineal_2]las variaciones fueron mínimas, el R2 del primer modelo es igual a 0.8446 y el del segundo modelo es igual a 0.8767, el cual aumento respecto al primero, sin embargo, se siguen presentando incumplimientos en los supuestos de la varianza y la normalidad. De igual manera de acuerdo a los valores resultantes se puede observar que la variable independiente ” Area_Construida” aumento el nivel de significancia en el segundo modelo con la transformación realizada.