Con base en los datos de ofertas de vivienda descargadas del portal Fincaraiz (datos_vivienda.xls - descarga) realizar los siguientes puntos:

##1. Realice un análisis exploratorio de las variables precio de vivienda (mil- lones de pesos COP) y area de la vivienda (metros cuadrados) - incluir graficos e indicadores apropiados interpretados.

library(readxl)
datos_vivienda <- read_excel("/Volumes/Karen HD/KAREN/Semestre 1/Estadistica/unidad 3/datos_vivienda.xlsx")
attach(datos_vivienda)

summary(datos_vivienda)
##  Area_contruida  precio_millon  
##  Min.   : 80.0   Min.   :240.0  
##  1st Qu.: 86.0   1st Qu.:251.2  
##  Median : 97.0   Median :305.0  
##  Mean   :115.7   Mean   :332.1  
##  3rd Qu.:130.0   3rd Qu.:395.0  
##  Max.   :195.0   Max.   :480.0

En primera instancia generando los estadisticos de las variables podemos identificar que para el Area_Construida se tiene una media o promedio de 115,7 metros cuadrados y el promedio para la variable Percio corresponde a 332,1 millones de COP. Por su parte la mediana del Area_construida corresponde a 97 metros cuadrados y para el precio se encuentra en 305 millones de COP. Para entender mas el comportamiento de las variables procedemos a generar un histograma para cada una y ver si hay alguna concentración de los datos.

hist(Area_contruida, col = "cornflowerblue")
abline(v = mean(Area_contruida),col="blue", lwd=4)

Para el caso del Área construida podemos evidenciar en el histograma se encuentra sesgado a la izquierda donde se concentran las viviendas analizadas entre 80 y 100 metros cuadrados, por lo que a primera vista podemos indicar que los espacios pequeños pueden ser aquellos que conforman la mayor parte de la oferta de viviendas en el presente estudio.

hist(precio_millon , col = "cornflowerblue")
abline(v = mean(precio_millon),col="blue", lwd=4)

Por su parte el precio de la vivienda se encuentra con un ligero sesgo a la izquierda, donde se evidencia que el precio de las viviendas ofertadas se encuentra en su mayoria por debajo de los 340 millones de pesos. Sin embargo, hay un grupo de viviendas que tienen un alto precio.

Comparando el comportamiento de las dos variables podriamos realizar un supuesto o hipotesis que nos permita dar un lineamiento a los siguientes procesos para evaluar los resultados. Podriamos indicar que a medida que se incrementa el area construida (metros cuadrados) de una vivienda, se incrementa el precio de la misma (millones COP).

##2. Realice un análisis exploratorio bivariado de datos enfocado en la relación entre la variable respuesta (y=precio) en función de la variable predic- tora (x=area) - incluir graficos e indicadores apropiados interpretados.

Partiendo de la hipotesis descrita anteriormente donde el Precio de la vivienda varia conforme al area de la misma. Podemos indicar que nuetra variable independiente es el area de la vienvienda y la variable dependiente es el Precio de la vivienda.

Para ver la relación entre las variables realizamos un grafico de disperción en el cual en el eje X tenemos el area construida y en el eje Y tenemos el Precio correspondiente a dicha area. Incorporando unas lineas de regresión donde inicialmente la inea naranja es lineal, vemos que esta no se ajusta al comportamiento de los puntos. por lo cual se realiza un suavisado con el fin de tener un comportamiento de la curva mas acorde a los datos.

plot(Area_contruida,precio_millon, col="cornflowerblue", pch=16)
lines(seq(0, 1, 0.05), 2 + 3 * seq(0, 1, 0.05)^2, col = "2", lwd = 3, lty = 2)
abline(lm(precio_millon ~ Area_contruida), col = "orange", lwd = 3)
lines(lowess(precio_millon ~ Area_contruida), col = "black", lwd = 3)

Para este caso podemos ver que si hay una tendencia creciente en el precio a medida que se incrementa el area construida. Sin embargo, hay una serie de puntos que se alejan de la curva, por lo cual puede indicar que el área construida puede no ser el unico factor explicativo para el precio. Y por otro lado el volumen de datos puede generar que la grafica no muestre la realidad del mercado ya que la muestra puede ser muy pequeña. Con el Fin de medir la relación de estas variables procedemos ejecutar las siguientes pruebas o validaciones:

cov(Area_contruida, precio_millon )
## [1] 2683.271

La covarianza por su parte nos permite conocer cómo se comportan las variables. Podemos ver que al ser positiva muestra que al incrementarse una variable, tambien se incrementa la otra y por lo tanto hay una relación directa entre el precio y el area construida de una vivienda.

#coeficiente de correlación
cor(Area_contruida, precio_millon )
## [1] 0.9190295

Teniendo un coeficiente de correlación de 0,91 podemos concluir que hay una relación positiva entre las variables y adicional que esta relación es fuerte.

##3. Estime el modelo de regresión lineal simple entre precio = f (area) + e. Interprete los coeficientes del modelo β0,β1 en caso de ser correcto.

Precio_millon = f (Area_construida) + e Precio_millon = β0 + β1*(Area_construida) + e

Modelo_reg = lm(precio_millon~Area_contruida)
summary(Modelo_reg)
## 
## Call:
## lm(formula = precio_millon ~ Area_contruida)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -51.673 -25.612  -6.085  24.875  67.650 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      86.234     22.479   3.836 0.000796 ***
## Area_contruida    2.124      0.186  11.422 3.45e-11 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 33.05 on 24 degrees of freedom
## Multiple R-squared:  0.8446, Adjusted R-squared:  0.8381 
## F-statistic: 130.5 on 1 and 24 DF,  p-value: 3.45e-11

Este modelo nos aroja el siguiente resultado

Precio = 86.234 + 2.124 * (Area) Donde β0 toma el valor de 86,234 y β1 toma el valor de 2,124. Por lo que a partir de estos coeficientes podemos decir que cuando el Area es 0.00 el precio sera igual a β0 correspondiente a 86,234 y en el caso que el area tome un valor diferente de 0.00, el β1 indica que por cada metro cuadrado el valor de la vivienda se incrementa 2.124 millones.

El valor p indica si el coeficiente es significativo, para este caso presenta *** mostrando que la variable area es significativa para el modelo y el r cuadrado muestra que el modelo logra explicar un 84% del precio de las viviendas. Sin embargo, no podriamos indicar que este sea el mejor modelo que explique el precio de estas.

4. Construir un intervalo de confianza (95%) para el coeficiente B1, interpretar y concluir si el coeficiente es igual a cero o no. Compare este resultado con una prueba de hipotesis t.

confint(Modelo_reg, "Area_contruida", level = 0.95)
##                  2.5 %   97.5 %
## Area_contruida 1.74017 2.507771

Con un nivel de confianza del 95% se puede indicar que el coeficiente β1 se encuentra en tre los rangos de 1.74 y 2.50. Por lo cual podemos decir que el precio estaria entre 1.74 millones COP y 2.50 millones COP por cada metro cuadrado de area construida.

5. Calcule e interprete el indicador de bondad y ajuste R2 .

summary(Modelo_reg)$adj.r.squared
## [1] 0.8381408

Para el modelo calculado anteriormente podemos ver qu el coeficiente de determinación es una medida utilizada para explicar cuánta variabilidad en el precio de la vivienda puede ser causada por su relación con el area construida. Esta correlación, conocida como “bondad de ajuste”, se representa como un valor entre 0,0 y 1,0 que para este caso se enceuntra en 0,83 lo que indica que el valor al ser inferior a 0,90 el ajuste del modelo no seria aceptable.

6.Cual seria el precio promedio estimado para un apartamento de 110 metros cuadrados? Considera entonces con este resultado que un apartamento en la misma zona con 110 metros cuadrados en un precio de 200 millones seria una buena oferta? Que consideraciones adicionales se deben tener?

predict(Modelo_reg,list(Area_contruida=110),interval = "confidence",level = 0.95)
##        fit      lwr      upr
## 1 319.8706 306.3133 333.4279

La predicción del modelo indica que el precio de una vivienda con un area de 110 metros estaria cercano a 320 millones, y que este valor puede variar con un rango entre 306 milones y 333 millones. Por lo cual se puede considerar una buena oferta ya que acorde al grafico de disperción se ajusta al precio y area correctos.

Se puede ver que el modelo no puede explicar el precio de la vienda en un 100% ya que este puede estar influenciado por multiples factores que pueden llegar a ser significativos para el modelo y que en este caso no se estan considerando, como lo puede ser la ubicación de la vivienda, el acceso al transporte publico, el acceso a multiples vias principales, factores de seguridad, etc.

##7. Realice la validación de supuestos del modelo por medio de graficos apropiados, interpretarlos y sugerir posibles soluciones si se violan algunos de ellos.

#Supuestos
par(mfrow=c(2,2))
plot(Modelo_reg)

Podriamos ver que los residuales tienen un comportamiento, lo que refleja que puede haber otros factores que se deben relacionar al modelo como los que nombrabamos anteriormente y que el area construida no sea la unica variable explicativa para el modelo.

Swn<-shapiro.test(residuals(Modelo_reg))
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(Modelo_reg)
## W = 0.95489, p-value = 0.3009

Para el caso de la normalidad se mantiene en mayor medida el mismo comportamiento centrado a la línea, pero hay algunos que se separan ligeramente de ella. Sin embargo, al realizar el test de Shapiro donde el p valor (0,30) es mayor a alfa (0,05), no se rechaza la hipótesis nula (H0), por lo tanto, la variable presenta un comportamiento normal o paramétrico. Pero podemos realizar un ajuste al modelo para obtener un resultado mas consistente en relación a los residuos.Por lo tanto para ajustar el modelo se puede hacer una transformación utilizando un logaritmo.

##8. De ser necesario realice una transformación apropiada para mejorar el ajuste y supuestos del modelo.

#ajustar el modelo con log
Modelo_log = lm(log(precio_millon)~log(Area_contruida))
summary(Modelo_log )
## 
## Call:
## lm(formula = log(precio_millon) ~ log(Area_contruida))
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.13325 -0.07583 -0.01435  0.07501  0.16051 
## 
## Coefficients:
##                     Estimate Std. Error t value Pr(>|t|)    
## (Intercept)          1.96408    0.29228    6.72 5.97e-07 ***
## log(Area_contruida)  0.80928    0.06194   13.06 2.11e-12 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.08859 on 24 degrees of freedom
## Multiple R-squared:  0.8767, Adjusted R-squared:  0.8716 
## F-statistic: 170.7 on 1 and 24 DF,  p-value: 2.109e-12

Este modelo nos aroja el siguiente resultado

Precio = β0 + β1 ln (Area)

El valor p indica si el coeficiente es significativo, para este caso presenta *** mostrando que la variable area es significativa para el modelo y el r cuadrado muestra que el modelo logra explicar un 87% del precio de las viviendas. Sin embargo, no podriamos indicar que este sea el mejor modelo que explique el precio de estas.

#Predecir el modelo
predict(Modelo_log,newdata = list(Area_contruida=110))
##        1 
## 5.768087
#Se debe transformar ya que esta en log
exp(predict(Modelo_log,newdata = list(Area_contruida=110)))
##        1 
## 319.9252

La predicción del modelo indica que el precio de una vivienda con un area de 110 metros estaria cercano a 320 millones.

#Supuestos
par(mfrow=c(2,2))
plot(Modelo_log)

Swn<-shapiro.test(residuals(Modelo_log))
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(Modelo_log)
## W = 0.94462, p-value = 0.173

Realizando el ajuste del modelo con el logaritmo podemos ver que el R2 se incrementa en un 3%, lo que puede reflejar que el modelo se ajusta mejor. Sin embargo, el compoartamiento de los residuales se mantiene por lo que podemos indicar que para este modelo se requiere la implementación de otros factores significativos que afectan el precio de la vivienda. Por su parte la normalidad se mantiene en los dos modelos lo cual vemos graficamente y en el test de normalidad de Shapiro-Wilk.