1.Realice un análisis exploratorio de las variables precio de vivienda (millones de pesos COP) y area de la vivienda (metros cuadrados) - incluir graficos e indicadores apropiados interpretados.

library(readxl)
library(ggplot2)
datos_vivienda <- read_excel("C:/Users/Big Bang Data/Downloads/datos_vivienda.xlsx")
View(datos_vivienda)

attach(datos_vivienda)

par(mfrow=c(1,2))
hist(Area_contruida)
line = mean(Area_contruida)
abline(v=line, col="red", lwd=4)
hist(precio_millon)
line2 = mean(precio_millon)
abline(v=line2, col="red", lwd=4)

grafico=ggplot(data = datos_vivienda,aes(y=Area_contruida,x=precio_millon)) + geom_point() + geom_smooth()
plot(grafico)

summary(datos_vivienda)
##  Area_contruida  precio_millon  
##  Min.   : 80.0   Min.   :240.0  
##  1st Qu.: 86.0   1st Qu.:251.2  
##  Median : 97.0   Median :305.0  
##  Mean   :115.7   Mean   :332.1  
##  3rd Qu.:130.0   3rd Qu.:395.0  
##  Max.   :195.0   Max.   :480.0

Analisis:

De la informacion anterior se puede indicar que el precio promedio de las viviendas de la base analizada es de 332 millones, siendo 240 millones el precio minimo y 480 millones el precio maximo. De igual manera el area construida promedio es de 115 m2, el area minima es de 80 m2 y el area maxima de 195 m2.

Se puede inferir que a medida que aumenta el area construida de las viviendas, asi mismo aumenta su valor en el mercado.

2. Realice un análisis exploratorio bivariado de datos enfocado en la relación entre la variable respuesta (y=precio) en función de la variable predictora (x=area) - incluir graficos e indicadores apropiados interpretados.

cov(Area_contruida, precio_millon )
## [1] 2683.271
cor(Area_contruida, precio_millon )
## [1] 0.9190295
require(CGPfunctions)
graf=PlotXTabs(datos_vivienda,Area_contruida, precio_millon)

Analisis:

De la anterior informacion se puede analizar que entre las dos variables se presenta una covarianza positiva de 2683.7, lo que indica la presencia una relación lineal positiva entre las variables, lo que quiere decir que al aumentar la variable predictora (Area_Construida), la variable de respuesta (Precio_Millon) tambien lo hace.

Al observar el valor de la correlacion 0.919, se puede indicar que es positiva fuerte. La relación es positiva porque las variables aumentan al mismo tiempo.

3. Estime el modelo de regresión lineal simple entre precio = f(area) +e.Interprete los coeficientes del modelo β0, β1 en caso de ser correcto.

modelo = lm(precio_millon~Area_contruida)
summary(modelo)
## 
## Call:
## lm(formula = precio_millon ~ Area_contruida)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -51.673 -25.612  -6.085  24.875  67.650 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      86.234     22.479   3.836 0.000796 ***
## Area_contruida    2.124      0.186  11.422 3.45e-11 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 33.05 on 24 degrees of freedom
## Multiple R-squared:  0.8446, Adjusted R-squared:  0.8381 
## F-statistic: 130.5 on 1 and 24 DF,  p-value: 3.45e-11

Analisis:

De la anterior informacion, se puede analizar que para la ecuacion y=β0+β1x+ε, donde:

Y= Precio_Millon (Variable de Respuesta) x= Area_Construdia (Variable Predictora) β0= 86.234 (Intercepto) β1= 2.124 (Pendiente)

Se evidencia que con el modelo de regresion lineal las dos variables analizadas estan correlacionadas, por lo tanto se espera que por un aumento en 1 metro cuadrado de area construida el precio del inmueble aumente en promedio 2.12 millones y si no se tiene area construida se espera que el precio sea de 86.2 millones.

4. Construir un intervalo de confianza (95%) para el coeficiente β1, interpretar y concluir si el coeficiente es igual a cero o no. Compare este resultado con una prueba de hipotesis t.

confint(modelo, "Area_contruida", level = 0.95)
##                  2.5 %   97.5 %
## Area_contruida 1.74017 2.507771

Analisis:

De la anterior informacion se puede analizar que si se utiliza un intervalo de confianza del 95% para el coeficiente β1 (Area construida) este puede tomar un valor entre 1.7 y 2.5 millones por cada metro cuadrado de area construida en una vivienda.

La pruena de hipotesis t presenta un valor de 3.45e-11, lo que indica que esta variable de Area_Construida es significativa para el modelo, ya que su p-value es < a 0.05.

5. Calcule e interprete el indicador de bondad y ajuste R2.

summary(modelo)
## 
## Call:
## lm(formula = precio_millon ~ Area_contruida)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -51.673 -25.612  -6.085  24.875  67.650 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      86.234     22.479   3.836 0.000796 ***
## Area_contruida    2.124      0.186  11.422 3.45e-11 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 33.05 on 24 degrees of freedom
## Multiple R-squared:  0.8446, Adjusted R-squared:  0.8381 
## F-statistic: 130.5 on 1 and 24 DF,  p-value: 3.45e-11

Analisis:

De la anterior informacion se puede analizar que el ajuste del modelo presenta un coeficiente de determinacion - r2 de 0.8446, esto quiere decir que el modelo explica el 84% de la variabilidad del precio del inmueble.

6. Cual seria el precio promedio estimado para un apartamento de 110 metros cuadrados? Considera entonces con este resultado que un apartamento en la misma zona con 110 metros cuadrados en un precio de 200 millones seria una buena oferta? Que consideraciones adicionales se deben tener?.

predict(modelo,list(Area_contruida=110),interval = "confidence")
##        fit      lwr      upr
## 1 319.8706 306.3133 333.4279

Analisis:

De la anterior informacion se puede analizar que el precio promedio para una vivienda de 110 m2 estaria entre los 306 a 333 millones, si se consigue una oferta por debajo de este valor se podria considerar como una oferta ideal, sin embargo se deberia contemplar no solo el area construida al momento de comprar el inmueble, si no tener en cuenta otras consideraciones como su ubicacion, el estado de la misma, validar si tiene temas judiciales pendientes y demas,antes de tomar una decision final.

7. Realice la validación de supuestos del modelo por medio de graficos apropiados, interpretarlos y sugerir posibles soluciones si se violan algunos de ellos.

par(mfrow=c(2,2))
plot(modelo)

Analisis:

De la informacion anterior se puede analizar que la gráfica de los residuales muestra que la media se cumple ya que es cero, sin embargo, la varianza no es constante por lo que se evidencia una curva alrededor.Por lo tanto el supuesto de aleatoriedad de los errores no se esta cumpliendo, por lo que se hace necesario realizar el ajuste del modelo para corregir la situacion de aleatoriedad y normalidad.

8. De ser necesario realice una transformación apropiada para mejorar el ajuste y supuestos del modelo.

modelo_ajustado = lm((precio_millon)~log(Area_contruida))
summary(modelo_ajustado)
## 
## Call:
## lm(formula = (precio_millon) ~ log(Area_contruida))
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -45.837 -20.153  -1.878  20.145  55.145 
## 
## Coefficients:
##                     Estimate Std. Error t value Pr(>|t|)    
## (Intercept)          -948.53      89.09  -10.65 1.42e-10 ***
## log(Area_contruida)   271.88      18.88   14.40 2.63e-13 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 27 on 24 degrees of freedom
## Multiple R-squared:  0.8963, Adjusted R-squared:  0.8919 
## F-statistic: 207.4 on 1 and 24 DF,  p-value: 2.63e-13
par(mfrow=c(2,2))
plot(modelo_ajustado)

Analisis:

De la informacion anterior se puede analizar que al evidenciar que no se cumplian algunos supuestos de la varianza y la normalidad de los residuales se realizó un ajuste al modelo con una transformacion logaritmica en la variable ‘x’.

9. De ser necesario compare el ajuste y supuestos del modelo inicial y el transformado.

Al realizar el ajuste del modelo y al compararlo con el modelo inicial se puede observar una variacion leve en los resultados, debido a que el modelo inicial presentaba un r2 de 0.8446 y con el ajuste este r2 paso a 0.8963. De igual manera se puede visualizar que la grafica de los residuales presenta una curva menos pronunciada y la variable independiente ‘x’ aumentó su nivel de significancia dentro del modelo con la transfotmación realizada.