library(readxl)
library(ggplot2)
datos_vivienda <- read_excel("C:/Users/Big Bang Data/Downloads/datos_vivienda.xlsx")
View(datos_vivienda)
attach(datos_vivienda)
par(mfrow=c(1,2))
hist(Area_contruida)
line = mean(Area_contruida)
abline(v=line, col="red", lwd=4)
hist(precio_millon)
line2 = mean(precio_millon)
abline(v=line2, col="red", lwd=4)
grafico=ggplot(data = datos_vivienda,aes(y=Area_contruida,x=precio_millon)) + geom_point() + geom_smooth()
plot(grafico)
summary(datos_vivienda)
## Area_contruida precio_millon
## Min. : 80.0 Min. :240.0
## 1st Qu.: 86.0 1st Qu.:251.2
## Median : 97.0 Median :305.0
## Mean :115.7 Mean :332.1
## 3rd Qu.:130.0 3rd Qu.:395.0
## Max. :195.0 Max. :480.0
De la informacion anterior se puede indicar que el precio promedio de las viviendas de la base analizada es de 332 millones, siendo 240 millones el precio minimo y 480 millones el precio maximo. De igual manera el area construida promedio es de 115 m2, el area minima es de 80 m2 y el area maxima de 195 m2.
Se puede inferir que a medida que aumenta el area construida de las viviendas, asi mismo aumenta su valor en el mercado.
cov(Area_contruida, precio_millon )
## [1] 2683.271
cor(Area_contruida, precio_millon )
## [1] 0.9190295
require(CGPfunctions)
graf=PlotXTabs(datos_vivienda,Area_contruida, precio_millon)
De la anterior informacion se puede analizar que entre las dos variables se presenta una covarianza positiva de 2683.7, lo que indica la presencia una relación lineal positiva entre las variables, lo que quiere decir que al aumentar la variable predictora (Area_Construida), la variable de respuesta (Precio_Millon) tambien lo hace.
Al observar el valor de la correlacion 0.919, se puede indicar que es positiva fuerte. La relación es positiva porque las variables aumentan al mismo tiempo.
modelo = lm(precio_millon~Area_contruida)
summary(modelo)
##
## Call:
## lm(formula = precio_millon ~ Area_contruida)
##
## Residuals:
## Min 1Q Median 3Q Max
## -51.673 -25.612 -6.085 24.875 67.650
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 86.234 22.479 3.836 0.000796 ***
## Area_contruida 2.124 0.186 11.422 3.45e-11 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 33.05 on 24 degrees of freedom
## Multiple R-squared: 0.8446, Adjusted R-squared: 0.8381
## F-statistic: 130.5 on 1 and 24 DF, p-value: 3.45e-11
De la anterior informacion, se puede analizar que para la ecuacion y=β0+β1x+ε, donde:
Y= Precio_Millon (Variable de Respuesta) x= Area_Construdia (Variable Predictora) β0= 86.234 (Intercepto) β1= 2.124 (Pendiente)
Se evidencia que con el modelo de regresion lineal las dos variables analizadas estan correlacionadas, por lo tanto se espera que por un aumento en 1 metro cuadrado de area construida el precio del inmueble aumente en promedio 2.12 millones y si no se tiene area construida se espera que el precio sea de 86.2 millones.
confint(modelo, "Area_contruida", level = 0.95)
## 2.5 % 97.5 %
## Area_contruida 1.74017 2.507771
De la anterior informacion se puede analizar que si se utiliza un intervalo de confianza del 95% para el coeficiente β1 (Area construida) este puede tomar un valor entre 1.7 y 2.5 millones por cada metro cuadrado de area construida en una vivienda.
La pruena de hipotesis t presenta un valor de 3.45e-11, lo que indica que esta variable de Area_Construida es significativa para el modelo, ya que su p-value es < a 0.05.
summary(modelo)
##
## Call:
## lm(formula = precio_millon ~ Area_contruida)
##
## Residuals:
## Min 1Q Median 3Q Max
## -51.673 -25.612 -6.085 24.875 67.650
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 86.234 22.479 3.836 0.000796 ***
## Area_contruida 2.124 0.186 11.422 3.45e-11 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 33.05 on 24 degrees of freedom
## Multiple R-squared: 0.8446, Adjusted R-squared: 0.8381
## F-statistic: 130.5 on 1 and 24 DF, p-value: 3.45e-11
De la anterior informacion se puede analizar que el ajuste del modelo presenta un coeficiente de determinacion - r2 de 0.8446, esto quiere decir que el modelo explica el 84% de la variabilidad del precio del inmueble.
predict(modelo,list(Area_contruida=110),interval = "confidence")
## fit lwr upr
## 1 319.8706 306.3133 333.4279
De la anterior informacion se puede analizar que el precio promedio para una vivienda de 110 m2 estaria entre los 306 a 333 millones, si se consigue una oferta por debajo de este valor se podria considerar como una oferta ideal, sin embargo se deberia contemplar no solo el area construida al momento de comprar el inmueble, si no tener en cuenta otras consideraciones como su ubicacion, el estado de la misma, validar si tiene temas judiciales pendientes y demas,antes de tomar una decision final.
par(mfrow=c(2,2))
plot(modelo)
De la informacion anterior se puede analizar que la gráfica de los residuales muestra que la media se cumple ya que es cero, sin embargo, la varianza no es constante por lo que se evidencia una curva alrededor.Por lo tanto el supuesto de aleatoriedad de los errores no se esta cumpliendo, por lo que se hace necesario realizar el ajuste del modelo para corregir la situacion de aleatoriedad y normalidad.
modelo_ajustado = lm((precio_millon)~log(Area_contruida))
summary(modelo_ajustado)
##
## Call:
## lm(formula = (precio_millon) ~ log(Area_contruida))
##
## Residuals:
## Min 1Q Median 3Q Max
## -45.837 -20.153 -1.878 20.145 55.145
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -948.53 89.09 -10.65 1.42e-10 ***
## log(Area_contruida) 271.88 18.88 14.40 2.63e-13 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 27 on 24 degrees of freedom
## Multiple R-squared: 0.8963, Adjusted R-squared: 0.8919
## F-statistic: 207.4 on 1 and 24 DF, p-value: 2.63e-13
par(mfrow=c(2,2))
plot(modelo_ajustado)
De la informacion anterior se puede analizar que al evidenciar que no se cumplian algunos supuestos de la varianza y la normalidad de los residuales se realizó un ajuste al modelo con una transformacion logaritmica en la variable ‘x’.
Al realizar el ajuste del modelo y al compararlo con el modelo inicial se puede observar una variacion leve en los resultados, debido a que el modelo inicial presentaba un r2 de 0.8446 y con el ajuste este r2 paso a 0.8963. De igual manera se puede visualizar que la grafica de los residuales presenta una curva menos pronunciada y la variable independiente ‘x’ aumentó su nivel de significancia dentro del modelo con la transfotmación realizada.