librerias
1.Realice un análisis exploratorio de las variables precio de vivienda (millones de pesos COP) y area de la vivienda (metros cuadrados) - incluir graficos e indicadores apropiados interpretados.
library(readxl)
datos_vivienda <- read_excel("C:/Users/maria/Downloads/datos_vivienda.xlsx")
View(datos_vivienda)
attach(datos_vivienda)
par(mfrow=c(1,2))
hist(Area_contruida)
line = mean(Area_contruida)
abline(v=line, col="green", lwd=4)
hist(precio_millon)
line2 = mean(precio_millon)
abline(v=line2, col="green", lwd=4)
Analisis: En los histogramas se evidencia que se encuentra mayor concentración en área construida 80 Metros cuadrados y en el histograma de precios se evidencia mayor concentración de 200 a 300 millones
summary(datos_vivienda)
## Area_contruida precio_millon
## Min. : 80.0 Min. :240.0
## 1st Qu.: 86.0 1st Qu.:251.2
## Median : 97.0 Median :305.0
## Mean :115.7 Mean :332.1
## 3rd Qu.:130.0 3rd Qu.:395.0
## Max. :195.0 Max. :480.0
Analisis: La base de datos se compone de dos variables referente área construida vs precio, donde se evidencia que los precios oscilan entre 240 millones hasta 480 millones y un promedio de 332 millones, que el área construida oscilan entre 80 hasta 195 Metros cuadrados y un promedio de 115 metros cuadrados
grafico=ggplot(data = datos_vivienda,aes(y=Area_contruida,x=precio_millon)) + geom_point() + geom_smooth()
plot(grafico)
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'
Analisis: se evidencia que la realacion es directamente relacional entre variable area construida y precio, ya que a mayor area construida mayor es el precio.
cor(Area_contruida,precio_millon)
## [1] 0.9190295
Analisis: se evidencia un coeficiente de correlación cercano a 1 lo que indica que la relación entre variable area construida vs precio es fuerte.
mod = lm(precio_millon~Area_contruida)
summary(mod)
##
## Call:
## lm(formula = precio_millon ~ Area_contruida)
##
## Residuals:
## Min 1Q Median 3Q Max
## -51.673 -25.612 -6.085 24.875 67.650
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 86.234 22.479 3.836 0.000796 ***
## Area_contruida 2.124 0.186 11.422 3.45e-11 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 33.05 on 24 degrees of freedom
## Multiple R-squared: 0.8446, Adjusted R-squared: 0.8381
## F-statistic: 130.5 on 1 and 24 DF, p-value: 3.45e-11
Analisis: el R2 del modelo logra explicar en un 84,46% a la variable precio, lo que quiere decir que se puede ajustar el modelo para obtener un valor mas cercano al 100%
confint(mod, "Area_contruida", level = 0.95)
## 2.5 % 97.5 %
## Area_contruida 1.74017 2.507771
Analisis: Con una confianza del 95% podemos afirmar que el coeficiente β1 = Area construida podrÃa tomar un valor entre 1.7 y 2.5 millones por cada metro cuadrado de area construida.
summary(mod)
##
## Call:
## lm(formula = precio_millon ~ Area_contruida)
##
## Residuals:
## Min 1Q Median 3Q Max
## -51.673 -25.612 -6.085 24.875 67.650
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 86.234 22.479 3.836 0.000796 ***
## Area_contruida 2.124 0.186 11.422 3.45e-11 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 33.05 on 24 degrees of freedom
## Multiple R-squared: 0.8446, Adjusted R-squared: 0.8381
## F-statistic: 130.5 on 1 and 24 DF, p-value: 3.45e-11
Analisis: se evidencia que el ajuste del modelo presenta un coeficiente de determinacion r2 de 0.8446, esto quiere decir que el modelo explica el 84% de la variabilidad del precio del inmueble.
predict(mod,list(Area_contruida=110),interval = "confidence")
## fit lwr upr
## 1 319.8706 306.3133 333.4279
Analisis: se evidencia que al analizar el precio promedio de una vivienda de 110 metros cuadrados estaria entre 306 hasta 333 millones; destacando que si se encuentra una csa por un valor por debajo de estos valores podria ser una opción adecuada , sin dejar a un lado las condiciones de la casa y los atributos
par(mfrow=c(2,2))
plot(mod)
Analisis: se evidencia que la gráfica de los residuales muestra que la media se cumple ya que es cero, sin embargo, la varianza no es constante por lo que se evidencia una curva alrededor. por lo que se espera que al ajustar el modelo se geenren mejores resultados.
mod2 = lm(log(precio_millon)~log(Area_contruida))
summary(mod2)
##
## Call:
## lm(formula = log(precio_millon) ~ log(Area_contruida))
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.13325 -0.07583 -0.01435 0.07501 0.16051
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.96408 0.29228 6.72 5.97e-07 ***
## log(Area_contruida) 0.80928 0.06194 13.06 2.11e-12 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.08859 on 24 degrees of freedom
## Multiple R-squared: 0.8767, Adjusted R-squared: 0.8716
## F-statistic: 170.7 on 1 and 24 DF, p-value: 2.109e-12
par(mfrow=c(2,2))
plot(mod2)
Analisis: se puede evidenciar que el modelo Logaritmico tiene un mejor indicador de bondad y ajuste r2=0.8767 y el error estandar StdError=0.08859 tambien es menor que el modelo anterior.
Analisis: se compare el ajuste y supuestos del modelo inicial y el transformado y se evidencia que se presenta una variacion leve en los resultados, debido a que el modelo inicial presentaba un r2 de 0.8446 y con el ajuste este r2 paso a 0.8767.