librerias

1.Realice un análisis exploratorio de las variables precio de vivienda (millones de pesos COP) y area de la vivienda (metros cuadrados) - incluir graficos e indicadores apropiados interpretados.

library(readxl)
datos_vivienda <- read_excel("C:/Users/maria/Downloads/datos_vivienda.xlsx")
View(datos_vivienda)

attach(datos_vivienda)

par(mfrow=c(1,2))
hist(Area_contruida)
line = mean(Area_contruida)
abline(v=line, col="green", lwd=4)
hist(precio_millon)
line2 = mean(precio_millon)
abline(v=line2, col="green", lwd=4)

Analisis: En los histogramas se evidencia que se encuentra mayor concentración en área construida 80 Metros cuadrados y en el histograma de precios se evidencia mayor concentración de 200 a 300 millones

summary(datos_vivienda)
##  Area_contruida  precio_millon  
##  Min.   : 80.0   Min.   :240.0  
##  1st Qu.: 86.0   1st Qu.:251.2  
##  Median : 97.0   Median :305.0  
##  Mean   :115.7   Mean   :332.1  
##  3rd Qu.:130.0   3rd Qu.:395.0  
##  Max.   :195.0   Max.   :480.0

Analisis: La base de datos se compone de dos variables referente área construida vs precio, donde se evidencia que los precios oscilan entre 240 millones hasta 480 millones y un promedio de 332 millones, que el área construida oscilan entre 80 hasta 195 Metros cuadrados y un promedio de 115 metros cuadrados

  1. Realice un análisis exploratorio bivariado de datos enfocado en la relación entre la variable respuesta (y=precio) en función de la variable predictora (x=area) - incluir graficos e indicadores apropiados interpretados.
grafico=ggplot(data = datos_vivienda,aes(y=Area_contruida,x=precio_millon)) + geom_point() + geom_smooth()
plot(grafico)
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'

Analisis: se evidencia que la realacion es directamente relacional entre variable area construida y precio, ya que a mayor area construida mayor es el precio.

cor(Area_contruida,precio_millon)
## [1] 0.9190295

Analisis: se evidencia un coeficiente de correlación cercano a 1 lo que indica que la relación entre variable area construida vs precio es fuerte.

  1. Estime el modelo de regresión lineal simple entre precio = f(area)+e. Interprete los coeficientes del modelo β0, β1 en caso de ser correcto.
mod = lm(precio_millon~Area_contruida)
summary(mod)
## 
## Call:
## lm(formula = precio_millon ~ Area_contruida)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -51.673 -25.612  -6.085  24.875  67.650 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      86.234     22.479   3.836 0.000796 ***
## Area_contruida    2.124      0.186  11.422 3.45e-11 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 33.05 on 24 degrees of freedom
## Multiple R-squared:  0.8446, Adjusted R-squared:  0.8381 
## F-statistic: 130.5 on 1 and 24 DF,  p-value: 3.45e-11

Analisis: el R2 del modelo logra explicar en un 84,46% a la variable precio, lo que quiere decir que se puede ajustar el modelo para obtener un valor mas cercano al 100%

  1. Construir un intervalo de confianza (95%) para el coeficiente β1, interpretar y concluir si el coeficiente es igual a cero o no. Compare este resultado con una prueba de hipotesis t.
confint(mod, "Area_contruida", level = 0.95)
##                  2.5 %   97.5 %
## Area_contruida 1.74017 2.507771

Analisis: Con una confianza del 95% podemos afirmar que el coeficiente β1 = Area construida podría tomar un valor entre 1.7 y 2.5 millones por cada metro cuadrado de area construida.

  1. Calcule e interprete el indicador de bondad y ajuste R2.
summary(mod)
## 
## Call:
## lm(formula = precio_millon ~ Area_contruida)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -51.673 -25.612  -6.085  24.875  67.650 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      86.234     22.479   3.836 0.000796 ***
## Area_contruida    2.124      0.186  11.422 3.45e-11 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 33.05 on 24 degrees of freedom
## Multiple R-squared:  0.8446, Adjusted R-squared:  0.8381 
## F-statistic: 130.5 on 1 and 24 DF,  p-value: 3.45e-11

Analisis: se evidencia que el ajuste del modelo presenta un coeficiente de determinacion r2 de 0.8446, esto quiere decir que el modelo explica el 84% de la variabilidad del precio del inmueble.

  1. Cual seria el precio promedio estimado para un apartamento de 110 metros cuadrados? Considera entonces con este resultado que un apartamento en la misma zona con 110 metros cuadrados en un precio de 200 millones seria una buena oferta? Que consideraciones adicionales se deben tener?.
predict(mod,list(Area_contruida=110),interval = "confidence")
##        fit      lwr      upr
## 1 319.8706 306.3133 333.4279

Analisis: se evidencia que al analizar el precio promedio de una vivienda de 110 metros cuadrados estaria entre 306 hasta 333 millones; destacando que si se encuentra una csa por un valor por debajo de estos valores podria ser una opción adecuada , sin dejar a un lado las condiciones de la casa y los atributos

  1. Realice la validación de supuestos del modelo por medio de graficos apropiados, interpretarlos y sugerir posibles soluciones si se violan algunos de ellos.
par(mfrow=c(2,2))
plot(mod)

Analisis: se evidencia que la gráfica de los residuales muestra que la media se cumple ya que es cero, sin embargo, la varianza no es constante por lo que se evidencia una curva alrededor. por lo que se espera que al ajustar el modelo se geenren mejores resultados.

  1. De ser necesario realice una transformación apropiada para mejorar el ajuste y supuestos del modelo.
mod2 = lm(log(precio_millon)~log(Area_contruida))
summary(mod2)
## 
## Call:
## lm(formula = log(precio_millon) ~ log(Area_contruida))
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.13325 -0.07583 -0.01435  0.07501  0.16051 
## 
## Coefficients:
##                     Estimate Std. Error t value Pr(>|t|)    
## (Intercept)          1.96408    0.29228    6.72 5.97e-07 ***
## log(Area_contruida)  0.80928    0.06194   13.06 2.11e-12 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.08859 on 24 degrees of freedom
## Multiple R-squared:  0.8767, Adjusted R-squared:  0.8716 
## F-statistic: 170.7 on 1 and 24 DF,  p-value: 2.109e-12
par(mfrow=c(2,2))
plot(mod2)

Analisis: se puede evidenciar que el modelo Logaritmico tiene un mejor indicador de bondad y ajuste r2=0.8767 y el error estandar StdError=0.08859 tambien es menor que el modelo anterior.

  1. De ser necesario compare el ajuste y supuestos del modelo inicial y el transformado.

Analisis: se compare el ajuste y supuestos del modelo inicial y el transformado y se evidencia que se presenta una variacion leve en los resultados, debido a que el modelo inicial presentaba un r2 de 0.8446 y con el ajuste este r2 paso a 0.8767.