Emerson Trujillo Sierra

6/Mayo/2022

Pregunta 1

Realice un análisis exploratorio de las variables precio de vivienda (millones de pesos COP) y area de la vivienda (metros cuadrados) - incluir graficos e indicadores apropiados interpretados.

library(readxl)
library(ggplot2)
datos<- read_excel("C:/Users/portatil/Desktop/Datos R/ActividaddesFinal/datos_vivienda.xlsx")
View(datos)
attach(datos)
names(datos)
## [1] "Area_contruida" "precio_millon"
library(PASWR)
Area = EDA(Area_contruida)
## [1] "Area_contruida"

Area
## Size (n)  Missing  Minimum   1st Qu     Mean   Median   TrMean   3rd Qu 
##   26.000    0.000   80.000   86.000  115.747   97.000  113.934  131.000 
##     Max.   Stdev.     Var.  SE Mean   I.Q.R.    Range Kurtosis Skewness 
##  195.000   35.543 1263.328    6.971   45.000  115.000   -0.748    0.813 
## SW p-val 
##    0.001

Su puede apreciar en las gráficas de Area_contruida no presenta un comportamiento normal. Los datos presentan una media de 111.747m2 y mediana de 97m2 las cuales no coinciden para una normalidad. Con una desviación estándar de 35.54 con un valor mínimo de 80m2 y un valor máximo de 195m2. El 50% de los datos están entre 86m2 y 131m2. Los datos además tienen una asimetría de 0.81 por lo que en la gráfica se ve una asimetría levemente hacia la derecha.

Precio = EDA(precio_millon)
## [1] "precio_millon"

Precio
## Size (n)  Missing  Minimum   1st Qu     Mean   Median   TrMean   3rd Qu 
##   26.000    0.000  240.000  250.000  332.077  305.000  329.750  398.750 
##     Max.   Stdev.     Var.  SE Mean   I.Q.R.    Range Kurtosis Skewness 
##  480.000   82.144 6747.674   16.110  148.750  240.000   -1.618    0.238 
## SW p-val 
##    0.003

Su puede apreciar en las gráficas de precio_millon no presenta un comportamiento normal. Los datos presentan una media de 332.077 millones y mediana de 305 millones las cuales no coinciden para una normalidad. Con una desviación estándar de 82.14 con un valor mínimo de 240 millones y un valor máximo de 480millones. El 50% de los datos están entre 250 millones y 398.750 millones. Los datos además tienen una asimetría de 0.238 por lo que en la gráfica se ve una asimetría levemente hacia la derecha.

Pregunta 2

Realice un análisis exploratorio bivariado de datos enfocado en la relación entre la variable respuesta (y=precio) en función de la variable predictora (x=area) - incluir graficos e indicadores apropiados interpretados.

grafico=ggplot(datos,aes(y=precio_millon,x=Area_contruida)) + geom_point(colour = "red", size = 2) + geom_smooth()
grafico

cov(Area_contruida, precio_millon )
## [1] 2683.271
cor(Area_contruida, precio_millon )
## [1] 0.9190295

La covarianza es positiva en 2683.2, Se puede decir que, a medida que aumenta el area construida de las viviendas, asi mismo aumenta su valor. EL coeficiente de correlación es de 0.919, con lo cual podemos concluir que existe una relación directa y fuerte entre la varibale y=precio_millon y la variable x=Area_contruida.

Pregunta 3

Estime el modelo de regresión lineal simple entre precio = f(area)+e. Interprete los coeficientes del modelo βo;β1 en caso de ser correcto.

mod = lm(precio_millon~Area_contruida)
summary(mod)
## 
## Call:
## lm(formula = precio_millon ~ Area_contruida)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -51.673 -25.612  -6.085  24.875  67.650 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      86.234     22.479   3.836 0.000796 ***
## Area_contruida    2.124      0.186  11.422 3.45e-11 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 33.05 on 24 degrees of freedom
## Multiple R-squared:  0.8446, Adjusted R-squared:  0.8381 
## F-statistic: 130.5 on 1 and 24 DF,  p-value: 3.45e-11

La ecuación, precio_millon = 86.234 + 2.124(Area_contruida) + ei, lo que nos muestra el modelo es que, existe evidencia estadistica de que el precio y el area construida están correlacionados, por lo que se podría esperar que por un aumento en 1m2 de area construida el precio del inmueble aumente en promedio 2.124 millones y si se tiene area construida en 0m2 se espera que el precio sea de 86.234 millones.

Pregunta 4

Construir un intervalo de confianza (95%) para el coeficiente β1, interpretar y concluir si el coeficiente es igual a cero o no. Compare este resultado con una prueba de hipotesis t.

confint(mod, "Area_contruida", level = 0.95)
##                  2.5 %   97.5 %
## Area_contruida 1.74017 2.507771

Con confianza = 95% podemos afirmar que el coeficiente β1 = Area construida podría tomar un valor entre 1.74 y 2.50 millones por cada metro cuadrado de area construida.

Pregunta 5

Calcule e interprete el indicador de bondad y ajuste R2.

summary(mod)
## 
## Call:
## lm(formula = precio_millon ~ Area_contruida)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -51.673 -25.612  -6.085  24.875  67.650 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      86.234     22.479   3.836 0.000796 ***
## Area_contruida    2.124      0.186  11.422 3.45e-11 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 33.05 on 24 degrees of freedom
## Multiple R-squared:  0.8446, Adjusted R-squared:  0.8381 
## F-statistic: 130.5 on 1 and 24 DF,  p-value: 3.45e-11

El ajuste del modelo es de R2=0.8446, es decir, que el modelo explica el 84.46% de la variabilidad del precio de la vivienda.

Pregunta 6

Cual seria el precio promedio estimado para un apartamento de 110 metros cuadrados? Considera entonces con este resultado que un apartemento en la misma zona con 110 metros cuadrados en un precio de 200 millones seria una buena oferta? Que consideraciones adicionales se deben tener?.

predict(mod,list(Area_contruida=110),interval = "confidence")
##        fit      lwr      upr
## 1 319.8706 306.3133 333.4279

El precio promedio estimado para un apartamento de 110 metros cuadrados sería de 319.87 millones, con un posible precio tambien entre 306.31 millones y 333.42 millones. Si un apartamento ubicado en la misma zona de 110 metros cuadrados, lo ofrecen por un precio de 200 millones entonces se podría considerar como una buena oferta.

Pregunta 7

Realice la validación de supuestos del modelo por medio de graficos apropiados, interpretarlos y sugerir posibles soluciones si se violan algunos de ellos.

par(mfrow=c(2,2))
plot(mod)

la varianza no es constante ya que en la gráfica Residuals vs Fitted se evidencia una curva alrededor de cero. Asimismo, se eviedencia que gráficamente no corresponde a una distribución de los residuales, Por otra parte el grafico de QQ-Plot no muestra normalidad, ya que muestra varios puntos que se alejan de la linea. Se requiere transformación al modelo que permita tener una mejor explicación del precio.

Pregunta 8

De ser necesario realice una transformación apropiada para mejorar el ajuste y supuestos del modelo.

modelo_ajustado = lm(log(precio_millon)~log(Area_contruida))
summary(modelo_ajustado)
## 
## Call:
## lm(formula = log(precio_millon) ~ log(Area_contruida))
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.13325 -0.07583 -0.01435  0.07501  0.16051 
## 
## Coefficients:
##                     Estimate Std. Error t value Pr(>|t|)    
## (Intercept)          1.96408    0.29228    6.72 5.97e-07 ***
## log(Area_contruida)  0.80928    0.06194   13.06 2.11e-12 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.08859 on 24 degrees of freedom
## Multiple R-squared:  0.8767, Adjusted R-squared:  0.8716 
## F-statistic: 170.7 on 1 and 24 DF,  p-value: 2.109e-12
par(mfrow=c(2,2))
plot(modelo_ajustado)

Como no se cumplian algunos supuestos de la varianza y la normalidad de los residuales, se realizó una transformación con log en la variable ‘X’ y ‘Y’. Podemos ver que el modelo Logaritmico tiene un mejor indicador de bondad y ajuste r2=0.8767.

Pregunta 9

De ser necesario compare el ajuste y supuestos del modelo inicial y el transformado.

El R2 del segundo modelo fue de R2=0.8767 y aumentó respecto al primer modelo planteado el cual dió como resultado R2=0.8446, sin embargo, el incumplimiento en los supuestos de la varianza y la normalidad al parecer continuan teniendo la misma disposición. Asimismo, la variable independiente x=Area_contruida aumentó su nivel de significancia dentro del modelo con la transfotmación realizada.

**********************************************//*******************************************************************************************//***********************************************