R Markdown

  1. Realice un análisis exploratorio de las variables precio de vivienda (millones de pesos COP) y area de la vivienda (metros cuadrados) - incluir graficos e indicadores apropiados interpretados.
## [1] "Area_contruida" "precio_millon"
##  Area_contruida  precio_millon  
##  Min.   : 80.0   Min.   :240.0  
##  1st Qu.: 86.0   1st Qu.:251.2  
##  Median : 97.0   Median :305.0  
##  Mean   :115.7   Mean   :332.1  
##  3rd Qu.:130.0   3rd Qu.:395.0  
##  Max.   :195.0   Max.   :480.0

##Análisis

De la exploración de los datos se puede ver que en su mayoria las viviendas que se tienen en la base de datos son de areas menores a los 100 metros cuadrados.
En promedio el area construida de los inmuebles es de 115.7 metros cuadrados con un minimo de 80 y un máximo de 195 metros cuadrados.En relación al precio de las viviendas es posible evidenciar que el inmueble más economico es de 240 millones, la más costosa es de 480 millones y en promedio tienen un valor de 332.1 millones.

  1. Realice un análisis exploratorio bivariado de datos enfocado en la relación entre la variable respuesta (y=precio) en función de la variable predictora (x=area) - incluir graficos e indicadores apropiados interpretados.

## [1] 2683.271
## [1] 0.9190295

##Análisis

Graficamente se observa una relación directa entre el area de la vivienda y el precio, aunque no es del todo lineal, pareciera tener una componente exponencial.Calculada la correlación entre el precio y area construido arroja un resultado de 0.92 definiendolo así como una correlación positiva fuerte, por lo que entre mayor precio se tendrá posiblemente mayor area construida en el inmueble.

  1. Estime el modelo de regresión lineal simple entre precio = f(area)+e. Interprete los coeficientes del modelo β0, β1 en caso de ser correcto.
## 
## Call:
## lm(formula = precio_millon ~ Area_contruida)
## 
## Coefficients:
##    (Intercept)  Area_contruida  
##         86.234           2.124
## 
## Call:
## lm(formula = precio_millon ~ Area_contruida)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -51.673 -25.612  -6.085  24.875  67.650 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      86.234     22.479   3.836 0.000796 ***
## Area_contruida    2.124      0.186  11.422 3.45e-11 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 33.05 on 24 degrees of freedom
## Multiple R-squared:  0.8446, Adjusted R-squared:  0.8381 
## F-statistic: 130.5 on 1 and 24 DF,  p-value: 3.45e-11

##Análisis

El resultado del modelo que presenta el menor error cuadratico es el siguiente:precio_millon=86.234+2.124Area_contruida+ei, Si bien el modelo presenta evidencia de que estan significativamente asociados, por lo que se evidencia en el error cuadratico del modelo aun puede ser sujeto a mejora, representa el 83% de los precios de las viviendas.

con el modelo actual se puede decir que por un aumento en 1 metro cuadrado de area construida el precio de la vivienda aumenta 2.12 millones.

  1. Construir un intervalo de confianza (95%) para el coeficiente β1, interpretar y concluir si el coeficiente es igual a cero o no. Compare este resultado con una prueba de hipotesis t.
##                  2.5 %   97.5 %
## Area_contruida 1.74017 2.507771

Análisis Con una confianza del 95% se puede decir que el coeficiente β1 asociado al Area construida podría tomar un valor entre 1.74 y 2.5 millones por cada metro cuadrado de area construida.

Adicionalmente, el coeficiente β1 es estadisticamente significativa para el modelo ya que su p-value es < a 0.05.

  1. Calcule e interprete el indicador de bondad y ajuste R2.
## 
## Call:
## lm(formula = precio_millon ~ Area_contruida)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -51.673 -25.612  -6.085  24.875  67.650 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      86.234     22.479   3.836 0.000796 ***
## Area_contruida    2.124      0.186  11.422 3.45e-11 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 33.05 on 24 degrees of freedom
## Multiple R-squared:  0.8446, Adjusted R-squared:  0.8381 
## F-statistic: 130.5 on 1 and 24 DF,  p-value: 3.45e-11

Análisis El ajuste del modelo es de R2=0.8446, lo que significa que el modelo explica el 84% de las relaciones entre el are de la vivienda y su precio. se considera un poco bajo, podria llegar a tener mejoraras el modelo con algun ajuste.

  1. Cual seria el precio promedio estimado para un apartamento de 110 metros cuadrados? Considera entonces con este resultado que un apartemento en la misma zona con 110 metros cuadrados en un precio de 200 millones seria una buena oferta? Que consideraciones adicionales se deben tener?.
##        fit      lwr      upr
## 1 319.8706 306.3133 333.4279

##Análisis El precio promedio estimado para un apartamento de 110 metros cuadrados sería de 319.8 millones, con un posible precio también entre 306.3 y 333.4 millones. Si un inmueble ubicado en la misma zona que este primero de 110 metros cuadrados lo ofrecen por un precio de 200 millones entonces se podría considerar como una excelente oferta, sin embargo, este modelo tiene en cuenta una sola variable que es el área, para tener una buena decisión seria importante considerar otras variables como la ubicación, acceso a transporte público entre otros.

  1. Realice la validación de supuestos del modelo por medio de graficos apropiados, interpretarlos y sugerir posibles soluciones si se violan algunos de ellos.

Análisis

Como se puede observar la grafica de los valores residuales siguen un comportamiento definido y no aleatorio, lo cual nos da señales que el modelo se puede ajustar para cubrir en un mayor porcentaje de relaciones entre areas y preciios. Cuando se identifique una alateoriedad en los datos residuales podriamos decir que ya no hay ajuste que mejore el modelo.

En la grafica de prueba de normalidad se puede ver que hay puntos que no siguen la linea recta que nos asegura una distribución normal de los datos.

  1. De ser necesario realice una transformación apropiada para mejorar el ajuste y supuestos del modelo.

Realizamos una transformación aplicando logaritmo a la variable de respuesta.

## 
## Call:
## lm(formula = log(precio_millon) ~ Area_contruida)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.16503 -0.09255 -0.02221  0.08600  0.19822 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    5.048147   0.073371   68.80  < 2e-16 ***
## Area_contruida 0.006288   0.000607   10.36 2.46e-10 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.1079 on 24 degrees of freedom
## Multiple R-squared:  0.8172, Adjusted R-squared:  0.8096 
## F-statistic: 107.3 on 1 and 24 DF,  p-value: 2.456e-10

Este ajuste no presenta mejora resultado que el modelo original puesto que el error caudratico resulta ser menor que el modelo original, explica menos relaciones.

Probando con una transformada tanto a la variable respuesta como a las independientes, tenemos lo siguiente

## 
## Call:
## lm(formula = log(precio_millon) ~ log(Area_contruida))
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.13325 -0.07583 -0.01435  0.07501  0.16051 
## 
## Coefficients:
##                     Estimate Std. Error t value Pr(>|t|)    
## (Intercept)          1.96408    0.29228    6.72 5.97e-07 ***
## log(Area_contruida)  0.80928    0.06194   13.06 2.11e-12 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.08859 on 24 degrees of freedom
## Multiple R-squared:  0.8767, Adjusted R-squared:  0.8716 
## F-statistic: 170.7 on 1 and 24 DF,  p-value: 2.109e-12

Este modelo resulta tener mejore respuesta al tener un mejor valor de error cuadratico, pasando de 0,83 a 0,87. No es muy significativo el ajuste por lo que el cambio en los supuestos no será considerable, como se puede ver a continuación.

  1. De ser necesario compare el ajuste y supuestos del modelo inicial y el transformado.

No se presentaron mayores variaciones en los resultados, el error cuadratico del segundo modelo fue de R2=0.80 empeorando el modelo, el tercer modelo aplicando ajuste de logaritmo a las dos variables fue de R2= 0,87, mejorando un poco al valor original.

El valor de significancia del modelo original y el modelo 3, resulta ser practicamente el mismo.

Ahora analicemos los supuestos de cada modelo Original y el ajustado modelo 3.

Supuestos de residuales Modelo original:

Hipotesis: H0: los errores son normales Ha:los errores no son normales p-value <0.05 , entonces rechazo la hipotesis nula

## 
##  Shapiro-Wilk normality test
## 
## data:  mod$residuals
## W = 0.95489, p-value = 0.3009

Cumple el supuesto de normalidad de los errores

Hipotesis homogeneidad de varianzas: H0: las varianzas son homogeneas Ha:las varianzas no son homogeneas p-value <0.05 , entonces rechazo la hipotesis nula

## 
##  studentized Breusch-Pagan test
## 
## data:  mod
## BP = 5.8737, df = 1, p-value = 0.01537

Se rechaza la hipotesis nula de homogeneidad de varianzas, se espera que el modelo ajustado presente mejores resultados

Supuestos de residuales Modelo ajustado con logaritmo en las dos variables:

Hipotesis: H0: los errores son normales Ha:los errores no son normales p-value <0.05 , entonces rechazo la hipotesis nula

## 
##  Shapiro-Wilk normality test
## 
## data:  mod3$residuals
## W = 0.94462, p-value = 0.173

Cummple con el criterio de normalidad de los errores

Hipotesis homogeneidad de varianzas en el modelo ajustado: H0: las varianzas son homogeneas Ha:las varianzas no son homogeneas p-value <0.05 , entonces rechazo la hipotesis nula

## 
##  studentized Breusch-Pagan test
## 
## data:  mod3
## BP = 2.9947, df = 1, p-value = 0.08354

Apenas supera el 0,05, lo cual confirma que es un mejor modelo pero no por mucho.