## [1] "Area_contruida" "precio_millon"
## Area_contruida precio_millon
## Min. : 80.0 Min. :240.0
## 1st Qu.: 86.0 1st Qu.:251.2
## Median : 97.0 Median :305.0
## Mean :115.7 Mean :332.1
## 3rd Qu.:130.0 3rd Qu.:395.0
## Max. :195.0 Max. :480.0
##Análisis
De la exploración de los datos se puede ver que en su mayoria las viviendas que se tienen en la base de datos son de areas menores a los 100 metros cuadrados.
En promedio el area construida de los inmuebles es de 115.7 metros cuadrados con un minimo de 80 y un máximo de 195 metros cuadrados.En relación al precio de las viviendas es posible evidenciar que el inmueble más economico es de 240 millones, la más costosa es de 480 millones y en promedio tienen un valor de 332.1 millones.
## [1] 2683.271
## [1] 0.9190295
##Análisis
Graficamente se observa una relación directa entre el area de la vivienda y el precio, aunque no es del todo lineal, pareciera tener una componente exponencial.Calculada la correlación entre el precio y area construido arroja un resultado de 0.92 definiendolo así como una correlación positiva fuerte, por lo que entre mayor precio se tendrá posiblemente mayor area construida en el inmueble.
##
## Call:
## lm(formula = precio_millon ~ Area_contruida)
##
## Coefficients:
## (Intercept) Area_contruida
## 86.234 2.124
##
## Call:
## lm(formula = precio_millon ~ Area_contruida)
##
## Residuals:
## Min 1Q Median 3Q Max
## -51.673 -25.612 -6.085 24.875 67.650
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 86.234 22.479 3.836 0.000796 ***
## Area_contruida 2.124 0.186 11.422 3.45e-11 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 33.05 on 24 degrees of freedom
## Multiple R-squared: 0.8446, Adjusted R-squared: 0.8381
## F-statistic: 130.5 on 1 and 24 DF, p-value: 3.45e-11
##Análisis
El resultado del modelo que presenta el menor error cuadratico es el siguiente:precio_millon=86.234+2.124Area_contruida+ei, Si bien el modelo presenta evidencia de que estan significativamente asociados, por lo que se evidencia en el error cuadratico del modelo aun puede ser sujeto a mejora, representa el 83% de los precios de las viviendas.
con el modelo actual se puede decir que por un aumento en 1 metro cuadrado de area construida el precio de la vivienda aumenta 2.12 millones.
## 2.5 % 97.5 %
## Area_contruida 1.74017 2.507771
Análisis Con una confianza del 95% se puede decir que el coeficiente β1 asociado al Area construida podría tomar un valor entre 1.74 y 2.5 millones por cada metro cuadrado de area construida.
Adicionalmente, el coeficiente β1 es estadisticamente significativa para el modelo ya que su p-value es < a 0.05.
##
## Call:
## lm(formula = precio_millon ~ Area_contruida)
##
## Residuals:
## Min 1Q Median 3Q Max
## -51.673 -25.612 -6.085 24.875 67.650
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 86.234 22.479 3.836 0.000796 ***
## Area_contruida 2.124 0.186 11.422 3.45e-11 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 33.05 on 24 degrees of freedom
## Multiple R-squared: 0.8446, Adjusted R-squared: 0.8381
## F-statistic: 130.5 on 1 and 24 DF, p-value: 3.45e-11
Análisis El ajuste del modelo es de R2=0.8446, lo que significa que el modelo explica el 84% de las relaciones entre el are de la vivienda y su precio. se considera un poco bajo, podria llegar a tener mejoraras el modelo con algun ajuste.
## fit lwr upr
## 1 319.8706 306.3133 333.4279
##Análisis El precio promedio estimado para un apartamento de 110 metros cuadrados sería de 319.8 millones, con un posible precio también entre 306.3 y 333.4 millones. Si un inmueble ubicado en la misma zona que este primero de 110 metros cuadrados lo ofrecen por un precio de 200 millones entonces se podría considerar como una excelente oferta, sin embargo, este modelo tiene en cuenta una sola variable que es el área, para tener una buena decisión seria importante considerar otras variables como la ubicación, acceso a transporte público entre otros.
Como se puede observar la grafica de los valores residuales siguen un comportamiento definido y no aleatorio, lo cual nos da señales que el modelo se puede ajustar para cubrir en un mayor porcentaje de relaciones entre areas y preciios. Cuando se identifique una alateoriedad en los datos residuales podriamos decir que ya no hay ajuste que mejore el modelo.
En la grafica de prueba de normalidad se puede ver que hay puntos que no siguen la linea recta que nos asegura una distribución normal de los datos.
Realizamos una transformación aplicando logaritmo a la variable de respuesta.
##
## Call:
## lm(formula = log(precio_millon) ~ Area_contruida)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.16503 -0.09255 -0.02221 0.08600 0.19822
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 5.048147 0.073371 68.80 < 2e-16 ***
## Area_contruida 0.006288 0.000607 10.36 2.46e-10 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.1079 on 24 degrees of freedom
## Multiple R-squared: 0.8172, Adjusted R-squared: 0.8096
## F-statistic: 107.3 on 1 and 24 DF, p-value: 2.456e-10
Este ajuste no presenta mejora resultado que el modelo original puesto que el error caudratico resulta ser menor que el modelo original, explica menos relaciones.
Probando con una transformada tanto a la variable respuesta como a las independientes, tenemos lo siguiente
##
## Call:
## lm(formula = log(precio_millon) ~ log(Area_contruida))
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.13325 -0.07583 -0.01435 0.07501 0.16051
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.96408 0.29228 6.72 5.97e-07 ***
## log(Area_contruida) 0.80928 0.06194 13.06 2.11e-12 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.08859 on 24 degrees of freedom
## Multiple R-squared: 0.8767, Adjusted R-squared: 0.8716
## F-statistic: 170.7 on 1 and 24 DF, p-value: 2.109e-12
Este modelo resulta tener mejore respuesta al tener un mejor valor de error cuadratico, pasando de 0,83 a 0,87. No es muy significativo el ajuste por lo que el cambio en los supuestos no será considerable, como se puede ver a continuación.
No se presentaron mayores variaciones en los resultados, el error cuadratico del segundo modelo fue de R2=0.80 empeorando el modelo, el tercer modelo aplicando ajuste de logaritmo a las dos variables fue de R2= 0,87, mejorando un poco al valor original.
El valor de significancia del modelo original y el modelo 3, resulta ser practicamente el mismo.
Ahora analicemos los supuestos de cada modelo Original y el ajustado modelo 3.
Supuestos de residuales Modelo original:
Hipotesis: H0: los errores son normales Ha:los errores no son normales p-value <0.05 , entonces rechazo la hipotesis nula
##
## Shapiro-Wilk normality test
##
## data: mod$residuals
## W = 0.95489, p-value = 0.3009
Cumple el supuesto de normalidad de los errores
Hipotesis homogeneidad de varianzas: H0: las varianzas son homogeneas Ha:las varianzas no son homogeneas p-value <0.05 , entonces rechazo la hipotesis nula
##
## studentized Breusch-Pagan test
##
## data: mod
## BP = 5.8737, df = 1, p-value = 0.01537
Se rechaza la hipotesis nula de homogeneidad de varianzas, se espera que el modelo ajustado presente mejores resultados
Supuestos de residuales Modelo ajustado con logaritmo en las dos variables:
Hipotesis: H0: los errores son normales Ha:los errores no son normales p-value <0.05 , entonces rechazo la hipotesis nula
##
## Shapiro-Wilk normality test
##
## data: mod3$residuals
## W = 0.94462, p-value = 0.173
Cummple con el criterio de normalidad de los errores
Hipotesis homogeneidad de varianzas en el modelo ajustado: H0: las varianzas son homogeneas Ha:las varianzas no son homogeneas p-value <0.05 , entonces rechazo la hipotesis nula
##
## studentized Breusch-Pagan test
##
## data: mod3
## BP = 2.9947, df = 1, p-value = 0.08354
Apenas supera el 0,05, lo cual confirma que es un mejor modelo pero no por mucho.