1. Problema:

Con base en los datos de ofertas de vivienda descargadas del portal Fincaraiz para apartamento de estrato 4 con área construida menor a 200 m2 (vivienda4.RDS) la inmobiliaria A&C requiere el apoyo de un cientINdatos en la construcción de un modelo que lo oriente sobre los precios de inmuebles. Con este propósito el equipo de asesores a diseñado los siguientes pasos para obtener un modelo y así poder a futuro determinar los precios de los inmuebles a negociar

Punto 1: Análisis exploratorio

Realice un análisis exploratorio de las variables precio de vivienda (millones de pesos COP) y área de la vivienda (metros cuadrados) - incluir gráficos e indicadores apropiados interpretados.

df1<-data.frame(vivienda4)
df<- filter (df1, estrato == 4, tipo == "Apartamento")
precio <- df$preciom
area <- df$areaconst

Variable Precio en millones:

Tabla de frecuencias:

breaks=c(0,100,200,300,400,500,600,700) 
Precio_vivienda=cut(precio, breaks)
summarytools::freq(Precio_vivienda)
## Frequencies  
## Precio_vivienda  
## Type: Factor  
## 
##                   Freq   % Valid   % Valid Cum.   % Total   % Total Cum.
## --------------- ------ --------- -------------- --------- --------------
##         (0,100]      3     0.220          0.220     0.220          0.220
##       (100,200]    766    56.200         56.420    56.200         56.420
##       (200,300]    497    36.464         92.883    36.464         92.883
##       (300,400]     82     6.016         98.899     6.016         98.899
##       (400,500]     11     0.807         99.707     0.807         99.707
##       (500,600]      3     0.220         99.927     0.220         99.927
##       (600,700]      1     0.073        100.000     0.073        100.000
##            <NA>      0                              0.000        100.000
##           Total   1363   100.000        100.000   100.000        100.000

Resumen de indicadores:

descr(precio)
## Descriptive Statistics  
## precio  
## N: 1363  
## 
##                      precio
## ----------------- ---------
##              Mean    202.44
##           Std.Dev     65.29
##               Min     78.00
##                Q1    153.00
##            Median    185.00
##                Q3    240.00
##               Max    645.00
##               MAD     59.30
##               IQR     86.50
##                CV      0.32
##          Skewness      1.44
##       SE.Skewness      0.07
##          Kurtosis      3.83
##           N.Valid   1363.00
##         Pct.Valid    100.00

Gráfico:

hist(precio,
     main="Precio de vivienda",
     xlab="Precio en millones",
     ylab="Cantidad de viviendas",
     border="#5F9EA0",
     col="#8EE5EE",
     density=1000)

boxplot(precio,
        main="Precio de vivienda",
        xlab="Cantidad de viviendas",
        ylab="Precio en millones",
        border="#5F9EA0",
        col="#8EE5EE",
        density=1000)

Resumen: Se puede evidenciar que casi un 56% de los apartamentos de estrato 4 tienen un precio entre 100 y 200 millones de pesos, sin embargo el promedio del precio oscila en 202 millones. Por otro lado se evidencia que el valor minimo de los apartamentos de estrato 4 es de 78 millones mientras que el maximo es de 645 millones de pesos.

Variable Área en metros cuadrados:

Tabla de frecuencia

breaks1=c(30,40,50,60,70,80,90,100,110,120,130,140,150,160,170,180,190,200) 
area_vivienda=cut(area, breaks1)
summarytools::freq(area_vivienda)
## Frequencies  
## area_vivienda  
## Type: Factor  
## 
##                   Freq   % Valid   % Valid Cum.   % Total   % Total Cum.
## --------------- ------ --------- -------------- --------- --------------
##         (30,40]      1     0.073          0.073     0.073          0.073
##         (40,50]     47     3.448          3.522     3.448          3.522
##         (50,60]    378    27.733         31.255    27.733         31.255
##         (60,70]    259    19.002         50.257    19.002         50.257
##         (70,80]    292    21.423         71.680    21.423         71.680
##         (80,90]    160    11.739         83.419    11.739         83.419
##        (90,100]     91     6.676         90.095     6.676         90.095
##       (100,110]     45     3.302         93.397     3.302         93.397
##       (110,120]     25     1.834         95.231     1.834         95.231
##       (120,130]     25     1.834         97.065     1.834         97.065
##       (130,140]     10     0.734         97.799     0.734         97.799
##       (140,150]      8     0.587         98.386     0.587         98.386
##       (150,160]      9     0.660         99.046     0.660         99.046
##       (160,170]      1     0.073         99.120     0.073         99.120
##       (170,180]      3     0.220         99.340     0.220         99.340
##       (180,190]      2     0.147         99.486     0.147         99.486
##       (190,200]      7     0.514        100.000     0.514        100.000
##            <NA>      0                              0.000        100.000
##           Total   1363   100.000        100.000   100.000        100.000

Resumen de indicadores

descr(area)
## Descriptive Statistics  
## area  
## N: 1363  
## 
##                        area
## ----------------- ---------
##              Mean     75.48
##           Std.Dev     22.56
##               Min     40.00
##                Q1     60.00
##            Median     70.00
##                Q3     84.00
##               Max    200.00
##               MAD     14.83
##               IQR     24.00
##                CV      0.30
##          Skewness      2.08
##       SE.Skewness      0.07
##          Kurtosis      6.32
##           N.Valid   1363.00
##         Pct.Valid    100.00

Gráfico:

hist(area,
     main="Área de vivienda",
     xlab="Area en metros cuadrados",
     ylab="Cantidad de viviendas",
     border="#CDB79E",
     col="#FFE4C4",
     density=1000)

boxplot(area,
        main="Área de vivienda",
        xlab="Cantidad de viviendas",
        ylab="Area en metros cuadrados",
        border="#CDB79E",
        col="#FFE4C4",
        density=1000)

Resumen: Se puede evidenciar aproximadamente un 28% de los apartamentos de estrato 4 tienen un área entre 50 y 60 mts cuadrados, sin embargo, el promedio de area es de 75 mts cuadrados, por otro lado, el área minima corresponde a 40 mts cuadrados, mientras que el área máxima es de 200 mts cuadrados.

Punto 2: Análisis exploratorio bivariado

Realice un análisis exploratorio bivariado de datos, enfocado en la relación entre la variable respuesta (precio) en función de la variable predictora (area construida) - incluir gráficos e indicadores apropiados interpretados.

Para ello calculamos la covarianza y correlación:

#covarianza
cov(precio,area)
## [1] 1102.199
#correlación
cor(precio,area)
## [1] 0.7481389

Elaboramos un diagrama de dispersión:

plot(precio, area)
abline(lm(area ~ precio), col = "red")

Evaluamos que tipo de correlación usar a través de Shapiro Wilk Test:

shapiro.test (area)
## 
##  Shapiro-Wilk normality test
## 
## data:  area
## W = 0.82347, p-value < 2.2e-16
shapiro.test (precio)
## 
##  Shapiro-Wilk normality test
## 
## data:  precio
## W = 0.89881, p-value < 2.2e-16

Por medio de la correlación de Spearman se establecerá si existe relación entre el precio y el área de las apartamentos de estrato 4:

cor.test(precio,area, method = "spearman")
## Warning in cor.test.default(precio, area, method = "spearman"): Cannot compute
## exact p-value with ties
## 
##  Spearman's rank correlation rho
## 
## data:  precio and area
## S = 93987139, p-value < 2.2e-16
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##       rho 
## 0.7772938

Resumen: Se puede evidenciar que la correlación que equivale a 0.74 es una correlación positiva considerable.

En el test de Shapiro Wilk se puede evidenciar que los valores de p son menores a 0.05 lo que permite rechazar la hipótesis nula de que los datos provienen de una distribución normal, por lo cual se realiza el test de correlación de Spearman.

En el test de Spearman, se puede observar que el coeficiente de correlación es 0.77, es decir, esta proximo a 1, de lo que podemos deducir que existe una correlación fuerte y positiva entre las variables de precio y área de los apartamentos de estrato 4.

Punto 3: Modelo de regresión lineal simple

Estime el modelo de regresión lineal simple entre precio=f(area)+ε. Interprete los coeficientes del modelo β0, β1 en caso de ser correcto.

estimacion_mco <- lm(precio~area)
summary(estimacion_mco)
## 
## Call:
## lm(formula = precio ~ area)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -225.404  -23.902   -4.754   25.763  209.021 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 39.04679    4.09977   9.524   <2e-16 ***
## area         2.16473    0.05204  41.595   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 43.34 on 1361 degrees of freedom
## Multiple R-squared:  0.5597, Adjusted R-squared:  0.5594 
## F-statistic:  1730 on 1 and 1361 DF,  p-value: < 2.2e-16

El Valor de P que corresponde a 2.2e-16 es prácticamente 0, por lo que se puede considerar que se ha obtenido una buena regresión.

estimacion_mv <- lm(precio~area)$coefficients
print(estimacion_mv)
## (Intercept)        area 
##   39.046787    2.164733

Los coeficientes obtenidos son los siguientes: β0 = 39.046 β1 = 2.164

Se puede inferir que existe una relación positiva entre las dos variables, ya que el β1 es mayor que 0.

Esto indica que el coeficiente para el area es de 2.164 metros cuadrados. Es decir que por cada metro cuadrado, se puede esperar que el precio aumente un promedio de 2.164.

Según los coeficientes obtenidos en esta función, la fórmula de regresión lineal quedaria representada de la siguiente forma:

precio = 39.046 + 2.164 * area

Punto 4: Intervalo de confianza

Construir un intervalo de confianza (95%) para el coeficiente β1, interpretar y concluir si el coeficiente es igual a cero o no. Compare este resultado con una prueba de hipótesis t.

B0 = 39.04679
B1 = 2.16473
intervalo <- confint(estimacion_mco, B1, level = 0.95)
print (intervalo)
##        2.5 %   97.5 %
## area 2.06264 2.266826

Ya que el intervalo de confianza excluye al 0, se puede deducir que existe una relación significativa entre las variables precio y área en los apartamentos de estrato 4. Por otro lado, se puede concluir que por cada metro cuadrado del área de la vivienda, el precio total estimado aumenta entre un 2.062 y 2.266 con una confianza del 95 %.

Punto 5: R2

Calcule e interprete el indicador de bondad R2

summary(estimacion_mco)
## 
## Call:
## lm(formula = precio ~ area)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -225.404  -23.902   -4.754   25.763  209.021 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 39.04679    4.09977   9.524   <2e-16 ***
## area         2.16473    0.05204  41.595   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 43.34 on 1361 degrees of freedom
## Multiple R-squared:  0.5597, Adjusted R-squared:  0.5594 
## F-statistic:  1730 on 1 and 1361 DF,  p-value: < 2.2e-16

El R cuadrado (Multiple R-squared) mide el nivel de ajuste del modelo, el cual nos indica que existe un ajuste de aproximadamente del 56%. En otras palabras se puede determinar que el 56% de la variable precio es predicha por la variable área. En la gráfica relacionada en el punto 2, se puede observar este comportamiento, ya que aproximadamente la mitad de los datos se encuentran cerca de la línea de regresión ajustada.

Punto 6: Precio promedio estimado

¿Cuál sería el precio promedio estimado para un apartamento de 110 metros cuadrados? Considera entonces con este resultado que un apartamento en la misma zona con 110 metros cuadrados en un precio de 200 millones sería una atractiva esta oferta? ¿Qué consideraciones adicionales se deben tener?.

predict(estimacion_mco, data.frame(area=110), interval = "confidence", level = 0.95)
##        fit      lwr      upr
## 1 277.1674 272.9573 281.3775

Se puede inferir que el valor promedio estimado para un apartamento de 110 metros cuadrados es de 277.167 millones de pesos, el valor minimo es de 272.957 millones de pesos y el valor máximo es de 281.377 millones de pesos con una confianza del 95%.

Por lo anterior se puede confirmar que un valor de un apartamento de 110 metros cuadrados de 200 millones seria una oferta bastante atractiva para cualquier comprador, ya que existiria una diferencia de 77 millones con respecto al precio promedio que arroja el modelo.

Por lo anterior, se considera necesario probar los supuestos del modelo.

Punto 7: Validación de los supuestos del modelo

Realice la validación de los supuestos del modelo por medio de gráficos apropiados, interpretarlos y sugerir posibles soluciones si se violan algunos de ellos. Utilice las pruebas de hipótesis para la validación de supuestos y compare los resultados con lo observado en los gráficos asociados.

plot(estimacion_mco)

Interpretación de los gráficos:

  • Residual vs Fitted: Se puede observar que los residuos se encuentran distribuidos aleatoreamente y no tienen una varianza cosntante, adicional se encuentran unos valores atipicos con residuos mayores a 200.

  • Q-Q Residuals: Se puede evidenciar que en los extremos de la línea de puntos se encuentran alejados de la la línea de regresión, es decir, estos puntos se encuentran más lejos de la media, por lo cual se puede decir que no presenta un comportamiento normal.

  • Scale-Location: En este caso se observa que no se asemeja a una linea recta horizontal centrada en cero, es decir no hay linealidad, adicional permite evidenciar la heterocedasticidad de los puntos.

  • Residulas vs Leverage: En este gráfico se pueden observar los valores atípicos del modelo.

Normalidad:

shapiro.test(estimacion_mco$residuals)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion_mco$residuals
## W = 0.96486, p-value < 2.2e-16

Se utiliza el test de Shapiro, para validar la normalidad de los datos, el resultado arrojado , siendo la hipotesis nula que la población está distribuida normalmente, se puede evidenciar que el p-valor es menor al nivel de significancia 0.05, entonces la hipotesis nula es rechazada, lo que permite desmostrar que los datos no vienen de una distribución normal.

Homoscedasticidad:

lmtest::bptest(estimacion_mco)
## 
##  studentized Breusch-Pagan test
## 
## data:  estimacion_mco
## BP = 292.99, df = 1, p-value < 2.2e-16

Se utiliza el test de Breush-Pagan para el supuesto de homocedasticidad, en dónde la hipotesis nula corresponde a que la homocedasticidad esta presente, es decir, que los residuos se distribuyen con la misma varianza, en este caso, el valor de p es menor al nivel de significancia (0.05) por lo cual se rechaza la hipotesis nula y concluimos que la heterocedasticidad, lo que significa qu los residuos no se distribuyen con la misma varianza, está presente en el modelo de regresión.

No autocorrelación:

lmtest::dwtest(estimacion_mco)
## 
##  Durbin-Watson test
## 
## data:  estimacion_mco
## DW = 1.443, p-value < 2.2e-16
## alternative hypothesis: true autocorrelation is greater than 0

El test de Durbin-Watson se utiliza para el supuesto de “no autocorrelación”, aquí la hipótesis nula hace referencia a que no existe correlación entre los residuos, y la hipótesis alternativa nos indica que los residuos están autocorrelacionados. En este caso se puede observar que el estadístico de prueba es 1.443 y que el p valor es menor al nivel de significancia (0.05) lo que permite rechazar la hiótesis nula y concluir que los residuos en este modelo de regresión están autocorrelacionados.

Punto 8: Transformación

De ser necesario realice una transformación apropiada para mejorar el ajuste y supuestos del modelo.

Transformación de variables:

modelo1=lm(precio ~ area)           # Lin - Lin
modelo2=lm(precio ~ log(area))     # Lin - Log
modelo3=lm(log(precio) ~ area)      # Log - Lin
modelo4=lm(log(precio) ~ log(area)) # Log - Log
stargazer(modelo1, modelo2, modelo3, modelo4, type="text", df=FALSE)
## 
## =======================================================================
##                                     Dependent variable:                
##                     ---------------------------------------------------
##                              precio                  log(precio)       
##                         (1)          (2)          (3)          (4)     
## -----------------------------------------------------------------------
## area                  2.165***                  0.009***               
##                       (0.052)                   (0.0002)               
##                                                                        
## log(area)                         195.419***                 0.882***  
##                                    (4.445)                   (0.020)   
##                                                                        
## Constant             39.047***   -635.532***    4.551***     1.484***  
##                       (4.100)      (19.092)     (0.019)      (0.087)   
##                                                                        
## -----------------------------------------------------------------------
## Observations           1,363        1,363        1,363        1,363    
## R2                     0.560        0.587        0.520        0.582    
## Adjusted R2            0.559        0.587        0.519        0.582    
## Residual Std. Error    43.339       41.982       0.205        0.191    
## F Statistic         1,730.157*** 1,933.199*** 1,473.424*** 1,894.288***
## =======================================================================
## Note:                                       *p<0.1; **p<0.05; ***p<0.01

Transformación Box-Cox:

Se utilizará la transformación Box-Cox para ajustar el modelo, esta transformación permite encontrar el valor de λ óptimo para la función:

df2<-data.frame(df)
modelo1 <- lm(precio~area)
summary(modelo1)
## 
## Call:
## lm(formula = precio ~ area)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -225.404  -23.902   -4.754   25.763  209.021 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 39.04679    4.09977   9.524   <2e-16 ***
## area         2.16473    0.05204  41.595   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 43.34 on 1361 degrees of freedom
## Multiple R-squared:  0.5597, Adjusted R-squared:  0.5594 
## F-statistic:  1730 on 1 and 1361 DF,  p-value: < 2.2e-16
par(mfrow = c(1,2))
boxcox(lm(df2$preciom ~ df2$areaconst, df2), lambda = -3:3)
#Se repite el proceso pero esta vez entrechando el rango de valores de lambda 
bc<-boxcox(lm(df2$preciom ~ df2$areaconst), lambda = -1:1)

(lambda <- bc$x[which.max(bc$y)])
## [1] -0.1313131

El resultado es λ=-0.1313131

De acuerdo con el resultado expresado, se puede determinar que la mejor solución es aplicar una trasnformación logaritimica

precio1 <- ((df2$preciom^lambda)-1)/lambda
modelon1 <- lm(precio1~area, data =df2)
summary(modelon1)
## 
## Call:
## lm(formula = precio1 ~ area, data = df2)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.48740 -0.06527 -0.00535  0.07957  0.32740 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 3.4459708  0.0097192  354.55   <2e-16 ***
## area        0.0046628  0.0001234   37.79   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.1027 on 1361 degrees of freedom
## Multiple R-squared:  0.5121, Adjusted R-squared:  0.5117 
## F-statistic:  1428 on 1 and 1361 DF,  p-value: < 2.2e-16

Los coeficientes obtenidos son los siguientes: β0 = 3.44 β1 = 0.004 Se puede inferir que existe una relación positiva entre las dos variables, ya que el β1 es mayor que 0. El R cuadrado (Multiple R-squared) nos indica que existe un ajuste de aproximadamente del 51%.

Punto 9: Comparación:

De ser necesario compare el ajuste y supuestos del modelo inicial y el transformado.

plot(modelon1)

Interpretación de gráficos:

Residual vs Fitted: Al igual que el modelo de regresión normal, en este modelo ajustado se puede observar que los residuos se encuentran distribuidos aleatoreamente y no tienen una varianza constante, sin embargo, existe una relación lineal decreciente, que no se observó tan marcada en el modelo inicial.

Q-Q Residuals: Se puede evidenciar que en los extremos de la línea de puntos se encuentran alejados de la la línea de regresión, es decir, estos puntos se encuentran más lejos de la media, por lo cual se puede decir que no presenta un comportamiento normal, sin embargo, en este modelo ajustado, se evidencia una mejora en la distribución de los puntos ya que tienden a estar más cerca de la línea de regresión que el modelo anterior.

Scale-Location: Al igual que en el modelo anterior, se puede evidenciar que no se asemeja a una linea recta horizontal centrada en cero, es decir hay heterocedasticidad.

Residulas vs Leverage: Se puede evidenciar que a pesar de que es un modelo ajustado, también existen los valores átipicos lo que afecta a los estimadores del modelo.

Normalidad:

shapiro.test(modelon1$residuals)
## 
##  Shapiro-Wilk normality test
## 
## data:  modelon1$residuals
## W = 0.98979, p-value = 3.766e-08

Se utiliza el test de Shapiro, para validar la normalidad de los datos, el resultado arrojado , siendo la hipotesis nula que la población está distribuida normalmente, se puede evidenciar que al igual que en el modelo no ajustado, el p-valor es menor al nivel de significancia 0.05, entonces la hipotesis nula es rechazada, lo que permite desmostrar que los datos no vienen de una distribución normal.

Homoscedasticidad:

lmtest::bptest(modelon1)
## 
##  studentized Breusch-Pagan test
## 
## data:  modelon1
## BP = 130.48, df = 1, p-value < 2.2e-16

Se utiliza el test de Breush-Pagan para el supuesto de homocedasticidad, en dónde la hipotesis nula corresponde a que la homocedasticidad esta presente, es decir, que los residuos se distribuyen con la misma varianza, en este caso, al igual que en el modelo inciial, el valor de p es menor al nivel de significancia (0.05) por lo cual se rechaza la hipotesis nula y concluimos que la heterocedasticidad también está presente en el modelo ajustado.

No autocorrelación:

lmtest::dwtest(modelon1)
## 
##  Durbin-Watson test
## 
## data:  modelon1
## DW = 1.3101, p-value < 2.2e-16
## alternative hypothesis: true autocorrelation is greater than 0

En este caso se puede observar que el estadístico de prueba cambia ya que es 1.3101, sin embargo, al igual que modelo anterior, el p valor es menor al nivel de significancia (0.05) lo que permite rechazar la hiótesis nula y concluir que los residuos en este modelo ajustado también están autocorrelacionados.

Punto 10: Estimación modelos:

Estime varios modelos y compare los resultados obtenidos. En el mejor de los modelos, ¿se cumplen los supuestos sobre los errores?

Modelo 1

plot(modelo1)

shapiro.test(modelo1$residuals)
## 
##  Shapiro-Wilk normality test
## 
## data:  modelo1$residuals
## W = 0.96486, p-value < 2.2e-16
lmtest::bptest(modelo1)
## 
##  studentized Breusch-Pagan test
## 
## data:  modelo1
## BP = 292.99, df = 1, p-value < 2.2e-16
lmtest::dwtest(modelo1)
## 
##  Durbin-Watson test
## 
## data:  modelo1
## DW = 1.443, p-value < 2.2e-16
## alternative hypothesis: true autocorrelation is greater than 0

Se puede evidenciar que en este modelo

Modelo 2

plot(modelo2)

shapiro.test(modelo2$residuals)
## 
##  Shapiro-Wilk normality test
## 
## data:  modelo2$residuals
## W = 0.95826, p-value < 2.2e-16
lmtest::bptest(modelo2)
## 
##  studentized Breusch-Pagan test
## 
## data:  modelo2
## BP = 214.66, df = 1, p-value < 2.2e-16
lmtest::dwtest(modelo2)
## 
##  Durbin-Watson test
## 
## data:  modelo2
## DW = 1.4775, p-value < 2.2e-16
## alternative hypothesis: true autocorrelation is greater than 0

Modelo 3

plot(modelo3)

shapiro.test(modelo3$residuals)
## 
##  Shapiro-Wilk normality test
## 
## data:  modelo3$residuals
## W = 0.99051, p-value = 1.035e-07
lmtest::bptest(modelo3)
## 
##  studentized Breusch-Pagan test
## 
## data:  modelo3
## BP = 150.38, df = 1, p-value < 2.2e-16
lmtest::dwtest(modelo3)
## 
##  Durbin-Watson test
## 
## data:  modelo3
## DW = 1.3187, p-value < 2.2e-16
## alternative hypothesis: true autocorrelation is greater than 0

Modelo 4

plot(modelo4)

shapiro.test(modelo4$residuals)
## 
##  Shapiro-Wilk normality test
## 
## data:  modelo4$residuals
## W = 0.98958, p-value = 2.857e-08
lmtest::bptest(modelo4)
## 
##  studentized Breusch-Pagan test
## 
## data:  modelo4
## BP = 92.877, df = 1, p-value < 2.2e-16
lmtest::dwtest(modelo4)
## 
##  Durbin-Watson test
## 
## data:  modelo4
## DW = 1.3214, p-value < 2.2e-16
## alternative hypothesis: true autocorrelation is greater than 0

Resultados:

Se puede observar un comportamiento diferente en el grafico Residual vs Fitted del modelo 2 y 4, ya que a diferencia de los demás modelos, los residuos se encuentran aleatoreamente y tienen una varianza constante.

Con respecto al gráfico Q-Q Residuals, los modelos que mejor se comportan son los número 3 y 4, ya que se evidencia una mejora en la distribución de los puntos puesto que tienden a estar cerca de la línea de regresión.

En el modelo 4, a diferencia de los demás, se puede evidenciar, según la gráfica Scale-Location que los puntos tienden a tener un comportamiento de homocedasticidad, es decir, que los residuos se distribuyen con la misma varianza.

Finalmente en el gráfico Residulas vs Leverage, los cuatro modelos presentan un comportamiento similar, ya que en todos existen los valores átipicos lo que afecta a los estimadores del modelo.

De acuerdo con lo expuesto anteriormente, se puede inferir, que el mejor de los modelos es el número 4,sin embargo, sus resultados no varian en mayor proporción con respecto a los demás modelos.

Punto 11: Informe:

Con los resultados obtenidos construya un informe para los directivos de la inmobiliaria, indicando el modelo apropiado y sus principales características. A este informe se deben añadir los anexos como evidencia de la realización de los pasos anteriores.

Informe directivo inmobiliaria A&C:

De acuerdo con el análisis realizado y la evaluación de modelos predictivos que permitian determinar los precios de los inmuebles a negociar, con los datos de ofertas de vivienda descargadas del portal Fincaraiz para apartamento de estrato 4 con área construida menor a 200 m2 se pudo llegar a la siguiente conclusión:

Al realizar los análisis con los datos ya registrados se observa que casi un 56% de los apartamentos de estrato 4 tienen un precio entre 100 y 200 millones de pesos, sin embargo el promedio del precio oscila en 202 millones, además, se puede evidenciar que aproximadamente un 28% de los apartamentos de estrato 4 tienen un área entre 50 y 60 mts cuadrados.

Por otro lado, se pudo confirmar que el área y precio de los apartamentos presentan una correlación positiva considerable.

Con los datos que se tienen actualmente se pudo determinar que el coeficiente para el area es de 2.164 metros cuadrados. Es decir que por cada metro cuadrado, se puede esperar que el precio aumente un promedio de 2.164. Con este valor se pudo realizar un predicción para un apartamento con un área de 110 metros cuadrados el cual fue en promedio de 277.167 millones de pesos.

Por lo anterior, se vio la necesidad de realizar un ajuste a los datos para poder presentar un mejor resultado con respecto a la predicción, ya que un apartamento de esta área está actualmente en un precio aproximado de 200 millones de pesos.

Se realizó la transformación correspondiente para mejorar los resultados y los supuestos a través de cinco ajustes, de los cuales se obtuvieron los siguientes resultados:

stargazer(modelo1, modelo2, modelo3, modelo4, modelon1, type="text", df=FALSE)
## 
## ====================================================================================
##                                           Dependent variable:                       
##                     ----------------------------------------------------------------
##                              precio                  log(precio)          precio1   
##                         (1)          (2)          (3)          (4)          (5)     
## ------------------------------------------------------------------------------------
## area                  2.165***                  0.009***                  0.005***  
##                       (0.052)                   (0.0002)                  (0.0001)  
##                                                                                     
## log(area)                         195.419***                 0.882***               
##                                    (4.445)                   (0.020)                
##                                                                                     
## Constant             39.047***   -635.532***    4.551***     1.484***     3.446***  
##                       (4.100)      (19.092)     (0.019)      (0.087)      (0.010)   
##                                                                                     
## ------------------------------------------------------------------------------------
## Observations           1,363        1,363        1,363        1,363        1,363    
## R2                     0.560        0.587        0.520        0.582        0.512    
## Adjusted R2            0.559        0.587        0.519        0.582        0.512    
## Residual Std. Error    43.339       41.982       0.205        0.191        0.103    
## F Statistic         1,730.157*** 1,933.199*** 1,473.424*** 1,894.288*** 1,428.335***
## ====================================================================================
## Note:                                                    *p<0.1; **p<0.05; ***p<0.01

En estos resultados se puede observar que el R2 del modelo 4, en el cual se utiliza un logaritmo para las dos variables (precio y área), es mayor, lo que significa que el 58% de la variable precio es predicha por la variable área. Sin embargo, el modelo con el error estandar de los residuos más cercano a cero es el último modelo, el cual tomo el resultado de la transformación de Cox-Box.

También se pudo realizar la aplicación de diferentes test, como lo fue el de Shapiro Wilk, el de Breuchs-Pregan y el de Durbin-Watson, los cuales permitieron evaluar los supuestos de normalidad, linealidad, homocedasticidad y no autocorrelación (su detalle y gráficos se pueden ver expuestos en los puntos anteriores) sin embargo, no se evidenciaron diferencias significativas en los resultados de cada uno de los modelos.

Los resultados se pueden resumir de la siguiente manera: En el modelo 2 y 4,los residuos se encuentran aleatoreamente y tienen una varianza constante. Los modelos que mejor se comportan son los número 3, 4 Y 5, ya que se evidencia una mejora en la distribución de los puntos puesto que tienden a estar cerca de la línea de regresión. En el modelo 4, a diferencia de los demás, se puede evidenciar, según la gráfica Scale-Location que los puntos tienden a tener un comportamiento de homocedasticidad, es decir, que los residuos se distribuyen con la misma varianza.

De acuerdo con lo expuesto anteriormente, se puede inferir, que el mejor de los modelos es el número 4,sin embargo, sus resultados no varian en mayor proporción con respecto a los demás modelos.

Además se pudo evidenciar, que existen datos atipicos, lo que genera inconsistencias en los estimadores de todos los modelos, por lo cual se recomienda evaluar dichos valores para una proxima predicción o ajuste a los datos.

Por otro lado, la cantidad de datos y la información de las variables fue muy limitada, sin embargo, se ve la necesidad de tener otro tipo de datos que permitan ampliar el panorama, y realizar la busqueda de otro tipo de modelos que puedan obtener un mejor resultado.