Con base en los datos de ofertas de vivienda descargadas del portal Fincaraiz para apartamento de estrato 4 con área construida menor a 200 m2 (vivienda4.RDS) la inmobiliaria A&C requiere el apoyo de un cientINdatos en la construcción de un modelo que lo oriente sobre los precios de inmuebles. Con este propósito el equipo de asesores a diseñado los siguientes pasos para obtener un modelo y así poder a futuro determinar los precios de los inmuebles a negociar
Realice un análisis exploratorio de las variables precio de vivienda (millones de pesos COP) y área de la vivienda (metros cuadrados) - incluir gráficos e indicadores apropiados interpretados.
df1<-data.frame(vivienda4)
df<- filter (df1, estrato == 4, tipo == "Apartamento")
precio <- df$preciom
area <- df$areaconst
Variable Precio en millones:
Tabla de frecuencias:
breaks=c(0,100,200,300,400,500,600,700)
Precio_vivienda=cut(precio, breaks)
summarytools::freq(Precio_vivienda)
## Frequencies
## Precio_vivienda
## Type: Factor
##
## Freq % Valid % Valid Cum. % Total % Total Cum.
## --------------- ------ --------- -------------- --------- --------------
## (0,100] 3 0.220 0.220 0.220 0.220
## (100,200] 766 56.200 56.420 56.200 56.420
## (200,300] 497 36.464 92.883 36.464 92.883
## (300,400] 82 6.016 98.899 6.016 98.899
## (400,500] 11 0.807 99.707 0.807 99.707
## (500,600] 3 0.220 99.927 0.220 99.927
## (600,700] 1 0.073 100.000 0.073 100.000
## <NA> 0 0.000 100.000
## Total 1363 100.000 100.000 100.000 100.000
Resumen de indicadores:
descr(precio)
## Descriptive Statistics
## precio
## N: 1363
##
## precio
## ----------------- ---------
## Mean 202.44
## Std.Dev 65.29
## Min 78.00
## Q1 153.00
## Median 185.00
## Q3 240.00
## Max 645.00
## MAD 59.30
## IQR 86.50
## CV 0.32
## Skewness 1.44
## SE.Skewness 0.07
## Kurtosis 3.83
## N.Valid 1363.00
## Pct.Valid 100.00
Gráfico:
hist(precio,
main="Precio de vivienda",
xlab="Precio en millones",
ylab="Cantidad de viviendas",
border="#5F9EA0",
col="#8EE5EE",
density=1000)
boxplot(precio,
main="Precio de vivienda",
xlab="Cantidad de viviendas",
ylab="Precio en millones",
border="#5F9EA0",
col="#8EE5EE",
density=1000)
Resumen: Se puede evidenciar que casi un 56% de los apartamentos de estrato 4 tienen un precio entre 100 y 200 millones de pesos, sin embargo el promedio del precio oscila en 202 millones. Por otro lado se evidencia que el valor minimo de los apartamentos de estrato 4 es de 78 millones mientras que el maximo es de 645 millones de pesos.
Variable Área en metros cuadrados:
Tabla de frecuencia
breaks1=c(30,40,50,60,70,80,90,100,110,120,130,140,150,160,170,180,190,200)
area_vivienda=cut(area, breaks1)
summarytools::freq(area_vivienda)
## Frequencies
## area_vivienda
## Type: Factor
##
## Freq % Valid % Valid Cum. % Total % Total Cum.
## --------------- ------ --------- -------------- --------- --------------
## (30,40] 1 0.073 0.073 0.073 0.073
## (40,50] 47 3.448 3.522 3.448 3.522
## (50,60] 378 27.733 31.255 27.733 31.255
## (60,70] 259 19.002 50.257 19.002 50.257
## (70,80] 292 21.423 71.680 21.423 71.680
## (80,90] 160 11.739 83.419 11.739 83.419
## (90,100] 91 6.676 90.095 6.676 90.095
## (100,110] 45 3.302 93.397 3.302 93.397
## (110,120] 25 1.834 95.231 1.834 95.231
## (120,130] 25 1.834 97.065 1.834 97.065
## (130,140] 10 0.734 97.799 0.734 97.799
## (140,150] 8 0.587 98.386 0.587 98.386
## (150,160] 9 0.660 99.046 0.660 99.046
## (160,170] 1 0.073 99.120 0.073 99.120
## (170,180] 3 0.220 99.340 0.220 99.340
## (180,190] 2 0.147 99.486 0.147 99.486
## (190,200] 7 0.514 100.000 0.514 100.000
## <NA> 0 0.000 100.000
## Total 1363 100.000 100.000 100.000 100.000
Resumen de indicadores
descr(area)
## Descriptive Statistics
## area
## N: 1363
##
## area
## ----------------- ---------
## Mean 75.48
## Std.Dev 22.56
## Min 40.00
## Q1 60.00
## Median 70.00
## Q3 84.00
## Max 200.00
## MAD 14.83
## IQR 24.00
## CV 0.30
## Skewness 2.08
## SE.Skewness 0.07
## Kurtosis 6.32
## N.Valid 1363.00
## Pct.Valid 100.00
Gráfico:
hist(area,
main="Área de vivienda",
xlab="Area en metros cuadrados",
ylab="Cantidad de viviendas",
border="#CDB79E",
col="#FFE4C4",
density=1000)
boxplot(area,
main="Área de vivienda",
xlab="Cantidad de viviendas",
ylab="Area en metros cuadrados",
border="#CDB79E",
col="#FFE4C4",
density=1000)
Resumen: Se puede evidenciar aproximadamente un 28% de los apartamentos de estrato 4 tienen un área entre 50 y 60 mts cuadrados, sin embargo, el promedio de area es de 75 mts cuadrados, por otro lado, el área minima corresponde a 40 mts cuadrados, mientras que el área máxima es de 200 mts cuadrados.
Realice un análisis exploratorio bivariado de datos, enfocado en la relación entre la variable respuesta (precio) en función de la variable predictora (area construida) - incluir gráficos e indicadores apropiados interpretados.
Para ello calculamos la covarianza y correlación:
#covarianza
cov(precio,area)
## [1] 1102.199
#correlación
cor(precio,area)
## [1] 0.7481389
Elaboramos un diagrama de dispersión:
plot(precio, area)
abline(lm(area ~ precio), col = "red")
Evaluamos que tipo de correlación usar a través de Shapiro Wilk Test:
shapiro.test (area)
##
## Shapiro-Wilk normality test
##
## data: area
## W = 0.82347, p-value < 2.2e-16
shapiro.test (precio)
##
## Shapiro-Wilk normality test
##
## data: precio
## W = 0.89881, p-value < 2.2e-16
Por medio de la correlación de Spearman se establecerá si existe relación entre el precio y el área de las apartamentos de estrato 4:
cor.test(precio,area, method = "spearman")
## Warning in cor.test.default(precio, area, method = "spearman"): Cannot compute
## exact p-value with ties
##
## Spearman's rank correlation rho
##
## data: precio and area
## S = 93987139, p-value < 2.2e-16
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## 0.7772938
Resumen: Se puede evidenciar que la correlación que equivale a 0.74 es una correlación positiva considerable.
En el test de Shapiro Wilk se puede evidenciar que los valores de p son menores a 0.05 lo que permite rechazar la hipótesis nula de que los datos provienen de una distribución normal, por lo cual se realiza el test de correlación de Spearman.
En el test de Spearman, se puede observar que el coeficiente de correlación es 0.77, es decir, esta proximo a 1, de lo que podemos deducir que existe una correlación fuerte y positiva entre las variables de precio y área de los apartamentos de estrato 4.
Estime el modelo de regresión lineal simple entre precio=f(area)+ε. Interprete los coeficientes del modelo β0, β1 en caso de ser correcto.
estimacion_mco <- lm(precio~area)
summary(estimacion_mco)
##
## Call:
## lm(formula = precio ~ area)
##
## Residuals:
## Min 1Q Median 3Q Max
## -225.404 -23.902 -4.754 25.763 209.021
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 39.04679 4.09977 9.524 <2e-16 ***
## area 2.16473 0.05204 41.595 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 43.34 on 1361 degrees of freedom
## Multiple R-squared: 0.5597, Adjusted R-squared: 0.5594
## F-statistic: 1730 on 1 and 1361 DF, p-value: < 2.2e-16
El Valor de P que corresponde a 2.2e-16 es prácticamente 0, por lo que se puede considerar que se ha obtenido una buena regresión.
estimacion_mv <- lm(precio~area)$coefficients
print(estimacion_mv)
## (Intercept) area
## 39.046787 2.164733
Los coeficientes obtenidos son los siguientes: β0 = 39.046 β1 = 2.164
Se puede inferir que existe una relación positiva entre las dos variables, ya que el β1 es mayor que 0.
Esto indica que el coeficiente para el area es de 2.164 metros cuadrados. Es decir que por cada metro cuadrado, se puede esperar que el precio aumente un promedio de 2.164.
Según los coeficientes obtenidos en esta función, la fórmula de regresión lineal quedaria representada de la siguiente forma:
precio = 39.046 + 2.164 * area
Construir un intervalo de confianza (95%) para el coeficiente β1, interpretar y concluir si el coeficiente es igual a cero o no. Compare este resultado con una prueba de hipótesis t.
B0 = 39.04679
B1 = 2.16473
intervalo <- confint(estimacion_mco, B1, level = 0.95)
print (intervalo)
## 2.5 % 97.5 %
## area 2.06264 2.266826
Ya que el intervalo de confianza excluye al 0, se puede deducir que existe una relación significativa entre las variables precio y área en los apartamentos de estrato 4. Por otro lado, se puede concluir que por cada metro cuadrado del área de la vivienda, el precio total estimado aumenta entre un 2.062 y 2.266 con una confianza del 95 %.
Calcule e interprete el indicador de bondad R2
summary(estimacion_mco)
##
## Call:
## lm(formula = precio ~ area)
##
## Residuals:
## Min 1Q Median 3Q Max
## -225.404 -23.902 -4.754 25.763 209.021
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 39.04679 4.09977 9.524 <2e-16 ***
## area 2.16473 0.05204 41.595 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 43.34 on 1361 degrees of freedom
## Multiple R-squared: 0.5597, Adjusted R-squared: 0.5594
## F-statistic: 1730 on 1 and 1361 DF, p-value: < 2.2e-16
El R cuadrado (Multiple R-squared) mide el nivel de ajuste del modelo, el cual nos indica que existe un ajuste de aproximadamente del 56%. En otras palabras se puede determinar que el 56% de la variable precio es predicha por la variable área. En la gráfica relacionada en el punto 2, se puede observar este comportamiento, ya que aproximadamente la mitad de los datos se encuentran cerca de la línea de regresión ajustada.
¿Cuál sería el precio promedio estimado para un apartamento de 110 metros cuadrados? Considera entonces con este resultado que un apartamento en la misma zona con 110 metros cuadrados en un precio de 200 millones sería una atractiva esta oferta? ¿Qué consideraciones adicionales se deben tener?.
predict(estimacion_mco, data.frame(area=110), interval = "confidence", level = 0.95)
## fit lwr upr
## 1 277.1674 272.9573 281.3775
Se puede inferir que el valor promedio estimado para un apartamento de 110 metros cuadrados es de 277.167 millones de pesos, el valor minimo es de 272.957 millones de pesos y el valor máximo es de 281.377 millones de pesos con una confianza del 95%.
Por lo anterior se puede confirmar que un valor de un apartamento de 110 metros cuadrados de 200 millones seria una oferta bastante atractiva para cualquier comprador, ya que existiria una diferencia de 77 millones con respecto al precio promedio que arroja el modelo.
Por lo anterior, se considera necesario probar los supuestos del modelo.
Realice la validación de los supuestos del modelo por medio de gráficos apropiados, interpretarlos y sugerir posibles soluciones si se violan algunos de ellos. Utilice las pruebas de hipótesis para la validación de supuestos y compare los resultados con lo observado en los gráficos asociados.
plot(estimacion_mco)
Interpretación de los gráficos:
Residual vs Fitted: Se puede observar que los residuos se encuentran distribuidos aleatoreamente y no tienen una varianza cosntante, adicional se encuentran unos valores atipicos con residuos mayores a 200.
Q-Q Residuals: Se puede evidenciar que en los extremos de la línea de puntos se encuentran alejados de la la línea de regresión, es decir, estos puntos se encuentran más lejos de la media, por lo cual se puede decir que no presenta un comportamiento normal.
Scale-Location: En este caso se observa que no se asemeja a una linea recta horizontal centrada en cero, es decir no hay linealidad, adicional permite evidenciar la heterocedasticidad de los puntos.
Residulas vs Leverage: En este gráfico se pueden observar los valores atípicos del modelo.
Normalidad:
shapiro.test(estimacion_mco$residuals)
##
## Shapiro-Wilk normality test
##
## data: estimacion_mco$residuals
## W = 0.96486, p-value < 2.2e-16
Se utiliza el test de Shapiro, para validar la normalidad de los datos, el resultado arrojado , siendo la hipotesis nula que la población está distribuida normalmente, se puede evidenciar que el p-valor es menor al nivel de significancia 0.05, entonces la hipotesis nula es rechazada, lo que permite desmostrar que los datos no vienen de una distribución normal.
Homoscedasticidad:
lmtest::bptest(estimacion_mco)
##
## studentized Breusch-Pagan test
##
## data: estimacion_mco
## BP = 292.99, df = 1, p-value < 2.2e-16
Se utiliza el test de Breush-Pagan para el supuesto de homocedasticidad, en dónde la hipotesis nula corresponde a que la homocedasticidad esta presente, es decir, que los residuos se distribuyen con la misma varianza, en este caso, el valor de p es menor al nivel de significancia (0.05) por lo cual se rechaza la hipotesis nula y concluimos que la heterocedasticidad, lo que significa qu los residuos no se distribuyen con la misma varianza, está presente en el modelo de regresión.
No autocorrelación:
lmtest::dwtest(estimacion_mco)
##
## Durbin-Watson test
##
## data: estimacion_mco
## DW = 1.443, p-value < 2.2e-16
## alternative hypothesis: true autocorrelation is greater than 0
El test de Durbin-Watson se utiliza para el supuesto de “no autocorrelación”, aquí la hipótesis nula hace referencia a que no existe correlación entre los residuos, y la hipótesis alternativa nos indica que los residuos están autocorrelacionados. En este caso se puede observar que el estadístico de prueba es 1.443 y que el p valor es menor al nivel de significancia (0.05) lo que permite rechazar la hiótesis nula y concluir que los residuos en este modelo de regresión están autocorrelacionados.
De ser necesario realice una transformación apropiada para mejorar el ajuste y supuestos del modelo.
Transformación de variables:
modelo1=lm(precio ~ area) # Lin - Lin
modelo2=lm(precio ~ log(area)) # Lin - Log
modelo3=lm(log(precio) ~ area) # Log - Lin
modelo4=lm(log(precio) ~ log(area)) # Log - Log
stargazer(modelo1, modelo2, modelo3, modelo4, type="text", df=FALSE)
##
## =======================================================================
## Dependent variable:
## ---------------------------------------------------
## precio log(precio)
## (1) (2) (3) (4)
## -----------------------------------------------------------------------
## area 2.165*** 0.009***
## (0.052) (0.0002)
##
## log(area) 195.419*** 0.882***
## (4.445) (0.020)
##
## Constant 39.047*** -635.532*** 4.551*** 1.484***
## (4.100) (19.092) (0.019) (0.087)
##
## -----------------------------------------------------------------------
## Observations 1,363 1,363 1,363 1,363
## R2 0.560 0.587 0.520 0.582
## Adjusted R2 0.559 0.587 0.519 0.582
## Residual Std. Error 43.339 41.982 0.205 0.191
## F Statistic 1,730.157*** 1,933.199*** 1,473.424*** 1,894.288***
## =======================================================================
## Note: *p<0.1; **p<0.05; ***p<0.01
Transformación Box-Cox:
Se utilizará la transformación Box-Cox para ajustar el modelo, esta transformación permite encontrar el valor de λ óptimo para la función:
df2<-data.frame(df)
modelo1 <- lm(precio~area)
summary(modelo1)
##
## Call:
## lm(formula = precio ~ area)
##
## Residuals:
## Min 1Q Median 3Q Max
## -225.404 -23.902 -4.754 25.763 209.021
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 39.04679 4.09977 9.524 <2e-16 ***
## area 2.16473 0.05204 41.595 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 43.34 on 1361 degrees of freedom
## Multiple R-squared: 0.5597, Adjusted R-squared: 0.5594
## F-statistic: 1730 on 1 and 1361 DF, p-value: < 2.2e-16
par(mfrow = c(1,2))
boxcox(lm(df2$preciom ~ df2$areaconst, df2), lambda = -3:3)
#Se repite el proceso pero esta vez entrechando el rango de valores de lambda
bc<-boxcox(lm(df2$preciom ~ df2$areaconst), lambda = -1:1)
(lambda <- bc$x[which.max(bc$y)])
## [1] -0.1313131
El resultado es λ=-0.1313131
De acuerdo con el resultado expresado, se puede determinar que la mejor solución es aplicar una trasnformación logaritimica
precio1 <- ((df2$preciom^lambda)-1)/lambda
modelon1 <- lm(precio1~area, data =df2)
summary(modelon1)
##
## Call:
## lm(formula = precio1 ~ area, data = df2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.48740 -0.06527 -0.00535 0.07957 0.32740
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.4459708 0.0097192 354.55 <2e-16 ***
## area 0.0046628 0.0001234 37.79 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.1027 on 1361 degrees of freedom
## Multiple R-squared: 0.5121, Adjusted R-squared: 0.5117
## F-statistic: 1428 on 1 and 1361 DF, p-value: < 2.2e-16
Los coeficientes obtenidos son los siguientes: β0 = 3.44 β1 = 0.004 Se puede inferir que existe una relación positiva entre las dos variables, ya que el β1 es mayor que 0. El R cuadrado (Multiple R-squared) nos indica que existe un ajuste de aproximadamente del 51%.
De ser necesario compare el ajuste y supuestos del modelo inicial y el transformado.
plot(modelon1)
Interpretación de gráficos:
Residual vs Fitted: Al igual que el modelo de regresión normal, en este modelo ajustado se puede observar que los residuos se encuentran distribuidos aleatoreamente y no tienen una varianza constante, sin embargo, existe una relación lineal decreciente, que no se observó tan marcada en el modelo inicial.
Q-Q Residuals: Se puede evidenciar que en los extremos de la línea de puntos se encuentran alejados de la la línea de regresión, es decir, estos puntos se encuentran más lejos de la media, por lo cual se puede decir que no presenta un comportamiento normal, sin embargo, en este modelo ajustado, se evidencia una mejora en la distribución de los puntos ya que tienden a estar más cerca de la línea de regresión que el modelo anterior.
Scale-Location: Al igual que en el modelo anterior, se puede evidenciar que no se asemeja a una linea recta horizontal centrada en cero, es decir hay heterocedasticidad.
Residulas vs Leverage: Se puede evidenciar que a pesar de que es un modelo ajustado, también existen los valores átipicos lo que afecta a los estimadores del modelo.
Normalidad:
shapiro.test(modelon1$residuals)
##
## Shapiro-Wilk normality test
##
## data: modelon1$residuals
## W = 0.98979, p-value = 3.766e-08
Se utiliza el test de Shapiro, para validar la normalidad de los datos, el resultado arrojado , siendo la hipotesis nula que la población está distribuida normalmente, se puede evidenciar que al igual que en el modelo no ajustado, el p-valor es menor al nivel de significancia 0.05, entonces la hipotesis nula es rechazada, lo que permite desmostrar que los datos no vienen de una distribución normal.
Homoscedasticidad:
lmtest::bptest(modelon1)
##
## studentized Breusch-Pagan test
##
## data: modelon1
## BP = 130.48, df = 1, p-value < 2.2e-16
Se utiliza el test de Breush-Pagan para el supuesto de homocedasticidad, en dónde la hipotesis nula corresponde a que la homocedasticidad esta presente, es decir, que los residuos se distribuyen con la misma varianza, en este caso, al igual que en el modelo inciial, el valor de p es menor al nivel de significancia (0.05) por lo cual se rechaza la hipotesis nula y concluimos que la heterocedasticidad también está presente en el modelo ajustado.
No autocorrelación:
lmtest::dwtest(modelon1)
##
## Durbin-Watson test
##
## data: modelon1
## DW = 1.3101, p-value < 2.2e-16
## alternative hypothesis: true autocorrelation is greater than 0
En este caso se puede observar que el estadístico de prueba cambia ya que es 1.3101, sin embargo, al igual que modelo anterior, el p valor es menor al nivel de significancia (0.05) lo que permite rechazar la hiótesis nula y concluir que los residuos en este modelo ajustado también están autocorrelacionados.
Estime varios modelos y compare los resultados obtenidos. En el mejor de los modelos, ¿se cumplen los supuestos sobre los errores?
Modelo 1
plot(modelo1)
shapiro.test(modelo1$residuals)
##
## Shapiro-Wilk normality test
##
## data: modelo1$residuals
## W = 0.96486, p-value < 2.2e-16
lmtest::bptest(modelo1)
##
## studentized Breusch-Pagan test
##
## data: modelo1
## BP = 292.99, df = 1, p-value < 2.2e-16
lmtest::dwtest(modelo1)
##
## Durbin-Watson test
##
## data: modelo1
## DW = 1.443, p-value < 2.2e-16
## alternative hypothesis: true autocorrelation is greater than 0
Se puede evidenciar que en este modelo
Modelo 2
plot(modelo2)
shapiro.test(modelo2$residuals)
##
## Shapiro-Wilk normality test
##
## data: modelo2$residuals
## W = 0.95826, p-value < 2.2e-16
lmtest::bptest(modelo2)
##
## studentized Breusch-Pagan test
##
## data: modelo2
## BP = 214.66, df = 1, p-value < 2.2e-16
lmtest::dwtest(modelo2)
##
## Durbin-Watson test
##
## data: modelo2
## DW = 1.4775, p-value < 2.2e-16
## alternative hypothesis: true autocorrelation is greater than 0
Modelo 3
plot(modelo3)
shapiro.test(modelo3$residuals)
##
## Shapiro-Wilk normality test
##
## data: modelo3$residuals
## W = 0.99051, p-value = 1.035e-07
lmtest::bptest(modelo3)
##
## studentized Breusch-Pagan test
##
## data: modelo3
## BP = 150.38, df = 1, p-value < 2.2e-16
lmtest::dwtest(modelo3)
##
## Durbin-Watson test
##
## data: modelo3
## DW = 1.3187, p-value < 2.2e-16
## alternative hypothesis: true autocorrelation is greater than 0
Modelo 4
plot(modelo4)
shapiro.test(modelo4$residuals)
##
## Shapiro-Wilk normality test
##
## data: modelo4$residuals
## W = 0.98958, p-value = 2.857e-08
lmtest::bptest(modelo4)
##
## studentized Breusch-Pagan test
##
## data: modelo4
## BP = 92.877, df = 1, p-value < 2.2e-16
lmtest::dwtest(modelo4)
##
## Durbin-Watson test
##
## data: modelo4
## DW = 1.3214, p-value < 2.2e-16
## alternative hypothesis: true autocorrelation is greater than 0
Resultados:
Se puede observar un comportamiento diferente en el grafico Residual vs Fitted del modelo 2 y 4, ya que a diferencia de los demás modelos, los residuos se encuentran aleatoreamente y tienen una varianza constante.
Con respecto al gráfico Q-Q Residuals, los modelos que mejor se comportan son los número 3 y 4, ya que se evidencia una mejora en la distribución de los puntos puesto que tienden a estar cerca de la línea de regresión.
En el modelo 4, a diferencia de los demás, se puede evidenciar, según la gráfica Scale-Location que los puntos tienden a tener un comportamiento de homocedasticidad, es decir, que los residuos se distribuyen con la misma varianza.
Finalmente en el gráfico Residulas vs Leverage, los cuatro modelos presentan un comportamiento similar, ya que en todos existen los valores átipicos lo que afecta a los estimadores del modelo.
De acuerdo con lo expuesto anteriormente, se puede inferir, que el mejor de los modelos es el número 4,sin embargo, sus resultados no varian en mayor proporción con respecto a los demás modelos.
Con los resultados obtenidos construya un informe para los directivos de la inmobiliaria, indicando el modelo apropiado y sus principales características. A este informe se deben añadir los anexos como evidencia de la realización de los pasos anteriores.
Informe directivo inmobiliaria A&C:
De acuerdo con el análisis realizado y la evaluación de modelos predictivos que permitian determinar los precios de los inmuebles a negociar, con los datos de ofertas de vivienda descargadas del portal Fincaraiz para apartamento de estrato 4 con área construida menor a 200 m2 se pudo llegar a la siguiente conclusión:
Al realizar los análisis con los datos ya registrados se observa que casi un 56% de los apartamentos de estrato 4 tienen un precio entre 100 y 200 millones de pesos, sin embargo el promedio del precio oscila en 202 millones, además, se puede evidenciar que aproximadamente un 28% de los apartamentos de estrato 4 tienen un área entre 50 y 60 mts cuadrados.
Por otro lado, se pudo confirmar que el área y precio de los apartamentos presentan una correlación positiva considerable.
Con los datos que se tienen actualmente se pudo determinar que el coeficiente para el area es de 2.164 metros cuadrados. Es decir que por cada metro cuadrado, se puede esperar que el precio aumente un promedio de 2.164. Con este valor se pudo realizar un predicción para un apartamento con un área de 110 metros cuadrados el cual fue en promedio de 277.167 millones de pesos.
Por lo anterior, se vio la necesidad de realizar un ajuste a los datos para poder presentar un mejor resultado con respecto a la predicción, ya que un apartamento de esta área está actualmente en un precio aproximado de 200 millones de pesos.
Se realizó la transformación correspondiente para mejorar los resultados y los supuestos a través de cinco ajustes, de los cuales se obtuvieron los siguientes resultados:
stargazer(modelo1, modelo2, modelo3, modelo4, modelon1, type="text", df=FALSE)
##
## ====================================================================================
## Dependent variable:
## ----------------------------------------------------------------
## precio log(precio) precio1
## (1) (2) (3) (4) (5)
## ------------------------------------------------------------------------------------
## area 2.165*** 0.009*** 0.005***
## (0.052) (0.0002) (0.0001)
##
## log(area) 195.419*** 0.882***
## (4.445) (0.020)
##
## Constant 39.047*** -635.532*** 4.551*** 1.484*** 3.446***
## (4.100) (19.092) (0.019) (0.087) (0.010)
##
## ------------------------------------------------------------------------------------
## Observations 1,363 1,363 1,363 1,363 1,363
## R2 0.560 0.587 0.520 0.582 0.512
## Adjusted R2 0.559 0.587 0.519 0.582 0.512
## Residual Std. Error 43.339 41.982 0.205 0.191 0.103
## F Statistic 1,730.157*** 1,933.199*** 1,473.424*** 1,894.288*** 1,428.335***
## ====================================================================================
## Note: *p<0.1; **p<0.05; ***p<0.01
En estos resultados se puede observar que el R2 del modelo 4, en el cual se utiliza un logaritmo para las dos variables (precio y área), es mayor, lo que significa que el 58% de la variable precio es predicha por la variable área. Sin embargo, el modelo con el error estandar de los residuos más cercano a cero es el último modelo, el cual tomo el resultado de la transformación de Cox-Box.
También se pudo realizar la aplicación de diferentes test, como lo fue el de Shapiro Wilk, el de Breuchs-Pregan y el de Durbin-Watson, los cuales permitieron evaluar los supuestos de normalidad, linealidad, homocedasticidad y no autocorrelación (su detalle y gráficos se pueden ver expuestos en los puntos anteriores) sin embargo, no se evidenciaron diferencias significativas en los resultados de cada uno de los modelos.
Los resultados se pueden resumir de la siguiente manera: En el modelo 2 y 4,los residuos se encuentran aleatoreamente y tienen una varianza constante. Los modelos que mejor se comportan son los número 3, 4 Y 5, ya que se evidencia una mejora en la distribución de los puntos puesto que tienden a estar cerca de la línea de regresión. En el modelo 4, a diferencia de los demás, se puede evidenciar, según la gráfica Scale-Location que los puntos tienden a tener un comportamiento de homocedasticidad, es decir, que los residuos se distribuyen con la misma varianza.
De acuerdo con lo expuesto anteriormente, se puede inferir, que el mejor de los modelos es el número 4,sin embargo, sus resultados no varian en mayor proporción con respecto a los demás modelos.
Además se pudo evidenciar, que existen datos atipicos, lo que genera inconsistencias en los estimadores de todos los modelos, por lo cual se recomienda evaluar dichos valores para una proxima predicción o ajuste a los datos.
Por otro lado, la cantidad de datos y la información de las variables fue muy limitada, sin embargo, se ve la necesidad de tener otro tipo de datos que permitan ampliar el panorama, y realizar la busqueda de otro tipo de modelos que puedan obtener un mejor resultado.