library(OneR)
Error in library(OneR) : there is no package called ‘OneR’
model <- lm(price ~ l3 + rooms + bathrooms + surface_total + surface_covered + price + property_type, data = properties )
the response appeared on the right-hand side and was droppedproblem with term 6 in model.matrix: no columns are assigned
summary(model)
Call:
lm(formula = price ~ l3 + rooms + bathrooms + surface_total +
surface_covered + price + property_type, data = properties)
Residuals:
Min 1Q Median 3Q Max
-400904 -33817 -3307 24660 560915
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -109406.61 4788.67 -22.847 < 2e-16 ***
l3Agronomía 623.53 8846.14 0.070 0.943807
l3Almagro -4520.04 4295.24 -1.052 0.292650
l3Balvanera -24788.27 4551.65 -5.446 5.18e-08 ***
l3Barracas -10128.24 5351.06 -1.893 0.058397 .
l3Barrio Norte 49921.81 4417.82 11.300 < 2e-16 ***
l3Belgrano 69648.12 4283.55 16.259 < 2e-16 ***
l3Boca -47540.60 7076.20 -6.718 1.86e-11 ***
l3Boedo -19034.38 5219.54 -3.647 0.000266 ***
l3Caballito 6220.15 4301.29 1.446 0.148153
l3Catalinas -76321.95 33563.74 -2.274 0.022974 *
l3Centro / Microcentro -29046.49 6781.80 -4.283 1.85e-05 ***
l3Chacarita 11903.39 5299.02 2.246 0.024687 *
l3Coghlan 40820.55 5462.90 7.472 8.02e-14 ***
l3Colegiales 34073.02 4816.54 7.074 1.52e-12 ***
l3Congreso -32314.97 5494.75 -5.881 4.10e-09 ***
l3Constitución -47292.98 6321.63 -7.481 7.50e-14 ***
l3Flores -22510.27 4536.15 -4.962 6.99e-07 ***
l3Floresta -28315.65 5069.38 -5.586 2.34e-08 ***
l3Las Cañitas 90455.90 5883.38 15.375 < 2e-16 ***
l3Liniers -20080.34 5366.27 -3.742 0.000183 ***
l3Mataderos -33863.43 5424.79 -6.242 4.35e-10 ***
l3Monserrat -32431.49 5228.46 -6.203 5.59e-10 ***
l3Monte Castro -8770.72 5949.63 -1.474 0.140445
l3Nuñez 56958.42 4559.69 12.492 < 2e-16 ***
l3Once -30757.83 5456.51 -5.637 1.74e-08 ***
l3Palermo 66169.58 4221.50 15.674 < 2e-16 ***
l3Parque Avellaneda -34398.95 7598.09 -4.527 5.99e-06 ***
l3Parque Centenario -12288.30 5016.45 -2.450 0.014305 *
l3Parque Chacabuco -22537.83 5314.36 -4.241 2.23e-05 ***
l3Parque Chas 5195.26 7542.97 0.689 0.490981
l3Parque Patricios -36808.02 5973.29 -6.162 7.24e-10 ***
l3Paternal -13314.50 5189.69 -2.566 0.010304 *
l3Pompeya -79977.17 8035.74 -9.953 < 2e-16 ***
l3Puerto Madero 259015.83 5095.12 50.836 < 2e-16 ***
l3Recoleta 64088.22 4360.34 14.698 < 2e-16 ***
l3Retiro 26067.40 5281.27 4.936 8.01e-07 ***
l3Saavedra 19492.00 4914.18 3.966 7.31e-05 ***
l3San Cristobal -23739.75 4955.13 -4.791 1.67e-06 ***
l3San Nicolás -26247.55 5168.96 -5.078 3.83e-07 ***
l3San Telmo -5653.85 4877.12 -1.159 0.246356
l3Tribunales -34608.17 8924.63 -3.878 0.000106 ***
l3Velez Sarsfield -25943.69 8303.75 -3.124 0.001783 **
l3Versalles -22232.13 6758.40 -3.290 0.001004 **
l3Villa Crespo 1595.26 4317.54 0.369 0.711770
l3Villa del Parque -3290.17 4866.59 -0.676 0.498997
l3Villa Devoto 13301.39 4807.08 2.767 0.005659 **
l3Villa General Mitre -19170.08 6802.25 -2.818 0.004831 **
l3Villa Lugano -83039.18 6533.35 -12.710 < 2e-16 ***
l3Villa Luro -7579.11 5404.78 -1.402 0.160833
l3Villa Ortuzar 18667.61 6829.18 2.734 0.006269 **
l3Villa Pueyrredón 10516.80 5349.56 1.966 0.049314 *
l3Villa Real -8823.37 8745.56 -1.009 0.313030
l3Villa Riachuelo -32775.66 17171.10 -1.909 0.056298 .
l3Villa Santa Rita -5767.71 6383.86 -0.903 0.366274
l3Villa Soldati -136489.91 18944.29 -7.205 5.90e-13 ***
l3Villa Urquiza 30648.43 4418.91 6.936 4.09e-12 ***
rooms -3961.27 444.58 -8.910 < 2e-16 ***
bathrooms 34040.98 644.28 52.836 < 2e-16 ***
surface_total 919.08 23.52 39.069 < 2e-16 ***
surface_covered 1457.18 28.73 50.715 < 2e-16 ***
property_typeDepartamento 92653.32 2191.23 42.284 < 2e-16 ***
property_typePH 46779.37 2274.94 20.563 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 66580 on 45841 degrees of freedom
Multiple R-squared: 0.7764, Adjusted R-squared: 0.7761
F-statistic: 2568 on 62 and 45841 DF, p-value: < 2.2e-16
En la columna Estimate podemos ver los coeficientes estimados para los Beta correspondientes a las variables en la izquierda de la tabla. Se interpretan de la siguiente forma: por cada unidad que aumente la variable en la izquierda de la tabla, el precio de la vivienda aumenta(o disminuye, depende del signo) según la cantidad estimada manteniendo el resto de variables constantes. EJ: El aumento de una unidad de la superficie total de una vivienda, conlleva a un aumento de su precio, en promedio, de 919.08 manteniendo el resto de variables fijas. Para este caso, la interpretación del Intercept no tiene sentido, no hay propiedades que tengan 0 habitaciones, 0 baños, etc.
Muchas de las variables dummy no presentan una diferencia significativa con la variable basal Abasto.
plot(model)
the response appeared on the right-hand side and was droppedproblem with term 6 in model.matrix: no columns are assigned
En el primer gráfico se puede ver un scatter plot de los residuos y los valores que estima el modelo. Se puede observar un patron en los datos, las varianza aumenta para los valores mas grandes estimados indicando que el modelo no cumple con la homocedasticidad de los residuos
El segundo gráfico “Normal QQ” sirve para ver si los residuos siguen una distribución normal, si el modelo esta bien definido, los círculos que se ven en el gráfico deberian seguir el patron lineal de la recta puntueada. En este caso, en los limites del gráfico se observa un desvio de los puntos con respecto a la recta. Los residuos estandarizados no siguen esta distribución.
Por último, el graficó de los residuos en función del Leverage. Se pueden observar valores atípicos que desplazan la recta generada por el modelo hacia ellos, aumentado el valor de los residuos y el error éstandar.
Una manera más de evaluar el modelo es observando el R2, que es igual a 0,7764. Significa que las variables seleccionadas para el modello estan explicando aproximadamente, el 77% de la variabilidad del precio de las viviendas.
paste("Depto en abasto:" , abasto[2],"Ph en balvanera",balva[2])
[1] "Depto en abasto: 316347.45339207 Ph en balvanera 210389.213518492"
La predicción para el departamento en Abasto da 316.348 dólares, mientras que el PH en Balvanera 210.389 mil dólares. Es preferible tener el departamento en Abasto mirando solamente el valor de venta estimado.
Realizar un modelo sin la covariable l3 e interpretar sus resultados (todas las partes de la salida que consideren relevantes)
model2 <- lm(price ~ rooms + bathrooms + surface_total + surface_covered + price + property_type, data = properties )
the response appeared on the right-hand side and was droppedproblem with term 5 in model.matrix: no columns are assigned
summary(model2)
Call:
lm(formula = price ~ rooms + bathrooms + surface_total + surface_covered +
price + property_type, data = properties)
Residuals:
Min 1Q Median 3Q Max
-518799 -36177 -9643 25740 724251
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -131096.86 2750.50 -47.66 <2e-16 ***
rooms -13348.53 519.02 -25.72 <2e-16 ***
bathrooms 42664.68 756.37 56.41 <2e-16 ***
surface_total 877.03 27.59 31.79 <2e-16 ***
surface_covered 1783.80 33.53 53.21 <2e-16 ***
property_typeDepartamento 135177.47 2513.93 53.77 <2e-16 ***
property_typePH 68598.52 2677.46 25.62 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 79210 on 45897 degrees of freedom
Multiple R-squared: 0.6832, Adjusted R-squared: 0.6831
F-statistic: 1.649e+04 on 6 and 45897 DF, p-value: < 2.2e-16
Sacando la covariable l3, el modelo pierde poder para explicar la variable precio ya que su R2 es menor que en el caso antorior. Esto significa que la variable l3 contiene informacion valiosa para explicar la variable precio.
¿Cuál es el modelo que mejor explica la variabilidad del precio?
El primer modelo con la variable l3 explica en mayor medida, la variabilidad del precio de las viviendas.
Al no encontrar un patron especificon en los datos, voy a dividir el dataset en 3 partes iguales.
metros_barrio= metros_barrio %>% filter(mean_price != min(mean_price),mean_price!=max(mean_price)) %>% mutate(barrios = bin(mean_price, nbins = 3, labels = c("BAJO", "MEDIO", "ALTO")))
ggplot(metros_barrio,aes(barrios))+geom_histogram(stat="count") + ggtitle('Grupos por Barrios')
Ignoring unknown parameters: binwidth, bins, pad
summary(model_new)
Call:
lm(formula = price ~ rooms + bathrooms + surface_total + surface_covered +
barrios + property_type, data = properties_new)
Residuals:
Min 1Q Median 3Q Max
-414977 -34231 -3624 24754 568608
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -145313.14 2600.35 -55.88 <2e-16 ***
rooms -4587.80 446.78 -10.27 <2e-16 ***
bathrooms 34693.01 651.93 53.22 <2e-16 ***
surface_total 947.14 23.58 40.16 <2e-16 ***
surface_covered 1427.37 28.81 49.55 <2e-16 ***
barriosMEDIO 29515.62 1447.82 20.39 <2e-16 ***
barriosALTO 94081.21 1476.53 63.72 <2e-16 ***
property_typeDepartamento 93732.32 2178.55 43.02 <2e-16 ***
property_typePH 48176.13 2294.12 21.00 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 66810 on 45014 degrees of freedom
(881 observations deleted due to missingness)
Multiple R-squared: 0.7566, Adjusted R-squared: 0.7566
F-statistic: 1.749e+04 on 8 and 45014 DF, p-value: < 2.2e-16
Con el nuevo modelo podemos ver que todas las covariables son significativas. El R2 no varió mucho.
El modelo que parece explicar mejor la variabilidad es el que contiene a l3 por tener un R2 Ajustado mayor(un poco). Tambien, con el primer modelo tenemos informacion sobre los barrios de forma individual, que con el modelo de barrios no.
summary(model_new)
Call:
lm(formula = price ~ rooms + bathrooms + surface_patio + surface_covered +
barrios + property_type, data = properties_new)
Residuals:
Min 1Q Median 3Q Max
-414977 -34231 -3624 24754 568608
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -145313.14 2600.35 -55.88 <2e-16 ***
rooms -4587.80 446.78 -10.27 <2e-16 ***
bathrooms 34693.01 651.93 53.22 <2e-16 ***
surface_patio 947.14 23.58 40.16 <2e-16 ***
surface_covered 2374.51 15.25 155.72 <2e-16 ***
barriosMEDIO 29515.62 1447.82 20.39 <2e-16 ***
barriosALTO 94081.21 1476.53 63.72 <2e-16 ***
property_typeDepartamento 93732.32 2178.55 43.02 <2e-16 ***
property_typePH 48176.13 2294.12 21.00 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 66810 on 45014 degrees of freedom
(881 observations deleted due to missingness)
Multiple R-squared: 0.7566, Adjusted R-squared: 0.7566
F-statistic: 1.749e+04 on 8 and 45014 DF, p-value: < 2.2e-16
surface_patio no contiene contradicciones. Si las tuviera, lo consideraria un error y las borraría. El coeficiente estimado para la variable surface_covered se interpreta como el aumento del precio promedio de una propiedad cuando la superficie cubierta aumenta en un metro cuadrado. Análogamente se puede interpretar surface_patio. El aumento del precio es mayor cuando aumenta la superficie cubierta que cuando aumenta la superficie descubierta.
El análisis es el mismo que en el caso anterior, no se presenta homoedasticidad de la varianza y los residuos no siguen una distribución normal. En el último gráficose observa que hay puntos alejados pero el leverage es menor que en la evalución del modelo anterior.
summary(model_log)
Call:
lm(formula = price ~ rooms + bathrooms + surface_patio + surface_covered +
property_type + barrios, data = properties_log)
Residuals:
Min 1Q Median 3Q Max
-1.31025 -0.14448 -0.00264 0.13551 1.12351
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 8.3158671 0.0187899 442.571 < 2e-16 ***
rooms -0.0161561 0.0037708 -4.285 1.84e-05 ***
bathrooms 0.1838038 0.0038009 48.358 < 2e-16 ***
surface_patio 0.0041961 0.0000793 52.913 < 2e-16 ***
surface_covered 0.7805892 0.0044459 175.576 < 2e-16 ***
property_typeDepartamento 0.2115691 0.0072020 29.377 < 2e-16 ***
property_typePH 0.0593620 0.0076157 7.795 6.59e-15 ***
barriosMEDIO 0.1926193 0.0048566 39.662 < 2e-16 ***
barriosALTO 0.4739848 0.0049543 95.672 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.2241 on 45014 degrees of freedom
(881 observations deleted due to missingness)
Multiple R-squared: 0.8203, Adjusted R-squared: 0.8202
F-statistic: 2.568e+04 on 8 and 45014 DF, p-value: < 2.2e-16
Este nuevo modelo mejora la explicación de la variabilidad con un R2 Ajustado=0.8202 frente al anterior, aunque se pierde la interpretabilidad.
En este caso los residuos no parecen tener una estructura acercandoce mas a la homocedasticidad de la varianza. La recta en el QQ plot se apega mucho mas los puntos del grafico, indicando que los residuos siguen la distribución normal.
properties_nested <- properties %>%
group_by(property_type) %>%
nest()
head(properties_nested)
df_model <- function(datos) {
datos_temp <- datos %>% dummy_cols() %>% select(-barrios)
modelo <- lm("price ~. " , data = datos_temp)
return(modelo)
}
model_nested <- properties_nested %>%
mutate(modelo = map(data, df_model)) %>%
mutate(descripcion = map(modelo, glance)) %>%
unnest(descripcion)
model_nested