Librerías

library(dplyr)
library(tidymodels)
library(GGally)
library(purrr)
library(kableExtra)

Funciones Auxiliares

# Dado un valor, devuelve un char si se lo considera alto, medio o bajo de acuerdo a los límites preestablecidos.
setClasificacion <-function(valor) {
  ifelse(valor>=3316,'alto',ifelse(valor<=2379,'bajo','medio'))
}
# Dado un DataFrame, ejecuta regresión lineal múltiple de acuerdo al modelo4.
runModel<-function(datos){
  tidy(lm(price ~ rooms + bathrooms + surface_covered + barrios + surface_patio, data=datos))
}

Preparación de datos

Se elimina la variable id y se transforman las variables categóricas a factor.

propiedades<-readRDS(file="ar_properties.rds")
propiedades<- propiedades %>% select(-id)
propiedades$l3<-as.factor(propiedades$l3)
propiedades$property_type<-as.factor(propiedades$property_type)

Regresión Lineal Múltiple

Modelo1

Se propone un modelo aditivo de regresión lineal múltiple para explicar el precio de las propiedades en función de 6 variables (surface_covered, surface_total, rooms, bathrooms, l3, property_type), de las cuales 4 son continuas y 2 son categóricas de 57 y 3 niveles respectivamente.

modelo1<-lm(price ~ ., data=propiedades)
modelo1_tidy<-tidy(modelo1)
modelo1_tidy

Interpretación de los coeficientes

Al tener dos variables categóricas con más de dos categorías se hace más complejo el análisis de los coeficientes. El valor intercept(\(\beta_0\)) es de -109406.61 y sería el valor promedio de los precios de una propiedad que no tiene ninguna habitación, ningún baño, no tiene superficie cubierta ni superficie total y que pertenece al grupo de referencia, es decir cuando el Barrio es Abasto y el tipo de propiedad es una Casa. Por lo tanto éste \(\beta_0\) no es relevante si se lo separa del término del modelo de regresión lineal.

  • \(\beta_{l3Barrio_i}\) es el cambio en el valor esperado de los precios del \({Barrio_i}\) respecto del barrio de Abasto cuando se controla por tipo de propiedad y se mantienen constantes las otras variables del modelo.
  • \(\beta_{property_i}\) es el cambio en el valor esperado de los precios del \({PropertyType_i}\) respecto de una propiedad del tipo Casa cuando se controla por barrio y se mantienen constantes las otras variables del modelo.
  • \(\beta_{rooms}\) es el valor promedio de una propiedad cuando aumentamos en un ambiente y se mantienen las demás variables constantes. En este caso el valor(-3961.27) es negativo; es decir el valor de la propiedad disminuye en promedio al agregar un ambiente.
  • \(\beta_{bathrooms}\) es el valor promedio de una propiedad cuando agregamos un baño a la misma y se mantienen las demás variables constantes. En este caso el valor de la propiedad aumenta en promedio en USD 34040.98.
  • \(\beta_{surfaceTotal}\) es el valor promedio de una propiedad cuando aumentamos un metro cuadrado en la superficie total y se mantienen las demás variables constantes.En este caso el valor de la propiedad aumenta en promedio en USD 919.
  • \(\beta_{surfaceCovered}\) es el valor promedio de una propiedad cuando aumentamos un metro cuadrado en la superficie cubierta y se mantienen las demás variables constantes.En este caso el valor de la propiedad aumenta en promedio en USD 1457.

Significatividad de las variables

Todos los p-valores de las variables continuas y de la categórica property_type en este modelo son estadísticamente significativas (<0.05). Se observa a través de las variables dummies de l3 que no todos los barrios influyen en la misma proporción en el precio medio de las propiedades. Se encuentran 13 barrios que no contribuyen de forma significativa al modelo.

modelo1_tidy[modelo1_tidy$p.value >0.05,]$term
 [1] "l3Agronomía"        "l3Almagro"          "l3Barracas"         "l3Caballito"       
 [5] "l3Monte Castro"     "l3Parque Chas"      "l3San Telmo"        "l3Villa Crespo"    
 [9] "l3Villa del Parque" "l3Villa Luro"       "l3Villa Real"       "l3Villa Riachuelo" 
[13] "l3Villa Santa Rita"

Medidas de Evaluación

El coeficiente de determinación múltiple ajustado \(R^2_a\) es 77,61% que representa el porcentaje de variación de la variable precio que puede ser explicada por este modelo. Se utiliza \(R^2_a\) en lugar de \(R^2\) ya que penaliza los modelos con muchas variables explciativas que no contribuyen al modelo.
Usamos el Test F para evaluar si existe o no relación entre las variables predictorias y la respuesta. Se plantea como \(H_0\) que no existe relación entre las variables (l3, rooms, bathrooms, surface_total, surface_covered y property_type) y precio; \(H_1\) que existe una relación lineal entre ellas. En nuestro modelo; en este caso se obtiene un valor alto igual a 2567,58 con un p-value < 2.2e-16 por lo tanto se rechaza \(H_0\) y se puede indicar que existe relación entre la respuesta y al menos una de las variables predictorias. El modelo planteado es correcto.

glance(modelo1)

¿Qué es preferible tener para vender?

En base al modelo obtenido se estima el precio de cada propiedad de acuerdo a sus características utilizando la función predict. En la salida se obtienen tres valores; fit seria la predicción del valor de la propiedad con esos datos especifico dentro de los límites inferior(lwr) y superior(upr) con una confianza del 95%.

  • Un departamento de 120 mts cuadrados cubiertos en Abasto, con 3 dormitorios y 2 baños:
    \[Y=-109406,61 + 3*(-3961.27) + 2*34040.98 + 120*1457.17 + 100*919,08 + 92653.31\] \[Y= 324596.4\]
  • Un PH en Balvanera, con 80 mts cuadrados cubiertos, 20 mts cuadrados no cubiertos, 2 dormitorios y 3 baños. \[Y=-109406,61 +(-24788.27) + 2*(-3961.27) + 3*34040.98 + 80*1457.17 + 100*919,08 + 46779.37\] \[Y= 215267,6\] Es preferible vender el Departamento en el Abasto.
newdata <- data.frame(l3="Abasto", rooms=3, bathrooms=2, surface_total=120, surface_covered=120, property_type="Departamento")

predict(modelo1, newdata, interval="predict", level = 0.95)
       fit      lwr      upr
1 324596.4 193837.5 455355.3
newdata <- data.frame(l3="Balvanera", rooms=2, bathrooms=3, surface_total=100, surface_covered=80, property_type="PH")

predict(modelo1, newdata, interval="predict", level = 0.95)
       fit      lwr      upr
1 215267.6 84678.03 345857.2

Modelo2

Se elimina la variable l3 del modelo y se observa a partir de los resultados que todas las variables explicativas son estadísticamente significativas(p-valor<0.05). Se observa que los precios promedios de los departamentos se ubica por encima del de las casas(\(\beta_0 + \beta_{propertyDepto}\) =-131096+135177=4081) mientras que el precio promedio de los PHs con respecto a las casas se ubica por debajo (\(\beta_0 + \beta_{propertyPH}\) =-131096+68598=-62498). Se explica en este modelo un 68,32% de la variabilidad de los precios y el Test F siendo de 16490 con un p-value < 2.2e-16 indica que este modelo también es correcto.

modelo2<-lm(price ~rooms + bathrooms + surface_total + surface_covered + property_type , data=propiedades)
tidy(modelo2)
glance(modelo2)

Comparar Modelo1 y Modelo2

Comparo por el coeficiente de determinación múltiple ajustado \(R^2\) ya que tiende a aumentar cuando se agregan más covariables aunque éstas sean o no apropiadas para el modelo y teniendo estos modelos diferente número de covariables, se observa que el \(R^2_a\) es mayor en el modelo1 en un 9% (77.6%-68.3%). Es decir, que la covariable l3 es importante para predecir la variabilidad de los precios de las propiedades. Se concluye que el modelo1 es el que mejor explica la variable respuesta.

Creación de Variables

Barrios: Nueva Variable

Se debe calcular el precio por metro cuadrado promedio de las propiedades en cada barrio y en base a sus valores definir los puntos de corte para clasificarlos en tres grupos: alto, medio y bajo. Considerando los cuartiles de esta nueva variable defino; alto cuando esta nueva variable es mayor o igual a 3316; bajo cuando es menor o igual a 2379 y medio entre (2379,3316).
Se crearon dos variables auxiliares para definir la nueva, una para obtener el precio por metro cuadrado de cada propiedad y otra pra calcular el promedio de ésta última para cada barrio.

propiedades<-propiedades %>%
  mutate(pricexmts=price/surface_total) %>%
  group_by(l3) %>%
  nest() 

propiedades<-propiedades %>%
  mutate(meanpricexmts=map_dbl(data,function(x) mean(x$pricexmts))) %>%
  unnest(data)

propiedades$meanpricexmts<-round(propiedades$meanpricexmts, digits = 2)

summary(propiedades$meanpricexmts)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   1093    2379    2610    2768    3316    5472 
propiedades<-propiedades %>% mutate(barrios=map_chr(meanpricexmts,setClasificacion)) %>% ungroup

propiedades$barrios<-as.factor(propiedades$barrios)

table(propiedades$barrios)

 alto  bajo medio 
11816 11519 22569 

Modelo3 y Comparación con Modelo1

Al agregar la nueva variable barrios y construir un modelo con la misma sin considerar l3 se observa que el \(R^2_a\) disminuyó aunque no en un porcentaje considerablemente alto. En el Modelo3 tenemos explicado un 74% de variabilidad de los precios mientras que en el Modelo1 habíamos alcanzado un 77%. Se destaca que todas las variables de este nuevo modelo son estadísticamente significativas y se observa que los coeficientes de los parámetros aumentaron a excepción de intercept y de surface_total que disminuyeron. La clasificación de los barrios de acuerdo al precio x metros cuadrados promedio de cada uno ayuda a explicar el modelo y se observa que el precio promedio de los barrios clasificados tanto como ‘bajo’ y ‘medio’ están por debajo del de los clasificados como ‘alto’ para las propiedades de tipo Casa.
Este modelo lo considero mejor que el Modelo1 porque no se tienen variables que no ayudan al modelo y es más fácil de interpretar aún perdiendo un 3% de variabilidad.

modelo3<-lm(price ~ rooms + bathrooms + surface_total + surface_covered + property_type + barrios, data=propiedades)
summary(modelo3)

Call:
lm(formula = price ~ rooms + bathrooms + surface_total + surface_covered + 
    property_type + barrios, data = propiedades)

Residuals:
    Min      1Q  Median      3Q     Max 
-445722  -36280   -6020   26105  677385 

Coefficients:
                           Estimate Std. Error t value Pr(>|t|)    
(Intercept)               -45273.19    2645.14  -17.12   <2e-16 ***
rooms                      -7831.99     474.32  -16.51   <2e-16 ***
bathrooms                  35582.69     690.40   51.54   <2e-16 ***
surface_total                895.82      25.04   35.78   <2e-16 ***
surface_covered             1636.40      30.46   53.72   <2e-16 ***
property_typeDepartamento 101782.63    2309.46   44.07   <2e-16 ***
property_typePH            51162.33    2436.69   21.00   <2e-16 ***
barriosbajo               -96229.28     976.41  -98.55   <2e-16 ***
barriosmedio              -54270.27     823.12  -65.93   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 71880 on 45895 degrees of freedom
Multiple R-squared:  0.7391,    Adjusted R-squared:  0.739 
F-statistic: 1.625e+04 on 8 and 45895 DF,  p-value: < 2.2e-16

Superficie_patio: Nueva Variable

Se observa una correlación muy fuerte(0.95) entre surface_total y surface_covered. Además en el 28% de los casos se registra el mismo valor; es decir cuando las propiedades no tienen una superficie descubierta. En el caso de que exista una incompatibilidad en los datos, por ejemplo \({surface\_covered} > {surface\_total}\) implica que tengamos la totalidad de la superficie en la variable surface_covered; en estos casos se suma la superficie descubierta surface_patio (dado que patio es negativo) y se ajusta el signo de esta última. Sin embargo no se han encontrado registros con estas características en el dataset.

propiedades %>%
  keep(is.numeric) %>%
  ggcorr(low = "darkred", mid = "white", high = "steelblue", label = T, label_round =
           2, size = 4,  color = "grey50",  angle = -45)


propiedades<-propiedades %>% 
  mutate(surface_patio=surface_total-surface_covered)

#Calcular el % de las propiedades sin sup descubierta.
nrow(propiedades[propiedades$surface_patio==0,])/nrow(propiedades)
[1] 0.2886459
#En caso de incompatibilidad, se ajustan los datos.
if (nrow(propiedades[propiedades$surface_patio < 0,]) > 0){
  propiedades<-propiedades %>% 
  mutate(surface_covered=ifelse(surface_patio<0, surface_covered+surface_patio, surface_covered), 
         surface_patio=ifelse(surface_patio<0,(-1)*surface_patio,surface_patio))
}

Modelo4

Agregar la variable surface_patio no mejoró el \(R^2_a\). El coeficiente de surface_covered se incrementó y ahora se tiene que cada metro cuadrado cubierto tiene un incremento del 2532.22 en el precio promedio de las propiedades.
En cuanto al parámetro de surface_patio se observa el mismo coeficiente que se tenia en surface_total en el modelo anterior.

modelo4<-lm(price ~ rooms + bathrooms + surface_covered + property_type + barrios + surface_patio, data=propiedades)
summary(modelo4)

Call:
lm(formula = price ~ rooms + bathrooms + surface_covered + property_type + 
    barrios + surface_patio, data = propiedades)

Residuals:
    Min      1Q  Median      3Q     Max 
-445722  -36280   -6020   26105  677385 

Coefficients:
                           Estimate Std. Error t value Pr(>|t|)    
(Intercept)               -45273.19    2645.14  -17.12   <2e-16 ***
rooms                      -7831.99     474.32  -16.51   <2e-16 ***
bathrooms                  35582.69     690.40   51.54   <2e-16 ***
surface_covered             2532.22      16.06  157.71   <2e-16 ***
property_typeDepartamento 101782.63    2309.46   44.07   <2e-16 ***
property_typePH            51162.33    2436.69   21.00   <2e-16 ***
barriosbajo               -96229.28     976.41  -98.55   <2e-16 ***
barriosmedio              -54270.27     823.12  -65.93   <2e-16 ***
surface_patio                895.82      25.04   35.78   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 71880 on 45895 degrees of freedom
Multiple R-squared:  0.7391,    Adjusted R-squared:  0.739 
F-statistic: 1.625e+04 on 8 and 45895 DF,  p-value: < 2.2e-16

Evaluación del Modelo4

Analizar Residuos

Para aplicar el modelo de regresión lineal los residuos deben tener una distribución normal. En los gráficos qqnorm, los quantiles tiende a seguir los quantiles de una distribución normal aunque hay varios puntos alejados de esa tendencia. Por el teorema central del limite se puede decir que se cumple este supuesto. Otro que debiese cumplirse es el de la homocedasticidad y vemos a través de los gráficos que los residuos tienen cierta estructura.


residuos <-modelo4$residuals
qqnorm(residuos)
qqline(residuos)


plot(modelo4$fitted, modelo4$residuals, xlab = "Fitted Values", ylab = "Residuals")
abline(0,0)

Comparar con Modelo Propuesto

Aplicando logaritmo a las variables propuestas se observa una mejoría al realizar los gráficos para analizar los supuestos. Los quantiles se acercan más a los quantiles de una distribución normal aunque se sigue visualizando cierto patrón en los residuos pero con una distribución más uniforme. El \(R^2_a\) mejoró de 74% a 81% aunque en este modelo explica la variación en log(price) y no en price como el modelo anteior.
Analizando los coeficientes se observa que:

  • por cada habitación que se agrega a una propiedad hay una disminución del 0.04% en el precio de las propiedades.
  • por cada baño que se agrega a una propiedad hay una aumento del 0.17% en el precio de las propiedades.
  • por cada metro cuadrado que se agrega en la superficie cubierta de una propiedad hay una aumento del 0.82% en el precio de las propiedades.
  • el precio de las propiedades aumenta un 23% si la propiedad es un Departamento, 6% si es PH, 0.39% por cada metro cuadrado que se agrega al patio.
  • el precio de las propiedades disminuye un 42% si se encuentra en un barrio clasificado como bajo y un 20% en uno como medio.
modelo5<-lm(log(price) ~ log(rooms) + log(bathrooms) + log(surface_covered) + property_type + barrios + surface_patio, data=propiedades)
summary(modelo5)

Call:
lm(formula = log(price) ~ log(rooms) + log(bathrooms) + log(surface_covered) + 
    property_type + barrios + surface_patio, data = propiedades)

Residuals:
     Min       1Q   Median       3Q      Max 
-1.37399 -0.15780 -0.01026  0.14704  1.30806 

Coefficients:
                            Estimate Std. Error  t value Pr(>|t|)    
(Intercept)                8.653e+00  1.941e-02  445.708  < 2e-16 ***
log(rooms)                -4.228e-02  3.919e-03  -10.790  < 2e-16 ***
log(bathrooms)             1.787e-01  3.953e-03   45.216  < 2e-16 ***
log(surface_covered)       8.274e-01  4.592e-03  180.168  < 2e-16 ***
property_typeDepartamento  2.328e-01  7.481e-03   31.119  < 2e-16 ***
property_typePH            6.004e-02  7.925e-03    7.575 3.66e-14 ***
barriosbajo               -4.283e-01  3.207e-03 -133.560  < 2e-16 ***
barriosmedio              -1.996e-01  2.704e-03  -73.809  < 2e-16 ***
surface_patio              3.942e-03  8.246e-05   47.810  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.2362 on 45895 degrees of freedom
Multiple R-squared:  0.8079,    Adjusted R-squared:  0.8079 
F-statistic: 2.413e+04 on 8 and 45895 DF,  p-value: < 2.2e-16
residuos <-modelo5$residuals
qqnorm(residuos)
qqline(residuos)


plot(modelo5$fitted, modelo5$residuals, xlab = "Fitted Values", ylab = "Residuals")
abline(0,0)

Dataframes Anidados

Anidar por property_type

propiedades<-propiedades %>%
  group_by(property_type) %>%
  nest()

Construir varios modelos

La variable rooms se comporta diferente en los tres modelos; en el caso del PH no es significativa, en los departamentos agregar un ambiente implica una disminución en el promedio de los precios mientras que en las Casas implica un aumento considerando las demás variables constantes.
En los tres modelos sin importar el tipo de propiedad se encuentra que las propiedades ubicadas en los barrios que tienen precios por superficie muy altos incrementan el precio promedio de las mismas; mientras que en los otros dos casos(bajo y medio) disminuyen el precio en promedio.
Se observa que el desvío estándar en el modelo de Departamento es el menor de todos para cada variable, esto indicaría que se ajusta mejor para las propiedades de tipo Departamento que para las Casas o PH.

propiedades<-propiedades %>%
  mutate(lm=map(data, runModel)) %>%
  unnest(lm)

propiedades %>%
  select(-data) %>%
  kable() %>% 
  kable_styling(bootstrap_options = c("striped", "hover", "condensed", "responsive"))
property_type term estimate std.error statistic p.value
Casa (Intercept) 206894.3067 13908.12317 14.875789 0.0000000
Casa rooms 6910.6527 2473.10121 2.794327 0.0052854
Casa bathrooms 29754.1323 3656.77542 8.136713 0.0000000
Casa surface_covered 1124.0869 63.60352 17.673344 0.0000000
Casa barriosbajo -203342.1874 11563.64468 -17.584611 0.0000000
Casa barriosmedio -128606.3944 11868.46071 -10.835979 0.0000000
Casa surface_patio 510.5541 97.02695 5.261983 0.0000002
Departamento (Intercept) 46101.9295 1106.49784 41.664726 0.0000000
Departamento rooms -13214.0639 505.05795 -26.163461 0.0000000
Departamento bathrooms 31267.3508 738.26585 42.352427 0.0000000
Departamento surface_covered 2951.0291 17.83451 165.467388 0.0000000
Departamento barriosbajo -90899.0536 1005.52440 -90.399650 0.0000000
Departamento barriosmedio -53103.0289 824.11241 -64.436633 0.0000000
Departamento surface_patio 1012.8329 30.96091 32.713276 0.0000000
PH (Intercept) 103139.9790 3447.71818 29.915432 0.0000000
PH rooms 1262.3017 1068.25328 1.181650 0.2374089
PH bathrooms 21595.6038 1531.44268 14.101477 0.0000000
PH surface_covered 1351.1598 31.62260 42.727660 0.0000000
PH barriosbajo -99229.2215 2626.54732 -37.779339 0.0000000
PH barriosmedio -48061.4893 2600.57910 -18.481072 0.0000000
PH surface_patio 648.5723 35.45137 18.294703 0.0000000
