Trabajo sobre un dataset de Properati Argentina*

          used (Mb) gc trigger (Mb) max used (Mb)
Ncells  776312 41.5    1234088   66  1234088   66
Vcells 1770271 13.6    8388608   64  8388570   64
          used (Mb) gc trigger (Mb) max used (Mb)
Ncells  776273 41.5    1234088   66  1234088   66
Vcells 1770206 13.6    8388608   64  8388570   64
          used (Mb) gc trigger (Mb) max used (Mb)
Ncells  776340 41.5    1234088   66  1234088   66
Vcells 1770272 13.6    8388608   64  8388570   64
str(prop)
Classes ‘tbl_df’, ‘tbl’ and 'data.frame':   45904 obs. of  8 variables:
 $ id             : chr  "AfdcsqUSelai1ofCAq2B0Q==" "ESzybdH7YU2uIU1/kHtRGw==" "r22OfzZ3kXooSPoE5HMuZQ==" "atZQXVtyfG7+OiX6gYY3lA==" ...
 $ l3             : Factor w/ 57 levels "Abasto","Agronomía",..: 43 25 3 3 3 3 3 3 3 3 ...
 $ rooms          : num  3 1 1 1 1 1 1 1 1 1 ...
 $ bathrooms      : num  2 1 1 1 1 1 1 1 1 1 ...
 $ surface_total  : num  95 44 40 49 40 40 40 49 40 40 ...
 $ surface_covered: num  69 38 37 44 37 37 37 44 37 37 ...
 $ price          : num  199900 147000 92294 115000 77000 ...
 $ property_type  : Factor w/ 3 levels "Casa","Departamento",..: 1 2 2 2 2 2 2 2 2 2 ...

1 Regresión lineal múltiple

a. Crear un modelo para predecir el precio con todas las covariables.


\(\begin{aligned}price = \beta_{0}+\beta_{1}.l3+\beta_{2}.rooms+\beta_{3}.bathrooms\\+\beta_{4}.surface\_total+\beta_{5}.surface\_covered+\beta_{6}.property\_type\end{aligned}\)

Las variables continuas son rooms cantidad de habitaciones, bathrooms cantidad de baños, surface_total (superficie total) y surface_covered superficie cubierta

Las variables categoricas en cambio son property_type Tipo de propiedad, “Casa”, “Ph” y “Deparatamento” y por otro lado l3 que representa las zonas donde se ubican dichas propiedades. Para generar el modelo lineal debo transformar las variables categoricas a variables dummy.

anova(prop_lm1)
Analysis of Variance Table

Response: price
                   Df     Sum Sq    Mean Sq  F value    Pr(>F)    
l3                 56 1.8443e+14 3.2934e+12   742.95 < 2.2e-16 ***
rooms               1 3.0174e+14 3.0174e+14 68067.54 < 2.2e-16 ***
bathrooms           1 9.7588e+13 9.7588e+13 22014.36 < 2.2e-16 ***
surface_total       1 9.6762e+13 9.6762e+13 21827.91 < 2.2e-16 ***
surface_covered     1 1.2667e+13 1.2667e+13  2857.40 < 2.2e-16 ***
property_type       2 1.2491e+13 6.2453e+12  1408.85 < 2.2e-16 ***
Residuals       45841 2.0321e+14 4.4329e+09                       
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Realizando el test de Anova puedo verificar que ambos tipos de variables son significativas y por lo tanto puedo analizar en particular cada coeficiente en detalle

summary(prop_lm1)

Call:
lm(formula = price ~ l3 + rooms + bathrooms + surface_total + 
    surface_covered + property_type, data = prop)

Residuals:
    Min      1Q  Median      3Q     Max 
-400904  -33817   -3307   24660  560915 

Coefficients:
                            Estimate Std. Error t value Pr(>|t|)    
(Intercept)               -109406.61    4788.67 -22.847  < 2e-16 ***
l3Agronomía                   623.53    8846.14   0.070 0.943807    
l3Almagro                   -4520.04    4295.24  -1.052 0.292650    
l3Balvanera                -24788.27    4551.65  -5.446 5.18e-08 ***
l3Barracas                 -10128.24    5351.06  -1.893 0.058397 .  
l3Barrio Norte              49921.81    4417.82  11.300  < 2e-16 ***
l3Belgrano                  69648.12    4283.55  16.259  < 2e-16 ***
l3Boca                     -47540.60    7076.20  -6.718 1.86e-11 ***
l3Boedo                    -19034.38    5219.54  -3.647 0.000266 ***
l3Caballito                  6220.15    4301.29   1.446 0.148153    
l3Catalinas                -76321.95   33563.74  -2.274 0.022974 *  
l3Centro / Microcentro     -29046.49    6781.80  -4.283 1.85e-05 ***
l3Chacarita                 11903.39    5299.02   2.246 0.024687 *  
l3Coghlan                   40820.55    5462.90   7.472 8.02e-14 ***
l3Colegiales                34073.02    4816.54   7.074 1.52e-12 ***
l3Congreso                 -32314.97    5494.75  -5.881 4.10e-09 ***
l3Constitución             -47292.98    6321.63  -7.481 7.50e-14 ***
l3Flores                   -22510.27    4536.15  -4.962 6.99e-07 ***
l3Floresta                 -28315.65    5069.38  -5.586 2.34e-08 ***
l3Las Cañitas               90455.90    5883.38  15.375  < 2e-16 ***
l3Liniers                  -20080.34    5366.27  -3.742 0.000183 ***
l3Mataderos                -33863.43    5424.79  -6.242 4.35e-10 ***
l3Monserrat                -32431.49    5228.46  -6.203 5.59e-10 ***
l3Monte Castro              -8770.72    5949.63  -1.474 0.140445    
l3Nuñez                     56958.42    4559.69  12.492  < 2e-16 ***
l3Once                     -30757.83    5456.51  -5.637 1.74e-08 ***
l3Palermo                   66169.58    4221.50  15.674  < 2e-16 ***
l3Parque Avellaneda        -34398.95    7598.09  -4.527 5.99e-06 ***
l3Parque Centenario        -12288.30    5016.45  -2.450 0.014305 *  
l3Parque Chacabuco         -22537.83    5314.36  -4.241 2.23e-05 ***
l3Parque Chas                5195.26    7542.97   0.689 0.490981    
l3Parque Patricios         -36808.02    5973.29  -6.162 7.24e-10 ***
l3Paternal                 -13314.50    5189.69  -2.566 0.010304 *  
l3Pompeya                  -79977.17    8035.74  -9.953  < 2e-16 ***
l3Puerto Madero            259015.83    5095.12  50.836  < 2e-16 ***
l3Recoleta                  64088.22    4360.34  14.698  < 2e-16 ***
l3Retiro                    26067.40    5281.27   4.936 8.01e-07 ***
l3Saavedra                  19492.00    4914.18   3.966 7.31e-05 ***
l3San Cristobal            -23739.75    4955.13  -4.791 1.67e-06 ***
l3San Nicolás              -26247.55    5168.96  -5.078 3.83e-07 ***
l3San Telmo                 -5653.85    4877.12  -1.159 0.246356    
l3Tribunales               -34608.17    8924.63  -3.878 0.000106 ***
l3Velez Sarsfield          -25943.69    8303.75  -3.124 0.001783 ** 
l3Versalles                -22232.13    6758.40  -3.290 0.001004 ** 
l3Villa Crespo               1595.26    4317.54   0.369 0.711770    
l3Villa del Parque          -3290.17    4866.59  -0.676 0.498997    
l3Villa Devoto              13301.39    4807.08   2.767 0.005659 ** 
l3Villa General Mitre      -19170.08    6802.25  -2.818 0.004831 ** 
l3Villa Lugano             -83039.18    6533.35 -12.710  < 2e-16 ***
l3Villa Luro                -7579.11    5404.78  -1.402 0.160833    
l3Villa Ortuzar             18667.61    6829.18   2.734 0.006269 ** 
l3Villa Pueyrredón          10516.80    5349.56   1.966 0.049314 *  
l3Villa Real                -8823.37    8745.56  -1.009 0.313030    
l3Villa Riachuelo          -32775.66   17171.10  -1.909 0.056298 .  
l3Villa Santa Rita          -5767.71    6383.86  -0.903 0.366274    
l3Villa Soldati           -136489.91   18944.29  -7.205 5.90e-13 ***
l3Villa Urquiza             30648.43    4418.91   6.936 4.09e-12 ***
rooms                       -3961.27     444.58  -8.910  < 2e-16 ***
bathrooms                   34040.98     644.28  52.836  < 2e-16 ***
surface_total                 919.08      23.52  39.069  < 2e-16 ***
surface_covered              1457.18      28.73  50.715  < 2e-16 ***
property_typeDepartamento   92653.32    2191.23  42.284  < 2e-16 ***
property_typePH             46779.37    2274.94  20.563  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 66580 on 45841 degrees of freedom
Multiple R-squared:  0.7764,    Adjusted R-squared:  0.7761 
F-statistic:  2568 on 62 and 45841 DF,  p-value: < 2.2e-16
b. Analizar los resultados del modelo.

i. Interpretación de los coeficientes estimados.

Analizando el valor del estadístico F, se puede rechazar la hipotesis nula. Por otro lado el coeficiente R cuadrado ajustado determina que el 77% de la variabilidad del precio está explicada por las variables.

En el caso de l3 la categoría basal es Abasto y para property_type es Casa. En este modelo hay coeficientes estimados que no resultan significativos, cómo Almagro y Montecastro. Por otro lado existen barrios que tienen un coeficiente negativo, es decir que están por debajo del precio medio de referencia. En el caso de property_type el precio de los PH o Departamentos tienen una influencia positiva respecto a la variable control “Casa”

Analizando, coeficiente de la variable surface_covered se espera que un aumento del metro cuadrado aumente 1457usd el precio de la propiedad.

Por otro lado, una manera de buscar departamentos es según la cantidad de habitaciones, es decir, por la variable rooms. Parecería contraintuitivo el coeficiente del modelo que determina que frente al resto de las variables constantes, una habitación adicional disminuye el precio esperado en 3961usd. Sería interesante agregar a este dataset la antiguedad de la propiedad, para entender si hay alguna correlación entre la variable cantidad de habitaciones y antiguedad de la propiedad.

En el caso de los coeficientes de las variables dummy indican cómo se modifica la variable respuesta respecto a la basal fijando las demás covariables. cuando dicha variable corresponde a cada uno de sus niveles. En el caso de la variable categórica property_type se obtiene que al tratarse de departamentos, el precio medio aumentará 92653.32 USD con respecto a su variable de referencia, casa. Para la variable l3 el nivel de referencia es abasto, lo que significa que por ejemplo, una propiedad ubicada en el barrio de Belgrano presentará un precio medio esperado mayor de 69648.12USD con respecto a una en la zona Abasto. En cambio una propiedad ubicada en Villa Lugano tendrá un precio medio esperado 83039.18 USD menor

Tabla 1: Dummies de las zonas.

Tabla 2: Dummies para el tipo de propiedad.

ii. ¿Qué observan respecto de la significatividad de las variables dummy?
Para evaluar las variables dummies hay que realizar test de hipotesis sobre cada coeficiente.

Tabla 3: coeficientes de lsa variables dummies.

Frente a los resultados del test de hipotesis observados en la tabla 3 no podemos rechazar la hipotesis nula y los coeficientes son distintos de cero. Sin embargo podemos hacer un gran diferencia entre aproperty_type y l3. Muchos barrios no tienen un coeficiente muy alto y sin embargo tenemos significativdad para utilizarlos como variables explicativas pueden no tener tanta información.

iii. Medidas de evaluación del modelo.

Antes de analizar la significativdad de cada variable hay que mirar el resultado del test F que envalúa la significatividad conjunta de las variables para explicar a la respuesta. Si la observamos vemos que es un valor alto (2568 on 62) y el pvalor es un valor ceracno a cero, por lo tanto las variables son significativas de forma conjunta a nivel alfa 0,05. .
Luego observamos el coeficiente R ajustado en un valor aprox de 0.77 considerando al modelo cómo adecuado. Dicho coeficiente representa la proporción por la cual la variable predicha es explicada por nuestro modelo.


c. ¿Qué es preferible tener para vender?:

i. un departamento de 120 mts cuadrados cubiertos en Abasto, con 3 dormitorios y 2 baños.
ii. Un PH en balvanera, con 80 mts cuadrados cubiertos, 20 mts cuadrados no cubiertos, 2 dormitorios y 3 baños.

# Predicción para i
predict(prop_lm1, data.frame(l3="Abasto",rooms=3,bathrooms=2,surface_covered=120,property_type="Departamento", surface_total=120))
       1 
324596.4 
# Predicción para ii
predict(prop_lm1, data.frame(l3="Balvanera",rooms=2,bathrooms=3,surface_covered=80,property_type="PH", surface_total=100))
       1 
215267.6 

Dado los valores de mts cuadrados, dormitorios y baños. un departamento del barrio Abasto tendrán un precio medio mayor que uno de Balvanera, por lo tanto es preferible tener la opción i para vender


d. Realizar un modelo sin la covariable l3 e interpretar sus resultados (todas las partes de la salida que consideren relevantes).

summary(prop_lm2)

Call:
lm(formula = price ~ rooms + bathrooms + surface_total + surface_covered + 
    property_type, data = prop)

Residuals:
    Min      1Q  Median      3Q     Max 
-518799  -36177   -9643   25740  724251 

Coefficients:
                            Estimate Std. Error t value Pr(>|t|)    
(Intercept)               -131096.86    2750.50  -47.66   <2e-16 ***
rooms                      -13348.53     519.02  -25.72   <2e-16 ***
bathrooms                   42664.68     756.37   56.41   <2e-16 ***
surface_total                 877.03      27.59   31.79   <2e-16 ***
surface_covered              1783.80      33.53   53.21   <2e-16 ***
property_typeDepartamento  135177.47    2513.93   53.77   <2e-16 ***
property_typePH             68598.52    2677.46   25.62   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 79210 on 45897 degrees of freedom
Multiple R-squared:  0.6832,    Adjusted R-squared:  0.6831 
F-statistic: 1.649e+04 on 6 and 45897 DF,  p-value: < 2.2e-16

Lo primero a analizar es el estadístico F y el p valor, en el cual analizamos que el F es aún mayor que el anterior y el valor p sigue en un valor cercano a cero. Luego vemos en particular cada coeficiente, tanto las variables continuas como las categoricas son significativas. El R ajustado por otro lado disminuyo de 0.77 a 0.68 en el modelo nuevo.

e. ¿Cuál es el modelo que mejor explica la variabilidad del precio?
El primer modelo que posee la variable de la zona posee un mayor r cuadrado ajustado, por lo tanto explica mejor la variabilidad del precio que el segundo modelo.

2 Creación de variables

a. En el ejercicio anterior encontramos que algunos barrios son significativos, aunque no todos. Crear una nueva variable barrios que divida a los barrios según el precio por metro cuadrado promedio de las propiedades en ellos, con los grupos c(‘alto’, ‘medio’, ‘bajo’). Realizar un análisis exploratorio para definir los puntos de corte de la nueva variable y explicar los criterios utilizados en la construcción de la misma.

Se observa en el histograma 1 y el boxplot 1, que la mayoría de los casos se encuentra concentrados alrededor de 2500USD por metro cuadrado. Por lo tanto determino que los valores Por bajo este valor serán el bin “Bajo”, Medio tomaré cómo límite hasta el tercer cuartil 3207 y por encima al valor alto.

b. Calcular el modelo que predice el precio en función de las nuevas covariables e interpretar sus resultados (todas las partes de la salida que consideren relevantes).

glimpse(prop)
Observations: 45,904
Variables: 11
Groups: l3 [57]
$ id              <chr> "AfdcsqUSelai1ofCAq2B0Q==", "ESzybdH7YU2uIU1/kHtRGw=...
$ l3              <fct> Velez Sarsfield, Nuñez, Almagro, Almagro, Almagro, A...
$ rooms           <dbl> 3, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 3, 1, 1, 2...
$ bathrooms       <dbl> 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1...
$ surface_total   <dbl> 95, 44, 40, 49, 40, 40, 40, 49, 40, 40, 40, 32, 40, ...
$ surface_covered <dbl> 69, 38, 37, 44, 37, 37, 37, 44, 37, 37, 37, 30, 34, ...
$ price           <dbl> 199900, 147000, 92294, 115000, 77000, 88900, 88798, ...
$ property_type   <fct> Casa, Departamento, Departamento, Departamento, Depa...
$ price_mts       <dbl> 2104.211, 3340.909, 2307.350, 2346.939, 1925.000, 22...
$ mean_price      <dbl> 1831.980, 3212.144, 2472.049, 2472.049, 2472.049, 24...
$ barrios         <fct> bajo, alto, medio, medio, medio, medio, medio, medio...
summary(prop_lm3)

Call:
lm(formula = price ~ barrios + rooms + bathrooms + surface_total + 
    surface_covered + property_type, data = prop)

Residuals:
    Min      1Q  Median      3Q     Max 
-427740  -35811   -5227   25355  681886 

Coefficients:
                           Estimate Std. Error t value Pr(>|t|)    
(Intercept)               -42011.99    2603.42  -16.14   <2e-16 ***
barriosbajo               -98160.19     993.03  -98.85   <2e-16 ***
barriosmedio              -62104.73     758.61  -81.87   <2e-16 ***
rooms                      -7631.29     467.91  -16.31   <2e-16 ***
bathrooms                  36638.88     680.15   53.87   <2e-16 ***
surface_total                929.85      24.71   37.63   <2e-16 ***
surface_covered             1530.56      30.12   50.81   <2e-16 ***
property_typeDepartamento  97709.34    2280.28   42.85   <2e-16 ***
property_typePH            49497.03    2405.16   20.58   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 70940 on 45895 degrees of freedom
Multiple R-squared:  0.7459,    Adjusted R-squared:  0.7459 
F-statistic: 1.684e+04 on 8 and 45895 DF,  p-value: < 2.2e-16

tabla 4: variables dummies para la categoría del barrio.

Se generó un nuevo modelo lineal múltiple con dos variables categóricas property_type y barrios que clasifica a los mismos según el precio por metro cuadrado promedio. El nivel de referencia esta dado por una propiedad tipo casa para la variable del tipo de propiedad y un barrio de precio alto para la variable correspondiente al precio medio de la zona. Los coeficientes estimados para las varaibles barrios bajo y barrios medio son negativos. Esto determina que manteniendo todo fijo, tanto barrios medio como barrios bajo disminuyen el valor medio del precio con respecto al de referencia.

El test F indica significancia conjunta de las variables y para todos los coeficientes se observa un p-valor cercano a cero. El R cuadrado ajustado es mayor en este modelo que en los anteriores y es de 75%.

c. ¿Qué modelo explica mejor la variabilidad de los datos, el que utiliza la variable l3 o el que utiliza barrios? En su opinión, ¿Qué modelo es más útil? ¿Por qué?
El valor de r cuadrado ajustado del modelo 1 y del modelo 3 que incluyen la variable barrios son: 0.776 vs. 0.746. La diferencia de explicatividad no parece ser tan significativa en relación a la cantidad de variables que estoy perdiendo con el modelo 1. Sin embargo dependerá del tipo de estudio elegir el modelo en función de la investigación.
En lo que es este trabajo el modelo 3 posee una informacion de resumen del barrio clasificado como “bajo”, “medio” o “alto” y a su vez permite entender la determinación del precio en función de las caracteristicas del edificio.

d. La interpretación de los coeficientes de las variables surface_covered y surface_total puede ser un poco problemática ya que se encuentran correlacionadas. Entonces, podemos construir una nueva variable surface_patio para la diferencia entre ambas superficies:

i. Construir una nueva variable surface_patio. Dado que algunos registros pueden contener la contradicción de que surface_total < surface_covered, explicitar cómo se procede para dichos casos.

ii. Calcular nuevamente el modelo lineal para todas las covariables previas (excepto surface_total), surface_covered y surface_patio e interpretar los coeficientes de estas dos últimas variables.

summary(prop_lm4)

Call:
lm(formula = price ~ barrios + rooms + bathrooms + surface_patio + 
    surface_covered + property_type, data = prop)

Residuals:
    Min      1Q  Median      3Q     Max 
-427740  -35811   -5227   25355  681886 

Coefficients:
                           Estimate Std. Error t value Pr(>|t|)    
(Intercept)               -42011.99    2603.42  -16.14   <2e-16 ***
barriosbajo               -98160.19     993.03  -98.85   <2e-16 ***
barriosmedio              -62104.73     758.61  -81.87   <2e-16 ***
rooms                      -7631.29     467.91  -16.31   <2e-16 ***
bathrooms                  36638.88     680.15   53.87   <2e-16 ***
surface_patio                929.85      24.71   37.63   <2e-16 ***
surface_covered             2460.42      15.91  154.61   <2e-16 ***
property_typeDepartamento  97709.34    2280.28   42.85   <2e-16 ***
property_typePH            49497.03    2405.16   20.58   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 70940 on 45895 degrees of freedom
Multiple R-squared:  0.7459,    Adjusted R-squared:  0.7459 
F-statistic: 1.684e+04 on 8 and 45895 DF,  p-value: < 2.2e-16

En el nuevo modelo lineal, el nivel de referencia se conforma con una propiedad del tipo casa para la variable property_type y un barrio de precio promedio alto para barrios. El coeficiente dw surface_patio determina que manteniendo todas las demás variables fijas, al aumentar el valor medio el precio aumentará 929 USD. En cambio el aumento del precio de surface_covered es de 2460 USD. Con respecto al modelo anterior, el coeficiente estimado de la superficie cubierta aumentó y el r cuadrado ajustado se mantiene en el mismo valor.

3 Evaluación del modelo

a. Analizar los residuos del modelo elaborado en 2.d.

Observano la distribución de los residuos observamos que se agrupan alrededor del valor cero. El valor de la media es de 4.406828e-08- .

mean(prop$resid)
[1] 4.406828e-08

En la figura 2 de residuos vs prediccion y en la figura 4 conlos residuos estandarizados vemos que la forma supone heterocedasticidad, en tanto para cada valor de X la varianza de los residuos cambian. En la figura 3 (QQPlot) se observa a los residuos desviandose en los extremos y en la figura 5 vemos que los residuos estandarizados en funcion del leverage muestra a los puntos concentrados en un nivle bajo, es decir, poco influyente.

Podemos determinar que no se cumplen los supuestos del modelo linean. Sin embargo se puede hacer una transformación o aplicar un modelo robusto.

b. Calcular el modelo

\(\begin{aligned}\log(price) = \beta_{0}+\beta_{1}.\log(rooms)+\beta_{2}.\log(bathrooms)+\beta_{3}.\log(surface\_covered)\\+\beta_{4}.property\_type+\beta_{5}.barrio+\beta_{6}.surface\_patio\end{aligned}\)

Comparar la performance del modelo de 2.d con éste, tanto en términos de la variabilidad explicada cómo de su relación con los supuestos del modelo lineal. Re-interpretar los parámetros del modelo.

Para aplicar logratimo, reemplazo todos los valores distintos de cero de las variables continuas.

summary(prop_lm5)

Call:
lm(formula = log(price) ~ barrios + log(rooms) + log(bathrooms) + 
    surface_patio + log(surface_covered) + property_type, data = prop1)

Residuals:
     Min       1Q   Median       3Q      Max 
-1.34665 -0.14810 -0.01394  0.13791  1.30682 

Coefficients:
                            Estimate Std. Error  t value Pr(>|t|)    
(Intercept)                8.869e+00  2.283e-02  388.445  < 2e-16 ***
barriosbajo               -4.401e-01  3.811e-03 -115.478  < 2e-16 ***
barriosmedio              -2.366e-01  2.832e-03  -83.528  < 2e-16 ***
log(rooms)                 3.514e-03  4.464e-03    0.787    0.431    
log(bathrooms)             1.658e-01  4.396e-03   37.715  < 2e-16 ***
surface_patio              3.008e-03  9.436e-05   31.875  < 2e-16 ***
log(surface_covered)       7.729e-01  5.540e-03  139.512  < 2e-16 ***
property_typeDepartamento  2.275e-01  8.432e-03   26.981  < 2e-16 ***
property_typePH            5.479e-02  8.996e-03    6.090 1.14e-09 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.2242 on 32645 degrees of freedom
Multiple R-squared:  0.8177,    Adjusted R-squared:  0.8176 
F-statistic: 1.83e+04 on 8 and 32645 DF,  p-value: < 2.2e-16

El R cuadrado ajustado del modelo es el mayor respecto a los anteriores, ubicandose en un valor del 81,76%, mayor al obtenido anteriormente de aproximadamente 75% de la variabilidad de price

Para este modelo la variable de referencia es casa para la variable tipo de propiedad y una zona de precio alto para la variable barrios. Si observo los T-Test individuales se observa que la variable log(rooms) no es una variable respuesta a log(price) a nivel alfa 0.05. El resto de las variables siguen cayendo dentro de la zona de sinigficatividad

# Promedio de residuos
mean(prop1$resid)
[1] 1.761914e-13

En la figura 7: distribución de residuos, se observa que con la transformacion logaritmica los residuos se distribuyen de una manera más uniforme a lo largo del eje X. En la figura8: QQ-Plot con los datos transformados, podemos observar una mayor correspondencia con el modelo normal.

Con la transformación logaritmica observamos que se cumple con los supuestos del modelo lineal. Por otro lado el R cuadrado ajustado aumenta de 74,6% a 81,7% del modelo anterior respecto al modelo con transformación logaritmica. Por lo tanto sería el modelo a considerar cómo válido. Otro punto a considerar es que todos los coeficientes se mantienen cómo significativos individualmente y de manera global por el estadistico F.

El valor del intercept no tiene sentido real dado que todas las variables deberían tomar valor cero.

En el modelo anterior tmb teniamos como nivel de referencia una propiedad del tipo “Casa” para la variable property_type y un barrio de precio promedio alto para barrios. Sin embargo el aumento del precio frente a un aumento de surface_covered se esperaba que el precio aumentara 2460 USD. Dado el texto de Wooldrige, la transformación logaritmica de este modelo nos plantea el analisis en término de elasticidades, esto significa que el coeficiente ya no es un monto absoluto, sino relativo a la variable dependiente. En la transformación surface_covered tiene cómo coeficiente 0,75, esto quiere decir que manteniendo constantes el resto de las variables, un aumento de 1% en los m2 de superficie cubierta aumentará un 0,75% el precio esperado de la vivienda.

En el caso del coeficiente de log(rooms) su valor es de -0.03%, lo cual significa que frente a un aumento de 100% de la cantidad de cuartos el precio disminuye en 3%. En cambio cómo el coeficiente de log(bathrooms) es 0,165 un aumento de 100% en la cantidad de baños, determina un aumento de 16% en el precio esperado. Es decir, para el caso de las variables contínuas (a las cuales se les aplicó la transformación logarítmica, los coeficientes pueden interpretarse cómo el porcentaje de aumento en el precio medio esperado al aumentar 1% la variable explicativa y manteniendo el resto fijas

En el caso de surface_patio (la cual no fue transformada), su coeficiente multiplicado puede interpretarse como el poecentaje de aumento en el precio medio al aumentar en una unidad de la variable y mantener fija las demás. Es decir, aumentaría un 3% el valor esperado del precio al aumentar una unidad de la superficie cubierta de patio.

4 Dataframes anidados

a. Anidar por la variable property_type.

b. Construir para cada tipo de propiedad el modelo de 2.d e interpretar los resultados en cada caso. Qué diferencias encuentran entre los distintos modelos?

Casa, departamento y PH presentan el mismo nivel de referencia, una propiedad en una zona de precio por metro cuadrado promedio alto. En los tres casos barrios bajo y barrios medio tiene un coeficiente estimado negativo respecto al nivel de referencia.

El coeficiente de superficie cubierta representa un aumento en el precio medio. Si fijo las demás variables en el caso de departamentos veo que duplica y casi triplica a Ph´s y casas.

La variabilidad de la respuesta explicada por cada modelo es aproximadamente 59% para casa, 77% para departamento y 69% para PH; ninguno supera al modelo anterior con la transformación logarítmica. Los desvios aumentan dado que ahora tenemos un modelo más complejo.

