Alumno: Tomás Ariel D’Amelio

mail: dameliotomas@gmail.com

Cargo librerias necesarias para la realización del presente trabajo práctico
library(tidyverse)
library(openintro)
library(GGally)
library(corrr)
library(knitr)
library(kableExtra)
library(ggplot2)
library(purrr)

1. Preparación de los datos

a. Leer el archivo ar_properties.csv y mostrar su estructura

propiedades <- read.csv(file="C:/Users/tomas/Desktop/Maestria/EEA/DiegoKoz-EEA2019-c64a28c/trabajos_practicos/TP-1/ar_properties/ar_properties.csv", header=TRUE, sep=",")
glimpse(propiedades)
Observations: 388,891
Variables: 24
$ id              <fct> S0we3z3V2JpHUJreqQ2t/w==, kMxcmAS8NvrynGBVbMOEa...
$ ad_type         <fct> Propiedad, Propiedad, Propiedad, Propiedad, Pro...
$ start_date      <fct> 2019-04-14, 2019-04-14, 2019-04-14, 2019-04-14,...
$ end_date        <fct> 2019-06-14, 2019-04-16, 9999-12-31, 9999-12-31,...
$ created_on      <fct> 2019-04-14, 2019-04-14, 2019-04-14, 2019-04-14,...
$ lat             <dbl> -34.94331, -34.63181, NA, -34.65471, -34.65495,...
$ lon             <dbl> -54.92966, -58.42060, NA, -58.79089, -58.78712,...
$ l1              <fct> Uruguay, Argentina, Argentina, Argentina, Argen...
$ l2              <fct> Maldonado, Capital Federal, Bs.As. G.B.A. Zona ...
$ l3              <fct> Punta del Este, Boedo, NA, Moreno, Moreno, Rosa...
$ l4              <fct> NA, NA, NA, Moreno, Moreno, NA, Ituzaingó, NA,...
$ l5              <fct> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA,...
$ l6              <lgl> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA,...
$ rooms           <int> 2, NA, 2, 2, 2, 4, NA, 6, NA, NA, NA, NA, NA, N...
$ bedrooms        <int> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA,...
$ bathrooms       <int> 1, NA, 1, 2, 3, 1, 3, 3, NA, NA, NA, NA, NA, NA...
$ surface_total   <int> 45, NA, 200, 460, 660, NA, 70, NA, 1300, 405, 3...
$ surface_covered <int> 40, NA, NA, 100, 148, 89, 122, NA, NA, NA, NA, ...
$ price           <int> 13000, 0, NA, NA, NA, NA, NA, NA, 0, NA, 0, NA,...
$ currency        <fct> UYU, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA...
$ price_period    <fct> Mensual, Mensual, NA, Mensual, Mensual, Mensual...
$ title           <fct> Departamento - Roosevelt, PH - Boedo, Ituzaingo...
$ property_type   <fct> Departamento, PH, Casa, Casa, Casa, Casa, Casa,...
$ operation_type  <fct> Alquiler, Venta, Alquiler, Venta, Venta, Venta,...

b. Quedarse con aquellos registros que:

i.Pertenecen a Argentina y Capital Federal

ii. Cuyo precio esta en dolares (USD)

iii.El tipo de propiedad sea: Departamento, PH o Casa

iv.El tipo de operacion sea Venta

df <- propiedades %>% 
  filter(l1=='Argentina' , l2 =='Capital Federal')  %>%  # punto i.
  filter(currency =='USD') %>% # punto ii.
  filter(property_type == 'Departamento' | property_type == 'PH' | property_type == 'Casa' ) %>% # punto iii.
  filter(operation_type == 'Venta') # punto iv.

c. Seleccionar las variables id, l3, rooms, bedrooms, bathrooms, surface_total, surface_covered, price y property_type

df <- df %>% 
  select (id, l3, rooms, bedrooms, bathrooms, surface_total, surface_covered, price, property_type)
cat("Hata este punto del TP, el dataset contiene", dim(df)[1], "filas y", dim(df)[2], "columnas" )
Hata este punto del TP, el dataset contiene 61905 filas y 9 columnas

2. Analisis exploratorios (I)

a. Obtener la cantidad de valores únicos y de valores faltantes (NAs) para cada una de estas variables

valores_unicos <- map(df, ~n_distinct(.))
valores_faltantes <- map(df, ~sum(is.na(.)))
valores_unicos_y_faltantes <- data.frame(valores_unicos)
valores_unicos_y_faltantes <- rbind(valores_unicos_y_faltantes, valores_faltantes)
rownames(valores_unicos_y_faltantes)[1:2] <- c("unicos", "faltantes")
valores_unicos_y_faltantes %>% 
  kable() %>% 
  kable_styling(bootstrap_options = c("striped", "hover", "condensed", "responsive"))
id l3 rooms bedrooms bathrooms surface_total surface_covered price property_type
unicos 61905 58 24 25 15 671 573 4095 3
faltantes 0 355 5314 25298 3196 3671 2975 0 0
Puede observarse que la variable bedrooms contiene una gran cantidad de datos faltantes (25.298). Es decir que más de un 40% de los datos para esta variable son datos faltantes.
No se reportan datos faltantes para la variable precio, ni tampoco para tipo de propiedad.
Hay tres tipos de propiedad, los cuales fueron mencionados anterioremente en el TP de acuerdo a los filtros realizados. Estos son: departamento, casa y PH.

b. Obtener la matriz de correlación para las variables numéricas.

df_num <- df %>% 
  select(-id, -l3, -property_type)
df_num %>%  
  correlate(use = "complete.obs") %>% 
  shave() %>% 
  fashion()

Correlation method: 'pearson'
Missing treated using: 'complete.obs'
A partir de esta matriz es posible observar que hay una fuerte correlación entre la variable bedrooms y la variable rooms ( r =0.92).
Del mismo modo, los coeficientes de correlacion fueron mayores entre la variable precio y las variables rooms ( r =0.49), bedrooms ( r =0.43) y bathrooms ( r =0.60) que en relacion a la variable superficie de la propiedad ( r =0.05) y la superficie cubierta ( r =0.06).

3. Preparacion de los datos (II)

a. En el punto 2 deberian haber encontrado que la variable bedrooms presenta una alta proporción de valores faltantes y que presenta una fuerte correlacion con la variable rooms. Por lo tanto, vamos a eliminarla.

df <- df %>% 
  select(-bedrooms)

b. Eliminar todos los registros que presentan valores faltantes

df2 <- df[complete.cases(df), ]
cantidad_datos_con_NA <- dim(df)-dim(df2)
cat("Fueron eliminados por presentar valores faltantes", cantidad_datos_con_NA [1], "registros.\nHasta este punto del TP, el dataset contiene", dim(df2)[1], "filas y", dim(df2)[2], "columnas" )
Fueron eliminados por presentar valores faltantes 10695 registros.
Hasta este punto del TP, el dataset contiene 51210 filas y 8 columnas

4. Analisis exploratorios (II)

a. Obtener estadísticas descriptivas para la variable precio (cuartiles, promedio, minimo y maximo) y realizar un histograma de la variable

df <- df2
histograma_precio <- function (x) {
  qplot(x$price,
      geom="histogram",
      main="Distribucion de los precios de las propiedades", 
      xlab="Precios (en dolares)",
      ylab="Cantidad",
      binwidth=50000,  
      fill=I("blue"), 
      alpha=I(.2),
      ....=c(20,50))
}
histograma_precio(df)
Ignoring unknown parameters: ....

summary(df$price)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   6000  119000  170000  251577  270000 6000000 
Al observar el histograma podemos ver una clara asimetria a derecha, acorde con el tipo de distribución de precios de inmuebles que se puede observar generalmente en el mercado.
Vemos ademas que el valor minimo de la propiedad es 6000 dolares, lo cual claramente no tiene sentido y se deba propablemente a un error de carga.

b. Obtener estadísticas descriptivas para la variable precio (cuartiles, promedio, minimo y maximo) por cada tipo de propiedad.

descriptivas <- function (x) {
  x %>% 
    group_by(property_type) %>% 
    summarise(Q1     = quantile(price, 0.25),
              Mediann= quantile(price, 0.5),
              Media  = mean    (price),
              Q3     = quantile(price, 0.75),
              Minimo = min     (price),
              Maximo = max     (price))
}
descriptivas(df)
Del mismo modo que se había mostrado previamente, los valores minimos se encuentran por fuera del rango veradero del valor de propiedades.
Otro dato importante a destacar es que la mediana de los precios de las casas es de USD 335.000, lo cual es ampliamente superior a la mediana de los precios de los departamentos (USD 164.000) y de los PH (USD 190.000)

c. Realizar un grafico de boxplot de la variable precio por tipo de propiedad

boxplot_precio <- function (x) { 
ggplot(x, aes(x = property_type, y = price, group = property_type, fill = property_type )) +
  labs(title = 'Precios segun el tipo de propiedad', x = 'Tipo de propiedad', y = 'Precio', fill = 'Tipo de propiedad') +
  geom_boxplot(alpha=0.2)
}
boxplot_precio(df)

En este boxplot puede verse que la mediana es mayor para los precios de las casas en comparacion con los departamentos y los PH.
Tambien puede verse que en los tres tipos de propiedades hay gran cantidad de valores que se alejan mas alla de 1.5 IQR. Sin embargo, no se usara esa métrica para descartar outliers, como se vera luego en el punto 5 de este TP.

d. Realizar un correlagrama usando GGAlly

correlagrama <- function (x) {
  x %>%
    select(-id, -l3) %>%
    ggpairs(., 
    title = "Correlograma segun tipo de propiedad",
    mapping = aes(colour= property_type))
}
correlagrama (df)

En primer lugar, aquello que puede verse es que la mayor cantidad de datos corresponde al tipo de propiedad “departamento”. Ademas, y adicionalmente a lo antes descripto, puede verse que los valores de correlación desglosado por tipo de propiedad son mucho mayores en comparación con las correlaciones globales entre las variables numéricas que componen este set de datos.

5. Outliers

a. Eliminar los outliers de la variable precio con algún criterio que elijan: puede ser por valores de corte, eliminar el x% a izquierda y derecha,etc.

Se eligió como criterios de corte no en relación al precio absoluto, sino al valor del metro cuadrado. Así, si estableció valor mínimo del metro cuadrado 1.000 USD y como valor maximo 20.000 USD
df2 <- df %>% 
  mutate(metro_cuadrado = price/surface_total) %>% 
  filter(metro_cuadrado >= 1000, metro_cuadrado <= 20000)
cantidad_outliers <- dim(df)-dim(df2)
cat("Fueron detectados y eliminados como outliers", cantidad_outliers[1], "casos")
Fueron detectados y eliminados como outliers 860 casos

6. Analisis exploratorios (III)

a. Repetir los 4 análisis exploratorios realizados en el punto 4 y realizar unos breves comentarios sobre los cambios que encontraron

summary(df2$price)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  24000  119000  170000  251614  270000 6000000 
histograma_precio(df2)
Ignoring unknown parameters: ....

descriptivas(df2)
boxplot_precio(df2)

correlagrama(df2)

Puede observarse que hay un aumento en el valor mínimo del precio de las propiedades (antes:USD 6.000 / ahora:USD 24.000), mientras el resto de los valores se mantienen relativamente constantes.
Si si realiza el desglose por tipo de propiedad, es posible observar un cambio a nivel de los valores mínimos de todos los tipos de propiedades:
- Casa –> antes: USD 20.000 / ahora: USD 62.000
- Departamento –> antes: USD 6.000 / ahora: USD 24.000
- PH –> antes: USD 32.000 / ahora: USD 45.000
Los boxplots desglozados por tipo de propiedad se mantuvieron practicamente sin cambios, lo cual da cuenta el metodo utilizado para detectar outliers y eliminarlos (relativo al metro cuadrado) es independiente de los valores que parecen outliers a partir de los valores absolutos de precios segun tipo de propiedad, posible de ser medidos por la distancias de 1.5 IQR. Finalmente, las correlaciones dan mas altas al quitar los outliers.

7. Modelo lineal

a. Realizar un modelo lineal simple para explicar el precio en función de las habitaciones (rooms) y otro modelo que explique el precio en función de la superficie total (surface_total)

Modelo1: “habitaciones”

modelo_rooms <- lm(price ~ rooms, data = df2)
summary(modelo_rooms)

Call:
lm(formula = price ~ rooms, data = df2)

Residuals:
     Min       1Q   Median       3Q      Max 
-2920646  -100166   -33322    42834  5387301 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) -58366.2     2519.6  -23.16   <2e-16 ***
rooms       111844.1      816.5  136.97   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 248500 on 50348 degrees of freedom
Multiple R-squared:  0.2715,    Adjusted R-squared:  0.2715 
F-statistic: 1.876e+04 on 1 and 50348 DF,  p-value: < 2.2e-16
ggplot2::ggplot(df2, ggplot2::aes(x=rooms, y=price)) +
                         ggplot2::geom_point(ggplot2::aes()) +
                         ggplot2::geom_smooth(method = "lm") +
                         ggplot2::labs(x = "Cantidad de habitaciones", 
                                       y = "Precio en dolares",
                                       title = "Modelo lineal simple de precio en funcion de habitaciones") 

Modelo2: “superficie”

modelo_superficie_total <- lm(price ~ surface_total, data = df2)
summary(modelo_superficie_total)

Call:
lm(formula = price ~ surface_total, data = df2)

Residuals:
     Min       1Q   Median       3Q      Max 
-2199237   -43180    -6536    25067  4245174 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)   -8113.99    1361.93  -5.958 2.57e-09 ***
surface_total  2938.23      11.85 247.991  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 195400 on 50348 degrees of freedom
Multiple R-squared:  0.5499,    Adjusted R-squared:  0.5498 
F-statistic: 6.15e+04 on 1 and 50348 DF,  p-value: < 2.2e-16

b. Usar la función summary() para obtener informacion de ambos modelos. Explicar los valores de los coeficientes estimados.

A continuacion se explicaran los valores de los coeficientes estimados.

El intercepto, o β0, dio para el primer modelo -58366.2 mientras que para el segundo modelo -8113.99 El intercepto no es posible ser interpretado, ya que no tiene sentido interpretar el valor que tomaria (según esta predicción)una propiedad en caso que tenga 0 cuartos, o si tuviera 0 metros cuadrados de superficie.

Aquello que si se puede interpretar es el β1, que para el modelo 1 significa cuanto aumentaría (según la prediccion de este modelo) el valor de la propiedad por cada cuarto extra que tiene (por cada cuarto extra el valor de la propiedad aumenta, segun este modelo, en USD 111844.1 ); y para el modelo 2 significa cuanto aumenta este valor por cada metro cuadrado extra de la misma (por cada metro cuadrado extra el valor de la propiedad aumenta, segun este modelo, en USD 2938.23)

c. ¿Cuál modelo usarían para predecir el precio? ¿Por qué?

Finalmente, utilizaria el modelo que toma como valor de entrada la superficie de la propiedad (modelo 2), teniendo en cuenta que el R-cuadrado es mayor (R2= 0.55)al modelo que toma como valor de entrada la cantidad de cuartos(R2=0.27).

