Librerias

library(skimr)
library(data.table)
library(tidyverse)
library(purrr)
library(dplyr)
library(ggplot2)
library(GGally)
library(corrr)
library(knitr)
library(kableExtra)

Funciones

#Imprime en consola la cantidad de filas y columnas de un data frame.
printShape<-function(df) {
  print(paste('#Filas: ',dim(df)[1]))
  print(paste('#Columnas: ',dim(df)[2]))
}

#Devuelve un data frame con las estadisticas descriptivas de un vector númerico.
getEstadisticas <- function(vec){
  promedio<-mean(vec)
  maximo<-max(vec)
  minimo<-min(vec)
  cuantiles<-t(quantile(vec))
  data.frame(promedio,maximo,minimo,cuantiles)
}

Variables Globales

kable_options<-c("striped", "hover", "condensed", "responsive")

Preparación de Datos - I

Leer el archivo ar_properties.csv y mostrar su estructura. Quedarse con aquellos registros que:

  • Pertenecen a Argentina y Capital Federal
  • Cuyo precio esta en dolares (USD)
  • El tipo de propiedad sea: Departamento, PH o Casa
  • El tipo de operacion sea Venta

Luego seleccionar las variables id, l3, rooms, bedrooms, bathrooms, surface_total, surface_covered, price y property_type.

El dataset tiene 15 variables de tipo string, 2 variables numéricas, 6 de tipo enteras y una booleana. En realidad la variable l6 la toma como booleana porque no se tiene ningún dato para ningún registro.
Se observa que las features l4, l5 y bedrooms son las que más cantidad de missing tienen. Los nombres de las variables no son muy descriptivas pero de acuerdo a su contenido se puede ver que la variable l1 indica el pais de la propiedad, l2 el estado o provincia, l3 la localidad o municipio, l4 el nombre del barrio o localidad y l5 indica el nombre del barrio.
Se puede destacar que la variable price tiene gran variabilidad en sus valores y eso debe a que depende de los distintos tipos de operacion(venta, Alquiler, Alquiler Temporal), a las diferentes monedas en que se registran los precios y los distintos periodos de precio(Diario, Mensual, Semanal) que se tienen.
propiedades<-fread("ar_properties.csv", header = TRUE, sep = ',')

#Analizar estructura
printShape(propiedades)
[1] "#Filas:  388891"
[1] "#Columnas:  24"
skim_with(numeric = list(median = median, hist = NULL),
          integer = list(median = median, n_unique = n_unique, hist = NULL)
          )

desc <- as.data.table(skim_to_wide(propiedades))
unique(desc$type)
[1] "character" "integer"   "logical"   "numeric"  
desc[type == "character", c("variable", show_skimmers("character")[[1]])] %>%
  kable() %>% 
  kable_styling(bootstrap_options = kable_options)

variable missing complete n min max empty n_unique
ad_type 0 388891 388891 9 9 0 1
created_on 0 388891 388891 10 10 0 180
currency 28994 359897 388891 3 3 0 4
end_date 0 388891 388891 10 10 0 236
id 0 388891 388891 24 24 0 388891
l1 0 388891 388891 6 14 0 4
l2 0 388891 388891 5 29 0 41
l3 12771 376120 388891 4 35 0 989
l4 273380 115511 388891 3 41 0 842
l5 386485 2406 388891 5 28 0 21
operation_type 0 388891 388891 5 17 0 3
price_period 161189 227702 388891 6 7 0 3
property_type 0 388891 388891 2 15 0 10
start_date 0 388891 388891 10 10 0 180
title 0 388891 388891 1 266 0 225414

desc[type == "numeric", c("variable", show_skimmers("numeric")[[1]])] %>%
  kable() %>% 
  kable_styling(bootstrap_options = kable_options)

variable missing complete n mean sd p0 p25 p50 p75 p100 median
lat 50597 338294 388891 -34.48 2.88 -54.98 -34.67 -34.6 -34.43 44.67 NA
lon 50597 338294 388891 -59.37 2.72 -105.27 -58.8 -58.48 -58.4 -41.9 NA

desc[type == "integer", c("variable", show_skimmers("integer")[[1]])] %>%
  kable() %>% 
  kable_styling(bootstrap_options = kable_options)

variable missing complete n mean sd p0 p25 p50 p75 p100 median n_unique
bathrooms 94136 294755 388891 1.67 1.08 1 1 1 2 20 NA 20
bedrooms 230747 158144 388891 2.16 2.73 -2 1 2 3 390 NA 56
price 21222 367669 388891 268955.05 4757708.72 0 20000 94000 225000 2.1e+09 NA 10229
rooms 144668 244223 388891 2.9 1.67 1 2 3 4 40 NA 31
surface_covered 97854 291037 388891 235.01 12501.36 -139 43 70 142 4e+06 NA 1978
surface_total 74063 314828 388891 458.28 3932.54 -3 50 91 266 2e+05 NA 4010

desc[type == "logical", c("variable", show_skimmers("logical")[[1]])] %>%
  kable() %>% 
  kable_styling(bootstrap_options = kable_options)

variable missing complete n mean count
l6 388891 0 388891 NaN 388891


#Filtrar datos de acuerdo a consigna
prop_selected<-propiedades %>% filter( l1=='Argentina' & l2=='Capital Federal')
prop_selected<-prop_selected %>% filter( currency=='USD')
prop_selected<-prop_selected %>% filter( property_type %in%c('Casa','Departamento','PH') )
prop_selected<-prop_selected %>% filter( operation_type =='Venta')
prop_selected<-prop_selected[, c('id', 'l3', 'rooms', 'bedrooms', 'bathrooms', 'surface_total', 'surface_covered', 'price', 'property_type')]
printShape(prop_selected)
[1] "#Filas:  61905"
[1] "#Columnas:  9"

Análisis Exploratorios - I

Se utilizan las funciones de la libreria purr para obtener #de NA y #de valores únicos de cada variable y la libreria corrr para graficar matriz de correlación.
Se observa una fuerte correlacion entre rooms y bedrooms siendo esta última la feature con más missing. Tambien se ve una relacion fuerte entre surface_total y surface_covered dado que una esta inlcuida en la otra.
#Contar NA y Unique
na<-prop_selected %>%
  map_dbl(function(x) sum(is.na(x)))
uni<-prop_selected %>%
  map_dbl(function(x) length(unique(x)))

resultado<-rbind(na, uni)

rownames(resultado)<-c('#NA','#Unique')

resultado %>% 
  kable() %>% 
  kable_styling(bootstrap_options = kable_options)

id l3 rooms bedrooms bathrooms surface_total surface_covered price property_type
#NA 0 355 5314 25298 3196 3671 2975 0 0
#Unique 61905 58 24 25 15 671 573 4095 3


#Matriz de Correlacion
prop_selected[, 3:8] %>% 
 correlate(use = 'pairwise.complete.obs', method = 'pearson') %>% 
   shave() %>% 
   fashion()

Correlation method: 'pearson'
Missing treated using: 'pairwise.complete.obs'

Preparación de Datos - II

Eliminar variable bedrooms y las filas con NAs.

prop_selected$bedrooms<-NULL
prop_selected<-na.omit(prop_selected)
printShape(prop_selected)
[1] "#Filas:  51210"
[1] "#Columnas:  8"

Análisis Exploratorios - II

Obterner estadísticas descriptivas, histograma, boxplot y correlograma.
La distribución de la variale precio con respecto al tipo de propiedad es asimétrica positiva. Los precios de los Departametnos y Casa presentan valores atípicos muy altos. La varianza de las propiedades de tipo Casa pareciera ser sutilmente más grande que la de los otros dos tipos.
En el correlograma se observa una correlación entre:

  • surface_total y surface_covered
  • rooms y bathrooms
  • price y bathrooms
  • price y rooms

getEstadisticas(prop_selected$price)

prop_selected$property_type<- as.factor(prop_selected$property_type)

pricextype<-prop_selected %>%
  group_split(property_type) %>% 
  map_dfr(function(x) getEstadisticas(x$price))
rownames(pricextype)<-unique(prop_selected$property_type)

pricextype %>%
  kable() %>% 
  kable_styling(bootstrap_options = kable_options)

promedio maximo minimo X0. X25. X50. X75. X100.
Casa 434188.8 5000000 20000 20000 235000 335000 490000 5000000
Departamento 246855.7 6000000 6000 6000 115000 164000 260000 6000000
PH 218747.4 1500000 32000 32000 137000 190000 270000 1500000


ggplot(data = prop_selected, aes(prop_selected$price, color = property_type))+
  geom_histogram() +
  labs(title = "Histograma de Precios por tipo de Propiedad", x="Precio", y="Frecuencia")+
  theme(legend.position = 'none')+
  facet_wrap(~property_type)


ggplot(prop_selected, aes(x = property_type, y = price, group = property_type, fill = property_type )) +
  geom_boxplot()+
  labs(title = "Boxplot Precios vs Tipo de Propiedad", x="Tipo de Propiedad", y="Precio")


ggcorr(prop_selected, layout.exp = 2) + labs(title='Correlograma variables cuantitativas')
data in column(s) 'id', 'l3', 'property_type' are not numeric and were ignored

Outliers

Eliminar outliers de la variable precio. Se crea una nueva variable para obtener el precio por metro cuadrado y se analizan las estadisticas descriptivas de ésta para establecer los valores de corte. Además se utiliza las tasaciones online de los barrios de la capital para fijar una cota inferior de 700 y una cota superior de 10000. Se encontraron 320 outliers.
Se observan registros que tienen mal cargados los metros cuadrados de la superficie, otros que tienen el precio de referente a un alquiler en lugar de una venta.


sin_outliers<-prop_selected %>%
  mutate(pricexsurface=price/surface_total)

getEstadisticas(sin_outliers$pricexsurface)

sin_outliers$in_=sin_outliers$pricexsurface>700 & sin_outliers$pricexsurface<10000

print(paste('Cantidad de Outliers encontrados: ',sum(sin_outliers$in_==FALSE))) 
[1] "Cantidad de Outliers encontrados:  320"
sin_outliers<-sin_outliers %>% filter(in_==TRUE)
sin_outliers[,9]<-NULL
sin_outliers<-as.data.frame(sin_outliers)
printShape(sin_outliers)
[1] "#Filas:  50890"
[1] "#Columnas:  9"

Análisis Exploratorios - III

Repertir análisis sin outliers.
Se siguen observando outliers, los rangos intercuartiles permanecieron sutilmente similares y los graficos del histograma y boxplot tambien se asemejan al análisis anterior. Se presencia un porcentaje menor de valores atípicos y además se ajustó el valor mínimo. El cambio que más se destacó es en el gráfico del correlograma donde pareciera que las variables cuantitativas estan más relaciones entre todas.


getEstadisticas(sin_outliers$price)

pricextype<-sin_outliers %>%
  group_split(property_type) %>% 
  map_dfr(function(x) getEstadisticas(x$price))
rownames(pricextype)<-c('Casa','Depto','PH')

pricextype %>%
  kable() %>% 
  kable_styling(bootstrap_options = kable_options)

promedio maximo minimo X0. X25. X50. X75. X100.
Casa 441583.5 5000000 62000 62000 244900 340000 499000 5000000
Depto 242785.4 5800000 12000 12000 115000 163590 260000 5800000
PH 219273.0 1500000 45000 45000 138000 194500 274000 1500000


ggplot(data = sin_outliers, aes(sin_outliers$price, color = property_type))+
  geom_histogram() +
  labs(title = "Histograma de Precios por tipo de Propiedad", x="Precio", y="Frecuencia")+
  theme(legend.position = 'none')+
  facet_wrap(~property_type)


ggplot(sin_outliers, aes(x = property_type, y = price, group = property_type, fill = property_type )) +
  geom_boxplot()+
  labs(title = "Boxplot Precios vs Tipo de Propiedad", x="Tipo de Propiedad", y="Precio")


ggcorr(sin_outliers, layout.exp = 2) + labs(title='Correlograma variables cuantitativas')
data in column(s) 'id', 'l3', 'property_type', 'in_' are not numeric and were ignored

Modelo Lineal

Se analizan las salidas de ambos modelos luego de aplicar el modelo lineal simple de R.
El p-valor en ambos modelos para ambos coeficientes estimados es pequeño lo que indica que se puede considerar un modelo lineal y que el precio se relaciona con cada una de las variables de cada modelo. Se observa que el desvio estandar de error de los coefcientes son más bajos en el segundo modelo(surface_total) que en el primero.
El 28% de la variabilidad observada en los precios queda explicada por la relacion lineal entre el precio y rooms.
El 53% de la variabilidad observada en los precios queda explicada por la relacion lineal entre el precio y surface_total.

El valor intercept(\(\beta_0\)) -43616,80 en el primero modelo es el valor promedio de una propiedad sin ninguna habitación. Este valor no tiene sentido ya que no se encuentra dentro de los rangos validos de nuestro modelo. El \(\beta_1\) indica en promedio que una propiedad aumenta USD 104425,2 por cada habitación que se agrega.
En el caso del segundo modelo, el valor intercept(\(\beta_0\)) 18810,54 es el valor promedio de una propiedad con superficie 0. Este valor tampoco tiene sentido. El \(\beta_1\) nos indica que una propiedad aumenta en promedio USD 2537,67 por cada metro cuadrado.
En base a lo expuesto anteriormente el segundo modelo seria el mejor de ambos.

# Se quiere explicar el precio de las propiedades en base a la cant de habitaciones de las mismas.
# Y: los precios de las propiedades
# X: la cantidad de habitaciones de la propiedad
modelo_rooms=lm(price~rooms, data=sin_outliers)

summary(modelo_rooms)

Call:
lm(formula = price ~ rooms, data = sin_outliers)

Residuals:
     Min       1Q   Median       3Q      Max 
-2697989   -94659   -30234    39341  5008215 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) -43616.8     2272.8  -19.19   <2e-16 ***
rooms       104425.2      729.3  143.18   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 227300 on 50888 degrees of freedom
Multiple R-squared:  0.2872,    Adjusted R-squared:  0.2872 
F-statistic: 2.05e+04 on 1 and 50888 DF,  p-value: < 2.2e-16
ggplot(sin_outliers, aes(rooms, price)) +
  geom_abline(aes(intercept = modelo_rooms$coefficients[1], slope = modelo_rooms$coefficients[2]), data = modelo_rooms, colour = "blue") +
  labs(title = "Precio versus Rooms con Recta ajustada por mínimos cuadrados.")+
  geom_point()


# Y: los precios de las propiedades
# X: la superficie total de la propiedad
modelo_surface=lm(price~surface_total, data=sin_outliers)

summary(modelo_surface)

Call:
lm(formula = price ~ surface_total, data = sin_outliers)

Residuals:
     Min       1Q   Median       3Q      Max 
-2698908   -43382   -12578    21844  4063187 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)   18810.54    1256.67   14.97   <2e-16 ***
surface_total  2537.67      10.57  240.12   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 184300 on 50888 degrees of freedom
Multiple R-squared:  0.5312,    Adjusted R-squared:  0.5312 
F-statistic: 5.766e+04 on 1 and 50888 DF,  p-value: < 2.2e-16
ggplot(sin_outliers, aes(surface_total, price)) +
  geom_abline(aes(intercept = modelo_surface$coefficients[1], slope = modelo_surface$coefficients[2]), data = modelo_surface, colour = "blue") +
  labs(title = "Precio versus Surface_total con Recta ajustada por mínimos cuadrados.")+
  geom_point()

