Librerias
library(skimr)
library(data.table)
library(tidyverse)
library(purrr)
library(dplyr)
library(ggplot2)
library(GGally)
library(corrr)
library(knitr)
library(kableExtra)
Funciones
#Imprime en consola la cantidad de filas y columnas de un data frame.
printShape<-function(df) {
print(paste('#Filas: ',dim(df)[1]))
print(paste('#Columnas: ',dim(df)[2]))
}
#Devuelve un data frame con las estadisticas descriptivas de un vector númerico.
getEstadisticas <- function(vec){
promedio<-mean(vec)
maximo<-max(vec)
minimo<-min(vec)
cuantiles<-t(quantile(vec))
data.frame(promedio,maximo,minimo,cuantiles)
}
Variables Globales
kable_options<-c("striped", "hover", "condensed", "responsive")
Preparación de Datos - I
Leer el archivo ar_properties.csv y mostrar su estructura. Quedarse con aquellos registros que:
- Pertenecen a Argentina y Capital Federal
- Cuyo precio esta en dolares (USD)
- El tipo de propiedad sea: Departamento, PH o Casa
- El tipo de operacion sea Venta
Luego seleccionar las variables id, l3, rooms, bedrooms, bathrooms, surface_total, surface_covered, price y property_type.
El dataset tiene 15 variables de tipo string, 2 variables numéricas, 6 de tipo enteras y una booleana. En realidad la variable
l6 la toma como booleana porque no se tiene ningún dato para ningún registro.
Se observa que las features
l4,
l5 y
bedrooms son las que más cantidad de missing tienen. Los nombres de las variables no son muy descriptivas pero de acuerdo a su contenido se puede ver que la variable
l1 indica el pais de la propiedad,
l2 el estado o provincia,
l3 la localidad o municipio,
l4 el nombre del barrio o localidad y
l5 indica el nombre del barrio. Se puede destacar que la variable
price tiene gran variabilidad en sus valores y eso debe a que depende de los distintos tipos de operacion(venta, Alquiler, Alquiler Temporal), a las diferentes monedas en que se registran los precios y los distintos periodos de precio(Diario, Mensual, Semanal) que se tienen.
propiedades<-fread("ar_properties.csv", header = TRUE, sep = ',')
#Analizar estructura
printShape(propiedades)
[1] "#Filas: 388891"
[1] "#Columnas: 24"
skim_with(numeric = list(median = median, hist = NULL),
integer = list(median = median, n_unique = n_unique, hist = NULL)
)
desc <- as.data.table(skim_to_wide(propiedades))
unique(desc$type)
[1] "character" "integer" "logical" "numeric"
desc[type == "character", c("variable", show_skimmers("character")[[1]])] %>%
kable() %>%
kable_styling(bootstrap_options = kable_options)
| variable |
missing |
complete |
n |
min |
max |
empty |
n_unique |
| ad_type |
0 |
388891 |
388891 |
9 |
9 |
0 |
1 |
| created_on |
0 |
388891 |
388891 |
10 |
10 |
0 |
180 |
| currency |
28994 |
359897 |
388891 |
3 |
3 |
0 |
4 |
| end_date |
0 |
388891 |
388891 |
10 |
10 |
0 |
236 |
| id |
0 |
388891 |
388891 |
24 |
24 |
0 |
388891 |
| l1 |
0 |
388891 |
388891 |
6 |
14 |
0 |
4 |
| l2 |
0 |
388891 |
388891 |
5 |
29 |
0 |
41 |
| l3 |
12771 |
376120 |
388891 |
4 |
35 |
0 |
989 |
| l4 |
273380 |
115511 |
388891 |
3 |
41 |
0 |
842 |
| l5 |
386485 |
2406 |
388891 |
5 |
28 |
0 |
21 |
| operation_type |
0 |
388891 |
388891 |
5 |
17 |
0 |
3 |
| price_period |
161189 |
227702 |
388891 |
6 |
7 |
0 |
3 |
| property_type |
0 |
388891 |
388891 |
2 |
15 |
0 |
10 |
| start_date |
0 |
388891 |
388891 |
10 |
10 |
0 |
180 |
| title |
0 |
388891 |
388891 |
1 |
266 |
0 |
225414 |
desc[type == "numeric", c("variable", show_skimmers("numeric")[[1]])] %>%
kable() %>%
kable_styling(bootstrap_options = kable_options)
| variable |
missing |
complete |
n |
mean |
sd |
p0 |
p25 |
p50 |
p75 |
p100 |
median |
| lat |
50597 |
338294 |
388891 |
-34.48 |
2.88 |
-54.98 |
-34.67 |
-34.6 |
-34.43 |
44.67 |
NA |
| lon |
50597 |
338294 |
388891 |
-59.37 |
2.72 |
-105.27 |
-58.8 |
-58.48 |
-58.4 |
-41.9 |
NA |
desc[type == "integer", c("variable", show_skimmers("integer")[[1]])] %>%
kable() %>%
kable_styling(bootstrap_options = kable_options)
| variable |
missing |
complete |
n |
mean |
sd |
p0 |
p25 |
p50 |
p75 |
p100 |
median |
n_unique |
| bathrooms |
94136 |
294755 |
388891 |
1.67 |
1.08 |
1 |
1 |
1 |
2 |
20 |
NA |
20 |
| bedrooms |
230747 |
158144 |
388891 |
2.16 |
2.73 |
-2 |
1 |
2 |
3 |
390 |
NA |
56 |
| price |
21222 |
367669 |
388891 |
268955.05 |
4757708.72 |
0 |
20000 |
94000 |
225000 |
2.1e+09 |
NA |
10229 |
| rooms |
144668 |
244223 |
388891 |
2.9 |
1.67 |
1 |
2 |
3 |
4 |
40 |
NA |
31 |
| surface_covered |
97854 |
291037 |
388891 |
235.01 |
12501.36 |
-139 |
43 |
70 |
142 |
4e+06 |
NA |
1978 |
| surface_total |
74063 |
314828 |
388891 |
458.28 |
3932.54 |
-3 |
50 |
91 |
266 |
2e+05 |
NA |
4010 |
desc[type == "logical", c("variable", show_skimmers("logical")[[1]])] %>%
kable() %>%
kable_styling(bootstrap_options = kable_options)
| variable |
missing |
complete |
n |
mean |
count |
| l6 |
388891 |
0 |
388891 |
NaN |
388891 |
#Filtrar datos de acuerdo a consigna
prop_selected<-propiedades %>% filter( l1=='Argentina' & l2=='Capital Federal')
prop_selected<-prop_selected %>% filter( currency=='USD')
prop_selected<-prop_selected %>% filter( property_type %in%c('Casa','Departamento','PH') )
prop_selected<-prop_selected %>% filter( operation_type =='Venta')
prop_selected<-prop_selected[, c('id', 'l3', 'rooms', 'bedrooms', 'bathrooms', 'surface_total', 'surface_covered', 'price', 'property_type')]
printShape(prop_selected)
[1] "#Filas: 61905"
[1] "#Columnas: 9"
Análisis Exploratorios - I
Se utilizan las funciones de la libreria purr para obtener #de NA y #de valores únicos de cada variable y la libreria corrr para graficar matriz de correlación.
Se observa una fuerte correlacion entre rooms y bedrooms siendo esta última la feature con más missing. Tambien se ve una relacion fuerte entre surface_total y surface_covered dado que una esta inlcuida en la otra.
#Contar NA y Unique
na<-prop_selected %>%
map_dbl(function(x) sum(is.na(x)))
uni<-prop_selected %>%
map_dbl(function(x) length(unique(x)))
resultado<-rbind(na, uni)
rownames(resultado)<-c('#NA','#Unique')
resultado %>%
kable() %>%
kable_styling(bootstrap_options = kable_options)
| |
id |
l3 |
rooms |
bedrooms |
bathrooms |
surface_total |
surface_covered |
price |
property_type |
| #NA |
0 |
355 |
5314 |
25298 |
3196 |
3671 |
2975 |
0 |
0 |
| #Unique |
61905 |
58 |
24 |
25 |
15 |
671 |
573 |
4095 |
3 |
#Matriz de Correlacion
prop_selected[, 3:8] %>%
correlate(use = 'pairwise.complete.obs', method = 'pearson') %>%
shave() %>%
fashion()
Correlation method: 'pearson'
Missing treated using: 'pairwise.complete.obs'
Preparación de Datos - II
Eliminar variable bedrooms y las filas con NAs.
prop_selected$bedrooms<-NULL
prop_selected<-na.omit(prop_selected)
printShape(prop_selected)
[1] "#Filas: 51210"
[1] "#Columnas: 8"
Análisis Exploratorios - II
Obterner estadísticas descriptivas, histograma, boxplot y correlograma.
La distribución de la variale precio con respecto al tipo de propiedad es asimétrica positiva. Los precios de los Departametnos y Casa presentan valores atípicos muy altos. La varianza de las propiedades de tipo Casa pareciera ser sutilmente más grande que la de los otros dos tipos.
En el correlograma se observa una correlación entre:
- surface_total y surface_covered
- rooms y bathrooms
- price y bathrooms
- price y rooms
getEstadisticas(prop_selected$price)
prop_selected$property_type<- as.factor(prop_selected$property_type)
pricextype<-prop_selected %>%
group_split(property_type) %>%
map_dfr(function(x) getEstadisticas(x$price))
rownames(pricextype)<-unique(prop_selected$property_type)
pricextype %>%
kable() %>%
kable_styling(bootstrap_options = kable_options)
| |
promedio |
maximo |
minimo |
X0. |
X25. |
X50. |
X75. |
X100. |
| Casa |
434188.8 |
5000000 |
20000 |
20000 |
235000 |
335000 |
490000 |
5000000 |
| Departamento |
246855.7 |
6000000 |
6000 |
6000 |
115000 |
164000 |
260000 |
6000000 |
| PH |
218747.4 |
1500000 |
32000 |
32000 |
137000 |
190000 |
270000 |
1500000 |
ggplot(data = prop_selected, aes(prop_selected$price, color = property_type))+
geom_histogram() +
labs(title = "Histograma de Precios por tipo de Propiedad", x="Precio", y="Frecuencia")+
theme(legend.position = 'none')+
facet_wrap(~property_type)

ggplot(prop_selected, aes(x = property_type, y = price, group = property_type, fill = property_type )) +
geom_boxplot()+
labs(title = "Boxplot Precios vs Tipo de Propiedad", x="Tipo de Propiedad", y="Precio")

ggcorr(prop_selected, layout.exp = 2) + labs(title='Correlograma variables cuantitativas')
data in column(s) 'id', 'l3', 'property_type' are not numeric and were ignored

Outliers
Eliminar outliers de la variable precio. Se crea una nueva variable para obtener el precio por metro cuadrado y se analizan las estadisticas descriptivas de ésta para establecer los valores de corte. Además se utiliza las tasaciones online de los barrios de la capital para fijar una cota inferior de 700 y una cota superior de 10000. Se encontraron 320 outliers.
Se observan registros que tienen mal cargados los metros cuadrados de la superficie, otros que tienen el precio de referente a un alquiler en lugar de una venta.
sin_outliers<-prop_selected %>%
mutate(pricexsurface=price/surface_total)
getEstadisticas(sin_outliers$pricexsurface)
sin_outliers$in_=sin_outliers$pricexsurface>700 & sin_outliers$pricexsurface<10000
print(paste('Cantidad de Outliers encontrados: ',sum(sin_outliers$in_==FALSE)))
[1] "Cantidad de Outliers encontrados: 320"
sin_outliers<-sin_outliers %>% filter(in_==TRUE)
sin_outliers[,9]<-NULL
sin_outliers<-as.data.frame(sin_outliers)
printShape(sin_outliers)
[1] "#Filas: 50890"
[1] "#Columnas: 9"
Análisis Exploratorios - III
Repertir análisis sin outliers.
Se siguen observando outliers, los rangos intercuartiles permanecieron sutilmente similares y los graficos del histograma y boxplot tambien se asemejan al análisis anterior. Se presencia un porcentaje menor de valores atípicos y además se ajustó el valor mínimo. El cambio que más se destacó es en el gráfico del correlograma donde pareciera que las variables cuantitativas estan más relaciones entre todas.
getEstadisticas(sin_outliers$price)
pricextype<-sin_outliers %>%
group_split(property_type) %>%
map_dfr(function(x) getEstadisticas(x$price))
rownames(pricextype)<-c('Casa','Depto','PH')
pricextype %>%
kable() %>%
kable_styling(bootstrap_options = kable_options)
| |
promedio |
maximo |
minimo |
X0. |
X25. |
X50. |
X75. |
X100. |
| Casa |
441583.5 |
5000000 |
62000 |
62000 |
244900 |
340000 |
499000 |
5000000 |
| Depto |
242785.4 |
5800000 |
12000 |
12000 |
115000 |
163590 |
260000 |
5800000 |
| PH |
219273.0 |
1500000 |
45000 |
45000 |
138000 |
194500 |
274000 |
1500000 |
ggplot(data = sin_outliers, aes(sin_outliers$price, color = property_type))+
geom_histogram() +
labs(title = "Histograma de Precios por tipo de Propiedad", x="Precio", y="Frecuencia")+
theme(legend.position = 'none')+
facet_wrap(~property_type)

ggplot(sin_outliers, aes(x = property_type, y = price, group = property_type, fill = property_type )) +
geom_boxplot()+
labs(title = "Boxplot Precios vs Tipo de Propiedad", x="Tipo de Propiedad", y="Precio")

ggcorr(sin_outliers, layout.exp = 2) + labs(title='Correlograma variables cuantitativas')
data in column(s) 'id', 'l3', 'property_type', 'in_' are not numeric and were ignored

Modelo Lineal
Se analizan las salidas de ambos modelos luego de aplicar el modelo lineal simple de R.
El p-valor en ambos modelos para ambos coeficientes estimados es pequeño lo que indica que se puede considerar un modelo lineal y que el precio se relaciona con cada una de las variables de cada modelo. Se observa que el desvio estandar de error de los coefcientes son más bajos en el segundo modelo(surface_total) que en el primero.
El 28% de la variabilidad observada en los precios queda explicada por la relacion lineal entre el precio y rooms.
El 53% de la variabilidad observada en los precios queda explicada por la relacion lineal entre el precio y surface_total.
El valor intercept(\(\beta_0\)) -43616,80 en el primero modelo es el valor promedio de una propiedad sin ninguna habitación. Este valor no tiene sentido ya que no se encuentra dentro de los rangos validos de nuestro modelo. El \(\beta_1\) indica en promedio que una propiedad aumenta USD 104425,2 por cada habitación que se agrega.
En el caso del segundo modelo, el valor intercept(\(\beta_0\)) 18810,54 es el valor promedio de una propiedad con superficie 0. Este valor tampoco tiene sentido. El \(\beta_1\) nos indica que una propiedad aumenta en promedio USD 2537,67 por cada metro cuadrado.
En base a lo expuesto anteriormente el segundo modelo seria el mejor de ambos.
# Se quiere explicar el precio de las propiedades en base a la cant de habitaciones de las mismas.
# Y: los precios de las propiedades
# X: la cantidad de habitaciones de la propiedad
modelo_rooms=lm(price~rooms, data=sin_outliers)
summary(modelo_rooms)
Call:
lm(formula = price ~ rooms, data = sin_outliers)
Residuals:
Min 1Q Median 3Q Max
-2697989 -94659 -30234 39341 5008215
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -43616.8 2272.8 -19.19 <2e-16 ***
rooms 104425.2 729.3 143.18 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 227300 on 50888 degrees of freedom
Multiple R-squared: 0.2872, Adjusted R-squared: 0.2872
F-statistic: 2.05e+04 on 1 and 50888 DF, p-value: < 2.2e-16
ggplot(sin_outliers, aes(rooms, price)) +
geom_abline(aes(intercept = modelo_rooms$coefficients[1], slope = modelo_rooms$coefficients[2]), data = modelo_rooms, colour = "blue") +
labs(title = "Precio versus Rooms con Recta ajustada por mínimos cuadrados.")+
geom_point()

# Y: los precios de las propiedades
# X: la superficie total de la propiedad
modelo_surface=lm(price~surface_total, data=sin_outliers)
summary(modelo_surface)
Call:
lm(formula = price ~ surface_total, data = sin_outliers)
Residuals:
Min 1Q Median 3Q Max
-2698908 -43382 -12578 21844 4063187
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 18810.54 1256.67 14.97 <2e-16 ***
surface_total 2537.67 10.57 240.12 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 184300 on 50888 degrees of freedom
Multiple R-squared: 0.5312, Adjusted R-squared: 0.5312
F-statistic: 5.766e+04 on 1 and 50888 DF, p-value: < 2.2e-16
ggplot(sin_outliers, aes(surface_total, price)) +
geom_abline(aes(intercept = modelo_surface$coefficients[1], slope = modelo_surface$coefficients[2]), data = modelo_surface, colour = "blue") +
labs(title = "Precio versus Surface_total con Recta ajustada por mínimos cuadrados.")+
geom_point()

