1: Carga de datos

1.A: Lectura y analisis de estructura del archivo

Procedemos a cargar el archivo de entrada y verificar la cantidad de variables y casos. Para ello tenemos que descomprimir el archivo antes de cargalo, y tabmien especificar el encoding correcto (UTF-8) para la carga correcta de caracteres especiales.

Debido a que la carga de los ids cuesta mucho mas memoria que todo el resto y no proporciona informacion de utilidad para el analisis se descarta de entrada.

# carga librerias tidyverse y ggplot2
suppressPackageStartupMessages(library(tidyverse))
suppressPackageStartupMessages(library(ggplot2))

#carga de datos
ar_properties <- read.csv(unz('ar_properties.zip', 'ar_properties.csv'), row.names = NULL, stringsAsFactors = TRUE, encoding = "UTF-8") %>% select( -c('id') )

#verificaion de casos y variables
head(ar_properties)
nrow(ar_properties)
[1] 388891

1.B: Preprocesado y filtrado

Cargamos la libreria tidyverse para realizar los filtrados, y procedemos a extraer los casos de interes:

# Filtrado de los casos deseados
ar_properties <- ar_properties %>% filter(
    l1             == 'Argentina' &
    l2             == 'Capital Federal' &
    currency       == 'USD' &
    operation_type == 'Venta' &
    property_type  %in% c('Casa', 'Departamento', 'PH'))

1.C: Preprocesado y filtrado

Una vez filtrados los casos, seleccionamos las variables deseadas y reajustamos los niveles de las variables de categoria (descartamos las categorias que ya no figuran en nuestros datos). Verificamos nuevamente la cantidad de registros y variables que quedan

# Seleccion de las variables de interes
ar_properties <- ar_properties %>% select(
  l3,
  rooms,
  bedrooms,
  bathrooms,
  surface_total,
  surface_covered,
  price,
  property_type )

# eliminacion de categorias en desuso
ar_properties <- droplevels(ar_properties)

#verificacion de casos y variables
nrow(ar_properties)
[1] 61905
ncol(ar_properties)
[1] 8

2: Analisis exploratorio (I)

2.A: Analisis de valores distintos y faltantes

calculamos la cantidad de valores distintos y faltantes, y los analizamos:

# calculamos la cantidad de valores distintos
uniques.values <- apply(ar_properties, 2, n_distinct)
as.data.frame(uniques.values)

# calculamos la cantidad de valores faltantes
missing.values <- colSums(is.na(ar_properties))
as.data.frame(missing.values)

Curiosamente, notamos que para el campo l3 que corresponde al barrio porteño, hay 57 valores distintos (58 si tomamos en cuenta NA). Esto se contradice con los 48 barrios porteños existentes, por lo que analizamos los barrios inesperados:

barrios.portenos.officiales <- c("Agronomía", "Almagro", "Balvanera", "Barracas", "Belgrano", "Boedo", "Caballito", "Chacarita", "Coghlan", "Colegiales", "Constitución", "Flores", "Floresta", "Boca", "Paternal", "Liniers", "Mataderos", "Monserrat", "Monte Castro", "Pompeya", "Nuñez", "Palermo", "Parque Avellaneda", "Parque Chacabuco", "Parque Chas", "Parque Patricios", "Puerto Madero", "Recoleta", "Retiro", "Saavedra", "San Cristobal", "San Nicolás", "San Telmo", "Velez Sarsfield", "Versalles", "Villa Crespo", "Villa del Parque", "Villa Devoto", "Villa General Mitre", "Villa Lugano", "Villa Luro", "Villa Ortuzar", "Villa Pueyrredón", "Villa Real", "Villa Riachuelo", "Villa Santa Rita", "Villa Soldati", "Villa Urquiza")
sort(setdiff(unique(ar_properties$l3), barrios.portenos.officiales))
[1] "Abasto"               "Barrio Norte"         "Catalinas"            "Centro / Microcentro"
[5] "Congreso"             "Las Cañitas"          "Once"                 "Parque Centenario"   
[9] "Tribunales"          

Observamos como los barrios ‘extra’ corresponden a denominaciones no-oficiales de ciertas regions de la CABA.

2.B: Matriz de correlacion

Para el calculo de la matriz de correlacion, necesitamos poder extraer las variables del tipo numerico. Dado que esta funcion sera utilizada en pasos posteriores, será de utilidad crear una funcion que permita automatizar esta funcion; y ademas agregamos la opcion para seleccionar columnas especificas en lugar de todas las numericas. Luego procedemos a calcular la correlacion de las variables numericas.

# funcion para obtener las columnas especificadas, o las numericas en caso de no especificarse
get.numeric.columns <- function(df, columns.to.get=NULL) {
    if (is.null(columns.to.get))
        columns.to.get <- colnames(df)[unlist(lapply(df, is.numeric))]

    return(columns.to.get)
}

# calculamos la correlacion de las variables numericas, descartando los casos incompletos
cor(ar_properties[,get.numeric.columns(ar_properties)], use="complete.obs", method="pearson")
                     rooms   bedrooms  bathrooms surface_total surface_covered      price
rooms           1.00000000 0.92138719 0.61335026    0.06828238      0.07468335 0.48748747
bedrooms        0.92138719 1.00000000 0.61578024    0.06746895      0.07206826 0.43221753
bathrooms       0.61335026 0.61578024 1.00000000    0.06234262      0.06777010 0.59904254
surface_total   0.06828238 0.06746895 0.06234262    1.00000000      0.69656225 0.05095265
surface_covered 0.07468335 0.07206826 0.06777010    0.69656225      1.00000000 0.06257960
price           0.48748747 0.43221753 0.59904254    0.05095265      0.06257960 1.00000000

Notamos como la correlacion mas alta (0.921) se da entre rooms y bedrooms (lo cual tiene sentido, siendo que la relacion tiende a ser del tipo rooms = bedrooms + 1 en la mayoria de los departamentos, correspondiendo el ‘+1’ al living ). Este dato nos permitira decidir en un paso posterior a decidir como tratar los casos faltantes. Tambien notamos otra correlacion alta entre superficie total y superficie cubierta, también esperada, ya que los departamentos / casas / PHs mas grandes tienden a tener patios / balcones o jardines tambien mas grandes. El otro caso de alta correlacion se da entre baños y ambientes, tambien siendo una relacion esperable, de naturaleza semejante a la descrita previamente (las viviendas con mas ambientes tienden a tener mayor cantidad de baños) Lo ultimo a destacar, es que el precio no parece estar tan correlacionado con la superficie (lo cual se presenta como inusual, ya que es común que uno de los factores determinantes del precio de una propiedad es la cantidad de metros cuadrados). Este aspecto se analizará luego con mas detalle.

3: Preparacion de datos

3.A: Eliminacion de variables altamente correlacionadas

Dado que las variables rooms y bedrooms presentan alta correlacion, procedemos a eliminar una de ellas, la de mayor cantaidad de faltantes (bedrooms)

# eliminacion de la variable `bedrooms`
ar_properties <- ar_properties %>% select( -c('bedrooms') )

3.B: Filtrado de los casos incompletos

Filtramos los casos incompletos y validamos la cantidad de variables y casos

# eliminacion de la variable `bedrooms`
ar_properties <- ar_properties[complete.cases(ar_properties),]

#Validamos la cantidad de casos y variables
nrow(ar_properties)
[1] 51210
ncol(ar_properties)
[1] 7

4: Analisis exploratorio (II)

4.A: Obtencion de estadisticas generales

Obtenemos estadisticas de la variable precio. Generamos funciones que reutilizaremos mas tarde.

# Funcion para generar estadisticas con la media incluida
summary.with.mean <- function(data)
{
    summary <- summary(data)
    summary['mean'] = mean(data)
    return( summary )
}

# Caluclamos las estadisticas
summary.with.mean(ar_properties$price)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    mean 
   6000  119000  170000  251577  270000 6000000  251577 
# Y realizamos un histograma
ggplot(ar_properties, aes(x = price)) + geom_histogram()

Notamos que hay un gran rango de precios, y que la mayoria de los valores se concentran en los valores mas bajos. Por ese motivo, repetimos el histograma pero utiliando una escala logaritmica para poder observar mejor la distribucion.

ggplot(ar_properties, aes(x = price)) + geom_histogram(alpha=0.5, position="identity", aes(y = ..density..)) + scale_x_log10() + geom_density(alpha=0.5)

Notamos que la distribucion final de precios parece ser bimodal, que podria significar la presencia de poblaciones distintas dentro de la muestra. Tambien se observa que la distribucion (observando la escala logaritmica) presenta una asimetria, con cola pesada a derecha.

4.B: Obtencion de estadisticas por tipo de propiedad

Realizamos el mismo analisis anterior, pero segmentado por tipo de propiedad.

# Calculamos las estadisticas, discriminando por tipo de propiedad
tapply(ar_properties$price, ar_properties$property_type, summary.with.mean)
$Casa
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    mean 
  20000  235000  335000  434189  490000 5000000  434189 

$Departamento
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    mean 
   6000  115000  164000  246856  260000 6000000  246856 

$PH
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    mean 
  32000  137000  190000  218747  270000 1500000  218747 
# Realizamos el histograma, discriminando por tipo de propiedad
ggplot(ar_properties, aes(x=price, fill=property_type)) +
    geom_histogram(alpha=0.5, position="identity", aes(y = ..density..)) +
    geom_density(alpha=0.5) +
    scale_x_log10()

Al discriminar por tipo de casa, se detecta que la ‘bimodalidad’ observada antes no es solamente producto de diferentes tipos de propiedades, ya que tanto PHs como departamentos presentan un mismo “valle” alrededor de los $200.000 dolares. Tambien se puede observar que si bien se notan ciertas asimetrias en las distribuciones, individualmente no parecen ser tan acentuadas como cuando se combinan todas las poblaciones (o sea, la combinacion de las distintas dsitribuciones que estan centradas en distintos puntos acentua la asimetria de distribucion combinada)

4.C: Boxplots

Graficamos los boxplots del precio por cada tipo de propiedad. Siguiendo la misma logica, escalamos el eje de precios logaritmicamente.

# Graficamos los boxplots
ggplot(ar_properties, aes(x=property_type, y=price, fill=property_type)) +
    geom_boxplot() +
    scale_y_log10()

Observando los boxplots, se observa claramente como los precios tienen una tendencia del tipo Casa > PH > depto (que ya podia ser apreciada en los histogramas previos, pero aun mas claro aca). Tambien se observa como los departamentos parecen tener la mayor dispersion de precios, al igual que mayor cantidad de outliers.

4.D: Correlograma

suppressPackageStartupMessages(library(GGally))

# Graficamos el correlograma
ggcorr(ar_properties[,get.numeric.columns(ar_properties)], method = c("everything", "pearson")) 

Las conclusiones que se pueden obtener de este grafico son las mismas que las observadas en el punto 2.B.

5: Outliers

Analizamos como se componen los precios en los extremos superiores e inferiores de la distribucion

# Cortes de precios para los cuantiles en los extremos
quant.inf <- quantile(ar_properties$price, probs=seq(0, 0.005, length.out = 6) )
quant.sup <- quantile(ar_properties$price, probs=seq(.995, 1, length.out = 6) )

quant.inf
   0%  0.1%  0.2%  0.3%  0.4%  0.5% 
 6000 35000 45000 49900 53000 55000 
quant.sup
  99.5%   99.6%   99.7%   99.8%   99.9%    100% 
1979550 2300000 2500000 2879100 3500000 6000000 

Analizando los resultados de zonaProp, la propiedad mas barata en venta en capital federal esta por sobre 50.000 dolares. Combinando este dato con la informacion de los cuartiles obtenida previamente, podemos asegurar que descartar los valores inferiores a U$S 50.000 seria descartar menos del 0.5% de las muestras. En cuanto a valores superiores, se prosiguió a descartar el mismo porcentage de corte que para las muestras inferiores.

Tambien se procede a recortar usando los mismos porcentajes en las dimensiones de rooms y de surface_total, ya que son las variables que estaremos modelando a continuacion, y calculamos la cantidad de muestras filtradas (notar que debido a que la eliminacion de los extremos se hizo de forma simultanea, la cantidad total de muestras puede no coincidir al 3% ya que es probable que los casos que poseen valores extremos de una dimension concuerden con los extremos de otra de las dimensiones)

ar_properties.sin.outliers = ar_properties %>% filter(
    price >= quantile(ar_properties$price, 0.005) &
    price <= quantile(ar_properties$price, 0.995) &
    rooms >= quantile(ar_properties$rooms, 0.005) &
    rooms <= quantile(ar_properties$rooms, 0.995) &
    surface_total <= quantile(ar_properties$surface_total, 0.995) &
    surface_total <= quantile(ar_properties$surface_total, 0.995) )

porcentaje=nrow(ar_properties.sin.outliers)/nrow(ar_properties)

reporte.filtrado <- function( filtrado, original )
{
  df <- data.frame( original=nrow(original), filtrado=nrow(filtrado), porcentaje=(nrow(filtrado)/nrow(original)*100) )
  return(df)
}

reporte.filtrado( ar_properties.sin.outliers, ar_properties )

Como caso de interes, tambien filtramos los outliers utilizando la tecnica de isolation tree, utilizando las variables de interes y filtrando una cantidad demejante de muestras, pero utilizando como criterio su puntaje de anomalia. Para ser consistentes con las comparaciones, eliminaremos la misma cantidad de muestras.

# Cargamos la libreria necesaria
suppressPackageStartupMessages(library("solitude"))

# iniciamos el algoritmo utilizando solamente las variables que vamos a correlacionar
iso <- solitude::isolationForest$new()
iso$fit(ar_properties %>% select( c("rooms", "price", "surface_total") ) )
Building Isolation Forest ... done
Computing depth of terminal nodes ... 
done
ar_properties.sin.outliers.isolationtree <- ar_properties

# Usamos los resultados para filtras las muestras mas anomalas, y luego descartamos esta columna
ar_properties.sin.outliers.isolationtree$anomalyScore = iso$scores$anomaly_score
ar_properties.isolationtree <- ar_properties.sin.outliers.isolationtree #backup de variable
ar_properties.sin.outliers.isolationtree <- ar_properties.sin.outliers.isolationtree %>% filter( anomalyScore <= quantile(ar_properties.sin.outliers.isolationtree$anomalyScore, porcentaje) ) %>% select( -c("anomalyScore") )

#verificamos que la cantidad eliminada sea semejante en ambos casos
reporte.filtrado( ar_properties.sin.outliers.isolationtree, ar_properties )

Finalmente, tambien tomamos otro caso de interes, un filtrado aun mas ingenuo que el primero, en el que solo recortamos los valores extremos pero unicamente de la dimension precio, tomando precauciones para que el tamaño de las muestras sea comparable.

ar_properties.sin.outliers.ingenuo = ar_properties %>% filter(
    price >= quantile(ar_properties$price, (1-porcentaje)/2) &
    price <= quantile(ar_properties$price, 1-(1-porcentaje)/2) )
      
reporte.filtrado( ar_properties.sin.outliers.ingenuo, ar_properties )

6: Analisis exploratorios (III)

# Calculamos las estadisticas, discriminando por tipo de propiedad
tapply(ar_properties.sin.outliers$price, ar_properties.sin.outliers$property_type, summary.with.mean)
$Casa
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    mean 
  55000  229000  320000  367484  450000 1900000  367484 

$Departamento
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    mean 
  55000  115000  163590  233262  260000 1970000  233262 

$PH
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    mean 
  55000  136000  190000  216242  270000  970000  216242 
# Realizamos el histograma, discriminando por tipo de propiedad
ggplot(ar_properties.sin.outliers, aes(x=price, fill=property_type)) +
    geom_histogram(alpha=0.5, position="identity", aes(y = ..density..)) +
    geom_density(alpha=0.5) +
    scale_x_log10()


# Graficamos los boxplots
ggplot(ar_properties.sin.outliers, aes(x=property_type, y=price, fill=property_type)) +
    geom_boxplot() +
    scale_y_log10()


# Graficamos el correlograma
ggcorr(ar_properties.sin.outliers[,get.numeric.columns(ar_properties.sin.outliers)], method = c("everything", "pearson"))

Se puede observar (con especial detalle en los boxplots) como gran cantidad de los outliers desaparecieron. Cabe destacar que esta es una tecnica un poco ingenua para la eliminacion de los mismos, ya que no considera la posibilidad de outliers debido a la relacion de las variables entre sí, y solamente descarta los extremos en cada dimension. Aun asi, obervamos como aumento la correlacion entre varios pares de variables que previamente estaban debilmente correlacionadas (precio-area total, area total-habitaciones, baños-supreficie total)

7: Modelo lineal

7.A/B: Generacion del modelo lineal / descripcion

auto.lm <- function( description, data, xVar )
{
  lm.result <- lm(data$price~data[[xVar]])
  sum <- summary( lm.result )
  print( description )
  print( sum )
  return( data.frame(
    descripcion=description,
    intercept=sum$coefficients[1],
    coeff=sum$coefficients[2],
    rsquaredAdj=sum$adj.r.squared ) )
}


result <- auto.lm('con outliers vs superficie', ar_properties, 'surface_total')
[1] "con outliers vs superficie"

Call:
lm(formula = data$price ~ data[[xVar]])

Residuals:
     Min       1Q   Median       3Q      Max 
-2942970  -131900   -81215    19731  5736925 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)  2.492e+05  1.301e+03  191.51   <2e-16 ***
data[[xVar]] 2.307e+01  1.586e+00   14.55   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 292200 on 51208 degrees of freedom
Multiple R-squared:  0.004117,  Adjusted R-squared:  0.004097 
F-statistic: 211.7 on 1 and 51208 DF,  p-value: < 2.2e-16
result <- rbind(result, auto.lm('con outliers vs ambientes', ar_properties, 'rooms') )
[1] "con outliers vs ambientes"

Call:
lm(formula = data$price ~ data[[xVar]])

Residuals:
     Min       1Q   Median       3Q      Max 
-2711264   -97662   -32662    37125  5413191 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept)  -41911.5     2520.1  -16.63   <2e-16 ***
data[[xVar]] 104786.7      805.7  130.06   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 253900 on 51208 degrees of freedom
Multiple R-squared:  0.2483,    Adjusted R-squared:  0.2483 
F-statistic: 1.691e+04 on 1 and 51208 DF,  p-value: < 2.2e-16
result <- rbind(result, auto.lm('sin outliers vs superficie', ar_properties.sin.outliers, 'surface_total') )
[1] "sin outliers vs superficie"

Call:
lm(formula = data$price ~ data[[xVar]])

Residuals:
     Min       1Q   Median       3Q      Max 
-1058553   -44173   -16794    20358  1418223 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)  38194.434   1097.317   34.81   <2e-16 ***
data[[xVar]]  2260.412      9.945  227.30   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 149300 on 50389 degrees of freedom
Multiple R-squared:  0.5063,    Adjusted R-squared:  0.5062 
F-statistic: 5.167e+04 on 1 and 50389 DF,  p-value: < 2.2e-16
result <- rbind(result, auto.lm('sin outliers vs ambientes', ar_properties.sin.outliers, 'rooms')  )
[1] "sin outliers vs ambientes"

Call:
lm(formula = data$price ~ data[[xVar]])

Residuals:
    Min      1Q  Median      3Q     Max 
-570537  -85007  -25478   36346 1691346 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept)    -20875       1853  -11.27   <2e-16 ***
data[[xVar]]    93177        608  153.24   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 175500 on 50389 degrees of freedom
Multiple R-squared:  0.3179,    Adjusted R-squared:  0.3179 
F-statistic: 2.348e+04 on 1 and 50389 DF,  p-value: < 2.2e-16
result <- rbind(result, auto.lm('sin outliers 1D vs superficie', ar_properties.sin.outliers.ingenuo, 'surface_total') )
[1] "sin outliers 1D vs superficie"

Call:
lm(formula = data$price ~ data[[xVar]])

Residuals:
     Min       1Q   Median       3Q      Max 
-1897106  -115131   -64866    34896  1369166 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)  2.336e+05  8.976e+02  260.21   <2e-16 ***
data[[xVar]] 1.490e+01  1.086e+00   13.72   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 2e+05 on 50388 degrees of freedom
Multiple R-squared:  0.00372,   Adjusted R-squared:  0.003701 
F-statistic: 188.2 on 1 and 50388 DF,  p-value: < 2.2e-16
result <- rbind(result, auto.lm('sin outliers 1D vs ambientes', ar_properties.sin.outliers.ingenuo, 'rooms') )
[1] "sin outliers 1D vs ambientes"

Call:
lm(formula = data$price ~ data[[xVar]])

Residuals:
     Min       1Q   Median       3Q      Max 
-2078375   -81155   -24055    30013  1352301 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept)    1767.5     1666.3   1.061    0.289    
data[[xVar]]  83644.0      536.5 155.913   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 164600 on 50388 degrees of freedom
Multiple R-squared:  0.3254,    Adjusted R-squared:  0.3254 
F-statistic: 2.431e+04 on 1 and 50388 DF,  p-value: < 2.2e-16
result <- rbind(result, auto.lm('sin outliers - isolation tree vs superficie', ar_properties.sin.outliers.isolationtree, 'surface_total') )
[1] "sin outliers - isolation tree vs superficie"

Call:
lm(formula = data$price ~ data[[xVar]])

Residuals:
    Min      1Q  Median      3Q     Max 
-928924  -43626  -16564   20548 1714422 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)  39115.047   1075.942   36.35   <2e-16 ***
data[[xVar]]  2234.919      9.748  229.26   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 147500 on 50390 degrees of freedom
Multiple R-squared:  0.5105,    Adjusted R-squared:  0.5105 
F-statistic: 5.256e+04 on 1 and 50390 DF,  p-value: < 2.2e-16
result <- rbind(result, auto.lm('sin outliers - isolation tree vs ambientes', ar_properties.sin.outliers.isolationtree, 'rooms') )
[1] "sin outliers - isolation tree vs ambientes"

Call:
lm(formula = data$price ~ data[[xVar]])

Residuals:
    Min      1Q  Median      3Q     Max 
-627975  -83354  -23760   37348 2055538 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept)    -24051       1828  -13.15   <2e-16 ***
data[[xVar]]    93703        601  155.92   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 173200 on 50390 degrees of freedom
Multiple R-squared:  0.3255,    Adjusted R-squared:  0.3254 
F-statistic: 2.431e+04 on 1 and 50390 DF,  p-value: < 2.2e-16
result
Interpretacion de los parametros

Si comparamos los distintos modelos en funcion del R2 ajustado, interpretando que este parametro es el que indica cuan mejor predictor de precio es el modelo (representando el porcentaje de la variacion explicado, siendo mas alto mejor), observamos que los dos modelos que mejor ajustan son el de precio vs area, en los casos de fitlrados por extremos y filtrado por isolation tree. Tambien observamos los p-valores en todos los casos (excepto el filtrado 1D para el \(\beta_0\)) son siempre muy signifcativos (p<0.001), con lo cual podemos asegurar que existe una dependencia entre el precio y las otras 2 variables (ambientse y superficie) El modelo presenta 2 parametros para la prediccion: intercept (o \(\beta_0\)) = ~39,000, que representaria el valor que estimaria para una propiedad de 0 metros cuadradaos (que igual hay que notar que es un extremo teorico, ya que el modelo ajusta mejor en la zona donde x es igual a la media de las muestras, y en este caso carece de sentido interpretar este parametro de forma independiente), y el coefficiente (\(\beta_1\)) = ~2,200 que seria mejor interpretado como “cuanto varia el precio de una propiedad por cada m2 adicional”. Usando la misma logica, para el modelo que mejor ajusta de precio vs ambientes, se estima que cada ambiente extra varia el precio total en promedio ~ $93,000

7.C: Analisis / conclusiones

El mejor modelo predictor de todos (usando R2 como parametro para comparar modelos) de precio es el model de precio vs superficie del fitlrado mediante isolation tree, lo cual es indicador de que es un metodo mas eficiente de deteccion de outliers, debido a la posibilidad del mismo de detectar extremos en multiples dimensiones en conjunto; aunque la mejora no sea sustancial en comparacion con el metodo de filtrado de extremos en cada dimension.

Tambien podemos notar como si no se eliminan los outliers (o si se eliminana de una forma poco eficiente) la efectividad del modelo resultante puede variar drasticamente, como se puede analizar en los casos con outliers y sin outliers 1D vs superficie; y en algunos casos hasta empeorar (ver con outliers vs superficie en comparacion con sin outliers 1D vs superficie)

Cabe destacar tambien que cuando el modelo se hace contra la variable ambientes, el resultado tiende a ser mas “robusto”, desde el punto de vista que el r2 del mismo no tiende a variar de forma tan extrema como con los otros modelos al cambiar la tecnica de filtrado de outliers. Esto tiene como efecto que, dependiendo del metodo de filtrado, puede cambiar la variable que seria “mejor” predictor del precio.

Para poder visualizar mejor el efecto de los outliers en las diferentes formas de filtrado, se procede a continuacion a graficar el modelo resultando, denotando que casos son eliminados con los diferentes metodos.

auto.plot <- function( title, full.df, filtered.df, yvar='rooms' )
{
  removed <- setdiff(full.df, filtered.df)
  removed$source = 'outliers'
  filtered.df$source = 'normal'
  full.with.source <- rbind( filtered.df, removed )
  ggplot(full.with.source, aes_string(x=yvar, y="price", color="source")) +
     geom_point() +
     geom_smooth(method='lm', data=filtered.df, color="blue") +
     xlim(0, ifelse( yvar=='rooms' , max(full.df$rooms), 5000)) +
     ggtitle( title )
}

auto.plot( 'ambientes - sin outliers extremos', ar_properties, ar_properties.sin.outliers, yvar='rooms')

auto.plot( 'ambientes - sin outliers precio solamente', ar_properties, ar_properties.sin.outliers.ingenuo, yvar='rooms')

auto.plot( 'ambientes - sin outliers isolationTree', ar_properties, ar_properties.sin.outliers.isolationtree, yvar='rooms')


auto.plot( 'area - sin outliers extremos', ar_properties, ar_properties.sin.outliers, yvar='surface_total')

auto.plot( 'area - sin outliers precio solamente', ar_properties, ar_properties.sin.outliers.ingenuo, yvar='surface_total')

auto.plot( 'area - sin outliers isolationTree', ar_properties, ar_properties.sin.outliers.isolationtree, yvar='surface_total')

En estos graficos se puede apreciar como isolation tree permite detectar outliers no solamente en los extremos, sino en la mitad de los rangos tambien (aunque esto se notaria aun mejor en un grafico de 3 dimensiones, donde en las tecnicas simples se veria que los puntos normales estan confinados dentro de un rectangulo, no siendo asi en el caso de isolation tree)

