Alumno: Rossi, Santiago

Cargo las librerias

library(tidyverse)
library(knitr)
library(kableExtra)
library(ggplot2)
library(GGally)
library(ggthemes)

1.Preparacion de los datos (I)

Cargo el dataset

properati<-read.csv("ar_properties.csv", sep=",", encoding = "UTF-8")

El dataset de Properati cuenta información de avisos inmobiliarios para cuatro países. Entre las principales variables del datset se destacan: fecha de al aviso, longitud y latitud de la propiedad, localidad, barrio, tipo de propiedad, cantidad de habitaciones, metros cuadrados cubiertos y totales y precio.


str(properati)

Filtro variables seleccionadas: país (Argentina), ciudad (CABA), tipo dde operación (venta), tipo de propiedad y moneda de la operación (dólares).

properati<-properati %>% 
  filter(l1=="Argentina" & l2=="Capital Federal" &
                                  currency=="USD" & (property_type=="PH" | property_type=="Departamento" |
                                                     property_type=="Casa") & operation_type=="Venta") %>%
  select(id,l3,rooms,bedrooms,bathrooms,surface_total,surface_covered,price,property_type)
properati %>% 
  head() %>% 
  kable() %>% 
  kable_styling(bootstrap_options = c("striped", "hover", "condensed", "responsive"))

2.Analisis exploratorio (I)

2.a. Obtener la cantidad de valores unicos y de valores faltantes (NAs) para cada una de estas variables

Funciones para el cálculo de faltantes y valores únicos

sumo_na<-function(x){  sum(is.na(x))}
cant_unicos<-function(x){  length(unique(x))}

Cantidad de valores unicos (subíndice “cant_unicos”) y faltantes (subindice “cant_na”)

properati %>% summarise_all(list(cant_na = sumo_na, cant_unicos= cant_unicos)) %>% t()

2.b. Obtener la matriz de correlacion para las variables numericas. Pista: usen ‘complete.obs’ para poder omitir los valores faltantes.

properati %>%
  select(-id,-l3,-property_type) %>% 
  cor(., use="complete.obs", method="pearson")

3. Preparacion de los datos (II)

Elimino variable bedrooms por tener una proporción grande de faltantes y tener una elevada correlación con rooms. Asimismo, me quedo con aquellos registros completos.

properati<-properati %>% select(-bedrooms) %>% filter(complete.cases(.))

4. Analisis exploratorios (II)

4.a.Obtener estadísticas descriptivas para la variable precio (cuartiles, promedio, minimo y maximo) y realizar un histograma de la variable

Estadisticas descriptivas de la variable precio:

summary(properati$price)

Los precios presentan una distribución log-normal

ggplot(properati, aes(x = price)) + geom_histogram(bins = 40, col="#4d4d4d", fill="#d8b365")+theme_tufte(base_size = 15)+ggtitle("Distribución de precios de inmuebles")+xlab("Precio (USD)")+ylab("Frecuencia")

A continuación se presenta el box-plot de los precios por tipo de propiedad. Para facilitar la visualización se consideró un valor máximo de USD 950 mil. De observar el gráfico se desprende que: - las casas tienen una mayor dispersión de precios que los otros tipos de vivienda. - las casas son en promedio más caras que los PH y los departamentos. - Los PHs son en promedio más caros que os departamentos.

ggplot(properati, aes(y = price,fill=property_type)) + geom_boxplot()+theme_tufte(base_size = 15) + labs(title = "Precios de inmuebles por tipo de vivienda", subtitle = "en dólares")+xlab("")+ylab("Precios (USD)")+labs(fill = "Tipo de propiedad")+
theme(plot.title = element_text(size = 14, family = "Tahoma", face = "bold"),
      panel.border = element_rect(colour = "black", fill = NA, size = .5),
      legend.position = "bottom")
  
#geom_boxplot(outlier.shape = NA)
properati %>%
  select(-id,-l3,property_type) %>% 

ggpairs(., 
        title = "Matriz de correlaciones",
        mapping = aes(colour= property_type))

5. Outliers

Eliminar los outliers de la variable precio con algún criterio que elijan: puede ser por valores de corte, eliminar el x% a izquierda y derecha,etc.


lim_sup_precio <- function(data, tipo_vivienda){data %>% filter(property_type==tipo_vivienda) %>% summarise( l_sup =  quantile(price,probs = 0.75) +IQR(price) ) }

lim_inf_precio <- function(data, tipo_vivienda){data %>% filter(property_type==tipo_vivienda) %>% summarise( l_sup =  quantile(price,probs = 0.25) -1.5*IQR(price) ) }

properati <- properati %>% mutate(outlier = ifelse( (property_type=="Casa" & price > lim_sup_precio(.,"Casa")[[1]]) |
                                       (property_type=="Casa" & price < lim_inf_precio(.,"Casa")[[1]]) |
                                       (property_type=="PH" & price > lim_sup_precio(.,"PH")[[1]]) |
                                       (property_type=="PH" & price < lim_inf_precio(.,"PH")[[1]]) | 
                                       (property_type=="Departamento" & price > lim_sup_precio(.,"Departamento")[[1]]) |
                                       (property_type=="Departamento" & price < lim_inf_precio(.,"Departamento")[[1]]),1,0 ))

properati_1<-properati %>% filter(outlier==0)

glue::glue("Proporción de outliers = ", sum(properati$outlier)/nrow(properati))

6.Analisis exploratorios (III)


ggplot(properati_1, aes(x = price)) + geom_histogram(bins = 40, col="#4d4d4d", fill="#d8b365")+theme_tufte(base_size = 15)+ggtitle("Distribución de precios de inmuebles")+xlab("Precio (USD)")+ylab("Frecuencia")
ggplot(properati_1, aes(y = price,fill=property_type)) + geom_boxplot()+theme_tufte(base_size = 15) + labs(title = "Precios de inmuebles por tipo de vivienda", subtitle = "en dólares")+xlab("")+ylab("Precios (USD)")+ylim(0,9.5e+05)+labs(fill = "Tipo de propiedad")+
theme(plot.title = element_text(size = 14, family = "Tahoma", face = "bold"),
      panel.border = element_rect(colour = "black", fill = NA, size = .5),
      legend.position = "bottom")
  
properati_1 %>%
  select(-id,-l3,property_type) %>% 

ggpairs(., 
        title = "Matriz de correlaciones",
        mapping = aes(colour= property_type))

7.Modelo lineal

Realizar un modelo lineal simple para explicar el precio en función de las habitaciones (rooms) y otro modelo que explique el precio en función de la superficie total (surface_total)

Usar la función summary() para obtener informacion de ambos modelos. Explicar los valores de los coeficientes estimados. ¿Cuál modelo usarían para predecir el precio? ¿Por qué?


modelo_rooms<-lm(data = properati_1,formula = price ~ rooms)
summary(modelo_rooms)

modelo_surface<-lm(data = properati_1, price ~ surface_total)
summary(modelo_surface)

Cuál modelo usarían para predecir el precio? ¿Por qué?

por cada habitacion el precio aumenta 47 mil dolares.

por cada m2 el precio aumenta 5 dolares. me parece que se rompió por los outliers

ggplot(properati_1,mapping = aes(x=price, y = rooms))+geom_point()+geom_smooth(method = "lm")+ labs(title = "Cantidad de habitaciones y precios de inmuebles", subtitle = "")+xlab("Precio (USD)")+ylab("Cat. Habitaciones")+theme_bw()+
theme(plot.title = element_text(size = 14, face = "bold"),
      panel.border = element_rect(colour = "black", fill = NA, size = .5))
  
ggplot(properati_1,mapping = aes(x=price, y = surface_total))+geom_point()+geom_smooth(method = "lm")+ labs(title = "Superficie total y precios de inmuebles", subtitle = "")+xlab("Precio (USD)")+ylab("Superficie (m2)")+theme_bw()+
theme(plot.title = element_text(size = 14, face = "bold"),
      panel.border = element_rect(colour = "black", fill = NA, size = .5))
  
---
title: "Enfoque estadístico del aprendizaje - Trabajo Práctio Nº1 "
output: html_notebook
---

##Alumno: Rossi, Santiago 

Cargo las librerias
```{r, eval=FALSE}
library(tidyverse)
library(knitr)
library(kableExtra)
library(ggplot2)
library(GGally)
library(ggthemes)
```

#1.Preparacion de los datos (I) 

Cargo el dataset

```{r}
properati<-read.csv("ar_properties.csv", sep=",", encoding = "UTF-8")

```


El dataset de Properati cuenta información de avisos inmobiliarios para cuatro países. Entre las principales variables del datset se destacan: fecha de al aviso, longitud y latitud de la propiedad, localidad, barrio, tipo de propiedad, cantidad de habitaciones, metros cuadrados cubiertos y totales y precio.

```{r, warning=FALSE}

str(properati)

```
 
Filtro variables seleccionadas: país (Argentina), ciudad (CABA), tipo dde operación (venta), tipo de propiedad y moneda de la operación (dólares).

```{r}
properati<-properati %>% 
  filter(l1=="Argentina" & l2=="Capital Federal" &
                                  currency=="USD" & (property_type=="PH" | property_type=="Departamento" |
                                                     property_type=="Casa") & operation_type=="Venta") %>%
  select(id,l3,rooms,bedrooms,bathrooms,surface_total,surface_covered,price,property_type)

```
```{r}
properati %>% 
  head() %>% 
  kable() %>% 
  kable_styling(bootstrap_options = c("striped", "hover", "condensed", "responsive"))
```

#2.Analisis exploratorio (I) 

##2.a. Obtener la cantidad de valores unicos y de valores faltantes (NAs) para cada una de estas variables
Funciones para el cálculo de faltantes y valores únicos
```{r}
sumo_na<-function(x){  sum(is.na(x))}
cant_unicos<-function(x){  length(unique(x))}
```

Cantidad de valores unicos (subíndice "cant_unicos") y faltantes (subindice "cant_na")
```{r}
properati %>% summarise_all(list(cant_na = sumo_na, cant_unicos= cant_unicos)) %>% t()


```
##2.b. Obtener la matriz de correlacion para las variables numericas. Pista: usen ‘complete.obs’ para poder omitir los valores faltantes.
```{r}
properati %>%
  select(-id,-l3,-property_type) %>% 
  cor(., use="complete.obs", method="pearson")
```      


#3. Preparacion de los datos (II)
Elimino variable `bedrooms` por tener una proporción grande de faltantes y tener una elevada correlación con `rooms`. Asimismo, me quedo con aquellos registros completos.

```{r}
properati<-properati %>% select(-bedrooms) %>% filter(complete.cases(.))
```  

#4. Analisis exploratorios (II)

###4.a.Obtener estadísticas descriptivas para la variable precio (cuartiles, promedio, minimo y maximo) y realizar un histograma de la variable


Estadisticas descriptivas de la variable **precio**:

```{r}
summary(properati$price)
```
Los precios presentan una  distribución log-normal

```{r}
ggplot(properati, aes(x = price)) + geom_histogram(bins = 40, col="#4d4d4d", fill="#d8b365")+theme_tufte(base_size = 15)+ggtitle("Distribución de precios de inmuebles")+xlab("Precio (USD)")+ylab("Frecuencia")
```

A continuación se presenta el box-plot de los precios por tipo de propiedad. Para facilitar la visualización se consideró un valor máximo de USD 950 mil. De observar el gráfico se desprende que:
- las casas tienen una mayor dispersión de precios que los otros tipos de vivienda.
- las casas son en promedio más caras que los PH y los departamentos.
- Los PHs son en promedio más caros que os departamentos.



```{r, warning=FALSE}
ggplot(properati, aes(y = price,fill=property_type)) + geom_boxplot()+theme_tufte(base_size = 15) + labs(title = "Precios de inmuebles por tipo de vivienda", subtitle = "en dólares")+xlab("")+ylab("Precios (USD)")+labs(fill = "Tipo de propiedad")+
theme(plot.title = element_text(size = 14, family = "Tahoma", face = "bold"),
      panel.border = element_rect(colour = "black", fill = NA, size = .5),
      legend.position = "bottom")
  
#geom_boxplot(outlier.shape = NA)
```


```{r, warning=FALSE}
properati %>%
  select(-id,-l3,property_type) %>% 

ggpairs(., 
        title = "Matriz de correlaciones",
        mapping = aes(colour= property_type))
```


#5. Outliers

Eliminar los outliers de la variable precio con algún criterio que elijan: puede ser por valores de corte, eliminar el x% a izquierda y derecha,etc.

```{r}

lim_sup_precio <- function(data, tipo_vivienda){data %>% filter(property_type==tipo_vivienda) %>% summarise( l_sup =  quantile(price,probs = 0.75) +IQR(price) ) }

lim_inf_precio <- function(data, tipo_vivienda){data %>% filter(property_type==tipo_vivienda) %>% summarise( l_sup =  quantile(price,probs = 0.25) -1.5*IQR(price) ) }


```

```{r}

properati <- properati %>% mutate(outlier = ifelse( (property_type=="Casa" & price > lim_sup_precio(.,"Casa")[[1]]) |
                                       (property_type=="Casa" & price < lim_inf_precio(.,"Casa")[[1]]) |
                                       (property_type=="PH" & price > lim_sup_precio(.,"PH")[[1]]) |
                                       (property_type=="PH" & price < lim_inf_precio(.,"PH")[[1]]) | 
                                       (property_type=="Departamento" & price > lim_sup_precio(.,"Departamento")[[1]]) |
                                       (property_type=="Departamento" & price < lim_inf_precio(.,"Departamento")[[1]]),1,0 ))

properati_1<-properati %>% filter(outlier==0)

glue::glue("Proporción de outliers = ", sum(properati$outlier)/nrow(properati))

```

#6.Analisis exploratorios (III)
```{r}

ggplot(properati_1, aes(x = price)) + geom_histogram(bins = 40, col="#4d4d4d", fill="#d8b365")+theme_tufte(base_size = 15)+ggtitle("Distribución de precios de inmuebles")+xlab("Precio (USD)")+ylab("Frecuencia")
```


```{r, warning=FALSE}
ggplot(properati_1, aes(y = price,fill=property_type)) + geom_boxplot()+theme_tufte(base_size = 15) + labs(title = "Precios de inmuebles por tipo de vivienda", subtitle = "en dólares")+xlab("")+ylab("Precios (USD)")+ylim(0,9.5e+05)+labs(fill = "Tipo de propiedad")+
theme(plot.title = element_text(size = 14, family = "Tahoma", face = "bold"),
      panel.border = element_rect(colour = "black", fill = NA, size = .5),
      legend.position = "bottom")
  
```

```{r, warning=FALSE}
properati_1 %>%
  select(-id,-l3,property_type) %>% 

ggpairs(., 
        title = "Matriz de correlaciones",
        mapping = aes(colour= property_type))
```


#7.Modelo lineal

Realizar un modelo lineal simple para explicar el precio en función de las habitaciones (rooms) y otro modelo que explique el precio en función de la superficie total (surface_total)

Usar la función summary() para obtener informacion de ambos modelos. Explicar los valores de los coeficientes estimados.
    ¿Cuál modelo usarían para predecir el precio? ¿Por qué?


```{r}

modelo_rooms<-lm(data = properati_1,formula = price ~ rooms)
summary(modelo_rooms)

modelo_surface<-lm(data = properati_1, price ~ surface_total)
summary(modelo_surface)



```

Cuál modelo usarían para predecir el precio? ¿Por qué?

por cada habitacion el precio aumenta 47 mil dolares.

por cada m2 el precio aumenta 5 dolares. me parece que se rompió por los outliers

```{r}
ggplot(properati_1,mapping = aes(x=price, y = rooms))+geom_point()+geom_smooth(method = "lm")+ labs(title = "Cantidad de habitaciones y precios de inmuebles", subtitle = "")+xlab("Precio (USD)")+ylab("Cat. Habitaciones")+theme_bw()+
theme(plot.title = element_text(size = 14, face = "bold"),
      panel.border = element_rect(colour = "black", fill = NA, size = .5))
  
```

```{r}
ggplot(properati_1,mapping = aes(x=price, y = surface_total))+geom_point()+geom_smooth(method = "lm")+ labs(title = "Superficie total y precios de inmuebles", subtitle = "")+xlab("Precio (USD)")+ylab("Superficie (m2)")+theme_bw()+
theme(plot.title = element_text(size = 14, face = "bold"),
      panel.border = element_rect(colour = "black", fill = NA, size = .5))
  
```





