Axel Mantalian ()

01/12/2019

Importo librerías a utilizar

library(tidyverse)
library(broom)
library(ISLR)
library(GGally)
library(modelr)
library(pROC)
library(rlang)
library(caret)
set.seed(1992)

Preparación de los datos

Comenzamos leyendo el conjunto de datos de entrenamiento.

data_original <- read_csv('./datasets/titanic_complete_train.csv')

glimpse(data_original)
Observations: 891
Variables: 12
$ PassengerId <dbl> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24...
$ Survived    <dbl> 0, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 1, 0, 1, 0, 1, 0, 1, 1, 1, 0, 1, 0, 0, 1...
$ Pclass      <dbl> 3, 1, 3, 1, 3, 3, 1, 3, 3, 2, 3, 1, 3, 3, 3, 2, 3, 2, 3, 3, 2, 2, 3, 1, 3, 3, 3, 1, 3...
$ Name        <chr> "Braund, Mr. Owen Harris", "Cumings, Mrs. John Bradley (Florence Briggs Thayer)", "He...
$ Sex         <chr> "male", "female", "female", "female", "male", "male", "male", "male", "female", "fema...
$ Age         <dbl> 22.00000, 38.00000, 26.00000, 35.00000, 35.00000, 26.50759, 54.00000, 2.00000, 27.000...
$ SibSp       <dbl> 1, 1, 0, 1, 0, 0, 0, 3, 0, 1, 1, 0, 0, 1, 0, 0, 4, 0, 1, 0, 0, 0, 0, 0, 3, 1, 0, 3, 0...
$ Parch       <dbl> 0, 0, 0, 0, 0, 0, 0, 1, 2, 0, 1, 0, 0, 5, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 5, 0, 2, 0...
$ Ticket      <chr> "A/5 21171", "PC 17599", "STON/O2. 3101282", "113803", "373450", "330877", "17463", "...
$ Fare        <dbl> 7.2500, 71.2833, 7.9250, 53.1000, 8.0500, 8.4583, 51.8625, 21.0750, 11.1333, 30.0708,...
$ Cabin       <chr> NA, "C85", NA, "C123", NA, NA, "E46", NA, NA, NA, "G6", "C103", NA, NA, NA, NA, NA, N...
$ Embarked    <chr> "S", "C", "S", "S", "S", "Q", "S", "S", "S", "C", "S", "S", "S", "S", "S", "S", "Q", ...

El dataset original consiste de 891 observaciones y 12 variables, de las cuales seleccionaremos las siguientes:

  • PassengerId: id del pasajero
  • Survived: 1 = sobrevivió, 0 = no sobrevivió
  • Pclass: clase del boleto. 1 = primera clase, 2 = segunda clase, 3 = tercera clase
  • Sex: sexo
  • Age: edad
  • SibSp: cantidad de hermanos / conyugues a bordo del barco
  • Parch: cantidad de padres / hijos a bordo del barco
  • Fare: tarifa
  • Embarked: puerto de embarcación. C = Cherbourg, Q = Queenstown, S = Southampton

Como transformación inicial convertimos a factor las variables Survived, Pclass y Embarked.

data <- data_original %>% 
  select(PassengerId,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked) %>% 
  mutate_at(.vars = c('Survived','Pclass','Embarked'),
            .funs = as.factor)

data

A continuación exploraremos algunas de las variables mediante un gráfico de ggpairs, el cual permite analizarlas de a pares.

# Realizo el gráfico de GGpairs para las variables seleccionadas

data %>% 
  select(Survived,Pclass,Sex,Age,Fare) %>% 
  ggpairs(.,mapping = aes(colour=Survived), legend = c(1,1)) + 
  theme(axis.text.x = element_text(angle = 90, hjust = 1)) + 
  theme_bw() +
  theme(legend.position = "bottom")

En el gráfico podemos observar:

  • Vemos gráficamente, y posteriormente lo confirmaremos analíticamente, que hay una mayor cantidad de no sobrevivientes que de sobrevivientes. La relación es aproximadamente 60/40.
  • La variable de clase muestra una distribución aproximadamente uniforme para el grupo de los sobrevivientes, pero un marcado desbalanceo en cuanto a la tercera clase dentro de los no sobrevivientes. Esto nos da un indicio de que la mayoría de los no sobrevivientes pertenecían a la clase más baja (tercera clase).
  • De la totalidad de los hombres que viajaban a bordo del Titanic, más del 80% fallecieron. En el caso de las mujeres sucedió lo contrario, la gran mayoría sobrevivió a la tragedia.
  • En cuanto a las variables de edad y tarifa no se observan diferencias muy significativas entre el grupo de sobrevivientes y el de no sobrevivientes. Analizadas conjuntamente tienen un coeficiente de correlación de 0.118 lo cual es bastante bajo. De todas formas se puede ver en el boxplot entre fare y survived que la mediana de la tarifa abonada por los sobrevivientes es levemente mayor al de los que no sobrevivieron.

Como lo indica el gráfico de barras en la esquina superior izquierda, hay un desbalanceo entre las clases target del dataset. Específicamente, hay 549 casos de personas que no sobrevivieron (61.6%) contra 342 sobrevivientes (38.3%).

# Muestro la distribución original de las clases (Sobrevivientes vs No Sobrevivientes)

data %>% 
  group_by(Survived) %>% 
  summarise(cantidad_casos = n(),
            proporcion = cantidad_casos/nrow(data))

A continuación dividiremos el dataset en un conjunto de entrenamiento (70% de los datos) y otro conjunto de validación (30%). Verificamos que luego de la partición se haya mantenido la proporción de sobrevivientes y fallecidos.

# Divido el dataset en conjunto de entrenamiento (70% de los datos) y validación (30% de los datos)

train_validation <- data %>% resample_partition(c(train=0.7,test=0.3))

data.train <- train_validation$train %>% as_tibble()

data.validation <- train_validation$test %>% as_tibble()

# Verifico que se cumpla la división de 70-30

paste0("Tamaño total del dataset: ",nrow(data))
[1] "Tamaño total del dataset: 891"
paste0("Partición de entrenamiento (70%): ",nrow(data.train))
[1] "Partición de entrenamiento (70%): 623"
paste0("Partición de validación (30%): ",nrow(data.validation))
[1] "Partición de validación (30%): 268"
# Verifico distribución de clases en conjunto de entrenamiento

data.train %>% 
  group_by(Survived) %>% 
  summarise(cantidad_casos = n(),
            proporcion = cantidad_casos/nrow(data.train))

# Verifico distribución de clases en conjunto de validación

data.validation %>% 
  group_by(Survived) %>% 
  summarise(cantidad_casos = n(),
            proporcion = cantidad_casos/nrow(data.validation))

Predicciones

Genero un primer modelo en base al dataset de entrenamiento para clasificar a los pasajeros en sobrevivientes o no, basado en las variables Pclass, Sex y Age.

# Genero el modelo 1 basado en Pclass, Sex y Age.

m1 <- glm(data=data.train,formula = Survived ~ Pclass+Sex+Age, family = 'binomial')

#Imprimo el resumen del modelo

m1 %>% tidy()

El resultado de este primer modelo nos indica que todos sus coeficientes son significativos y además negativos. Los mismos reflejan que, comparado al caso base de una mujer de primera clase, en el resto de los casos el individuo tendrá menor probabilidad de supervivencia. Es decir, un hombre de la misma edad y clase de una mujer tendrá menor probabilidad de sobrevivir. Si además de ser hombre, también es de una clase más baja, sus chances disminuyen más aún. Finalmente, un incremento en la edad del pasajero contribuye también negativamente a su chance de sobrevivir.

A continuación analizaremos dos predicciones puntuales: en un caso será Jack, un hombre de 20 años y que pertenece a tercera clase. Y por el otro lado Rose, una mujer de 17 años que pertenece a primera clase. A la luz de lo observado hasta el momento, esperaremos que Rose tenga mayor probabilidad de sobrevivir a la tragedia que Jack.

# Definimos a los individuos Rose y Jack para el experimento de predicción
Rose <- data.frame(Pclass= as.factor(1),
           Sex='female',
           Age=17)

Jack <- data.frame(Pclass= as.factor(3),
           Sex='male',
           Age=20)

# Predecimos utilizando nuestro modelo_1

Rose.prob <- predict(m1,Rose,type = 'response')

Jack.prob <- predict(m1,Jack,type = 'response')

# Imprimimos los resultados

paste0("Probabilidad de supervivencia de Rose: ",round(Rose.prob,3))
[1] "Probabilidad de supervivencia de Rose: 0.952"
paste0("Probabilidad de supervivencia de Jack: ",round(Jack.prob,3))
[1] "Probabilidad de supervivencia de Jack: 0.125"

Tal como esperábamos, la probabilidad de sobrevivir de Rose (96.2%) supera ampliamente a la de Jack (0.12%), quien presentaba las cualidades de mayor riesgo de vida (hombre y tercera clase) en el contexto de este problema.

Generación de modelos

Vamos a generar tres nuevos modelos con distintas combinaciones de covariables para evaluar cuál de ellos realiza un mejor trabajo a la hora de predecir la probabilidad de supervivencia.

# Definimos la lista de fórmulas con las expresiones de todos los modelos. Se incluye m1 que era el modelo ya analizado en los puntos anteriores.

logit_formulas <- formulas(.response = ~Survived,
                           m1= ~Pclass+Sex+Age,
                           m2= ~Pclass+SibSp+Parch, 
                           m3= ~Sex+Age+Fare,  
                           m4= ~Pclass+Sex+Age+Embarked
                         )

# Generamos un dataframe de modelos

models <- data_frame(logit_formulas) %>% 
  mutate(models = names(logit_formulas), 
         expression = paste(logit_formulas),
         mod = map(logit_formulas, ~glm(.,family = 'binomial', data = data.train)),
         glance = map(mod,glance)) 
# Mostramos en detalle los coeficientes de cada modelo

models %>% 
  mutate(tidy = map(mod,tidy)) %>%
  unnest(tidy, .drop = TRUE) %>% 
  mutate(estimate=round(estimate,5),
         p.value=round(p.value,4)) %>% 
  select(models,expression,term,estimate,p.value)

Se puede observar que la gran mayoría de las covariables presentan coeficientes negativos y en algunos casos no resultaron significativos, como por ejemplo la variable SibSp del modelo m2. A continuación listaremos los modelos ordenados y seleccionaremos el modelo que mayor porcentaje de deviance explicada posea.

# Obtener las medidas de evaluacion de interes

models %>% 
  unnest(glance, .drop = TRUE) %>%
  mutate(perc_explained_dev = 1-deviance/null.deviance) %>% 
  select(models,deviance,perc_explained_dev,null.deviance) %>% 
  arrange(deviance)

Como observamos en la salida anterior, el modelo que seleccionaremos de acuerdo al criterio de mayor deviance explicada será m4.

De ahora en adelante trabajaremos con m4: Survived ~ Pclass + Sex + Age + Embarked

Evaluación del modelo

# Filtramos el dataframe de models para quedarnos con el modelo elegido (m4)

best.model <- models %>% 
              filter(models=='m4') %>% 
              select(mod)

# Generamos las predicciones utilizando m4

best.model.pred <- best.model %>% 
                   mutate(pred = map(mod,augment,type.predict='response')) %>% 
                   unnest(pred)

Ya teniendo las predicciones para cada observación, podemos generar la curva ROC del modelo m4 y calcular su área bajo la curva (AUC).

# Genero curva ROC

best.model.roc <- roc(response=best.model.pred$Survived,predictor = best.model.pred$.fitted)
Setting levels: control = 0, case = 1
Setting direction: controls < cases
# Grafico la curva ROC

ggroc(best.model.roc, size=1,color='red') + 
  geom_abline(slope = 1, intercept = 1, linetype='dashed') + 
  theme_bw() + 
  labs(title='Curva ROC - modelo m4')


# Imprimo el AUC del modelo

paste0("AUC modelo m4: ",round(best.model.roc$auc,3))
[1] "AUC modelo m4: 0.844"

Del gráfico obtenido de la curva ROC correspondiente al modelo seleccionado podemos decir que tiene una performance bastante mejor en comparación con un modelo basado en el azar. Esto se sustenta tanto gráficamente al mostrar una curva que se encuentra muy por arriba de la línea punteada (modelo azaroso), y también analíticamente donde obtuvimos un AUC = 0.852 > 0.5.

Como la curva ROC grafica el trade-off entre TPR (True Positive Rate) y FPR (False Positive Rate) para distintos puntos de corte, si por ejemplo se quisiera ganar en sensitividad para clasificar correctamente más observaciones positivas habrá que comprometer performance en especificidad, lo que derivaría en una mayor proporción de falsos positivos.

ggplot(best.model.pred, aes(x=Survived, y=.fitted, group=Survived,fill=factor(Survived))) +   geom_violin() +
  theme_bw() +
  guides(fill=FALSE) +
  labs(title='Violin plot', subtitle='Modelo m4', y='Predicted probability')

Por último en el violin plot lo que vemos es la concentración o densidad de las observaciones de acuerdo con su probabilidad estimada de supervivencia. Al separar los gráficos en su verdadera clasificación (azul para los sobrevivientes y rojo para los fallecidos) intentamos establecer si existe visiblemente un punto de corte para la probabilidad de supervivencia que nos permita separar lo mejor posible las observaciones en dichas categorías.

En este caso, si bien se nota una mayor concentración en probabilidades bajas para el caso de los fallecidos y de probabilidades altas en los sobrevivientes, no hay un punto de corte muy claro que podamos seleccionar desde este gráfico. Consecuentemente, realizaremos otros gráficos que tengan en cuenta métricas adicionales para realizar esta elección.

Elección del punto corte

Como mencionamos previamente nuestro objetivo ahora será el de elegir el punto de corte óptimo que nos permita clasificar a las observaciones con el menor error posible. Para realizar esta tarea nos valdremos ya no del conjunto de datos con el que entrenamos el modelo sino con la partición de validación.

Comenzamos generando predicciones sobre el conjunto de validación.

# Del dataset de validación selecciono sólo las variables que me interesan para la predicción

data.validation.pred <- data.validation %>% 
                        select(Pclass,Sex,Age,Embarked)
                        
# Genero predicciones

validation.pred <- best.model %>% 
                  mutate(pred = map(mod,augment,newdata=data.validation.pred,type.predict='response')) %>% 
                  unnest(pred) %>% 
                  bind_cols(data.validation)

Para elegir el punto de corte realizaremos un gráfico en el cual incluiremos simultáneamente las métricas ‘accuracy’, ‘sensitivity’, ‘specificity’, ‘precision’ y ‘recall’.

# Defino la funcion de métricas de predicción

prediction_metrics <- function(cutoff, predictions=validation.pred){
  table <- predictions %>% 
    mutate(predicted_class=if_else(.fitted>cutoff, 1, 0) %>% as.factor())
  
  confusionMatrix(table(table$predicted_class, table$Survived), positive = "1") %>%
    tidy() %>%
    select(term, estimate) %>%
    filter(term %in% c('accuracy', 'sensitivity', 'specificity', 'precision','recall')) %>%
    mutate(cutoff=cutoff)
  
}

# Genero secuencia de puntos de corte para pasarle a la función como parámetro

cutoffs = seq(
  min(validation.pred$.fitted),
  max(validation.pred$.fitted),
  0.005
)

# Genero dataframe con los distin
logit_pred= map_dfr(cutoffs, prediction_metrics)%>% mutate(term=as.factor(term))

ggplot(logit_pred, aes(cutoff,estimate, group=term, color=term)) + geom_line(size=1) +
  theme_bw() +
  labs(title= 'Accuracy, Sensitivity, Specificity, Recall y Precision', subtitle= 'Modelo m4', color="")

Analizando el gráfico podemos pensar en un buen punto de corte como el determinado por la intersección de las curvas de sensitividad y especificidad, ya que provee un buen trade-off entre dichas métricas. Pasado ese punto de intersección (o el más próximo a él que podamos encontrar), estaremos entrando en una zona de caída de la sensitivity o recall a expensas de un aumento en la specificity. En otras palabras, a medida que más aumente el punto de corte tendremos menos falsos positivos pero aumentarán los falsos negativos.

Pero sumado a esto hay que tener en cuenta dónde se posiciona la performance de nuestro modelo con ese punto de corte seleccionado en términos de accuracy, es decir, evaluando la proporcion de observaciones correctamente clasificadas sobre el total de las mismas. Es también en este punto de intersección elegido donde vemos que, si bien no es máxima, está en un nivel más que aceptable si consideramos la simplicidad del modelo que ajustamos. Si solamente nos guiáramos por la métrica de accuracy y buscáramos el punto donde ésta es máxima, y donde otra métrica como es la precisión (ratio entre los verdaderos caso positivos y la totalidad de las observaciones clasificadas como positivas) también tiene valores altos, habremos comprometido mucho en términos de recall donde la curva cae fuertemente a partir del cutoff ~ 0.65.

Calculando una nueva columna con la diferencia entre recall y specificity, y ordenando por ella considero las opciones que quedaron en el top 10 del listado. Al ser éstos puntos de corte muy próximos entre sí me quedo con el que mayor accuracy presenta que es el punto 0.38915448.

# Busco el punto de corte óptimo en las inmediaciones de la intersección entre recall y specificity

logit_pred %>% 
  spread(term,estimate) %>% 
  mutate(dif = recall - specificity) %>% 
  arrange(abs(dif),desc(accuracy))

# Guardo el punto de corte seleccionado

cutoff_seleccionado <- 0.38915448

Matriz de confusión


# Genreo la matriz de confusion para comparar los valores reales vs los predichos y de acuerdo al punto de corte seleccionado

tabla <- validation.pred %>% 
    mutate(predicted_class=if_else(.fitted>cutoff_seleccionado,"1", "0") %>% as.factor(),
           Survived= factor(Survived)) %>% select(predicted_class,Survived)

confusionMatrix(table(tabla$predicted_class, tabla$Survived), positive = "1") 
Confusion Matrix and Statistics

   
      0   1
  0 133  19
  1  34  82
                                          
               Accuracy : 0.8022          
                 95% CI : (0.7494, 0.8482)
    No Information Rate : 0.6231          
    P-Value [Acc > NIR] : 1.818e-10       
                                          
                  Kappa : 0.5909          
                                          
 Mcnemar's Test P-Value : 0.05447         
                                          
            Sensitivity : 0.8119          
            Specificity : 0.7964          
         Pos Pred Value : 0.7069          
         Neg Pred Value : 0.8750          
             Prevalence : 0.3769          
         Detection Rate : 0.3060          
   Detection Prevalence : 0.4328          
      Balanced Accuracy : 0.8041          
                                          
       'Positive' Class : 1               
                                          

La matriz de confusión obtenida a partir del conjunto de datos de validación (268 casos totales) es una manera de resumir el resultado del modelo.En su diagonal principal vemos la cantidad de casos correctamente clasificados, en particular 133 individuos del conjunto de validación que fallecieron fueron correctamente clasificados como tal; y 82 de los sobrevivientes fueron clasificados también correctamente con un 1 en su clase predicha.

Por otro lado, 19 de las personas que fueron clasificados como no sobrevivientes habían sobrevivido a la tragedia (falsos negativos) y finalmente hubieron 34 casos en los que se predijo que las personas sobrevivirían y realmente no lo habían hecho (falsos positivos).

Dataset de testeo

Para finalizar haremos predicciones sobre el conjunto de test, que contiene datos no utilizados hasta el momento ni para el entrenamiento ni para la validación del modelo. De esta forma tendremos una prueba fehaciente de la capacidad de generalización que posee el modelo.


# Leo el dataset de test

data.test <- read_csv('./datasets/titanic_complete_test.csv')


# Convierto a factor algunas variables

data.test <- data.test %>% 
  select(PassengerId,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked) %>% 
  mutate_at(.vars = c('Survived','Pclass','Embarked'),
            .funs = as.factor)

glimpse(data.test)                           
Observations: 418
Variables: 9
$ PassengerId <dbl> 892, 893, 894, 895, 896, 897, 898, 899, 900, 901, 902, 903, 904, 905, 906, 907, 908, ...
$ Survived    <fct> 0, 1, 0, 0, 1, 1, 0, 1, 1, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 1, 0, 0...
$ Pclass      <fct> 3, 3, 2, 3, 3, 3, 3, 2, 3, 3, 3, 1, 1, 2, 1, 2, 2, 3, 3, 3, 1, 3, 1, 1, 1, 3, 1, 3, 1...
$ Sex         <chr> "male", "female", "male", "male", "female", "male", "female", "male", "female", "male...
$ Age         <dbl> 34.50000, 47.00000, 62.00000, 27.00000, 22.00000, 14.00000, 30.00000, 26.00000, 18.00...
$ SibSp       <dbl> 0, 1, 0, 0, 1, 0, 0, 1, 0, 2, 0, 0, 1, 1, 1, 1, 0, 0, 1, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0...
$ Parch       <dbl> 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 3, 0, 1, 0, 0...
$ Fare        <dbl> 7.8292, 7.0000, 9.6875, 8.6625, 12.2875, 9.2250, 7.6292, 29.0000, 7.2292, 24.1500, 7....
$ Embarked    <fct> Q, S, Q, S, S, S, Q, S, C, S, S, S, S, S, S, C, Q, C, S, C, C, S, S, C, C, S, C, C, S...

El conjunto de datos de test consiste de 418 observaciones.


# Del dataset de validación selecciono sólo las variables que me interesan para la predicción

data.test.pred <- data.test %>% 
                  select(Pclass,Sex,Age,Embarked)
                        
# Genero predicciones

test.pred <-  best.model %>% 
              mutate(pred = map(mod,augment,newdata=data.test.pred,type.predict='response')) %>% 
              unnest(pred) %>% 
              bind_cols(data.test) %>% 
              mutate(predicted_class = if_else(.fitted>cutoff_seleccionado,"1","0") %>%  as.factor())


# Armo la tabla con los valores predichos y reales

tabla.test <-   test.pred %>% 
                mutate(Survived= factor(Survived)) %>% 
                select(predicted_class,Survived)

# Genero matriz de confusión

confusionMatrix(table(tabla.test$predicted_class, tabla.test$Survived), positive = "1") 
Confusion Matrix and Statistics

   
      0   1
  0 190  38
  1  71 119
                                          
               Accuracy : 0.7392          
                 95% CI : (0.6943, 0.7807)
    No Information Rate : 0.6244          
    P-Value [Acc > NIR] : 4.341e-07       
                                          
                  Kappa : 0.4664          
                                          
 Mcnemar's Test P-Value : 0.002176        
                                          
            Sensitivity : 0.7580          
            Specificity : 0.7280          
         Pos Pred Value : 0.6263          
         Neg Pred Value : 0.8333          
             Prevalence : 0.3756          
         Detection Rate : 0.2847          
   Detection Prevalence : 0.4545          
      Balanced Accuracy : 0.7430          
                                          
       'Positive' Class : 1               
                                          

Como era esperable, la performance sobre el conjunto de test es levemente inferior con respecto al conjunto de validación dado que en este último se optimizó el punto de corte. De los 418 individuos pertenecientes al dataset de testing 309 fueron correctamente clasificados en sus categorías correspondientes, es decir esto nos da casi un ratio de 3 de cada 4 correctamente clasificados.

Con un accuracy del 74% considero que este es un buen modelo teniendo en cuenta la simplicidad del mismo, que solo utiliza 4 variables y no requirió de ningún tipo de hiperparametrización ni optimización compleja o costosa.

---
title: "TP 3: Regresión Logística"
output:
  html_notebook:
    theme: united
    toc: yes
    toc_float: yes
    df_print: paged
    code_folding: none
---
#### __Axel Mantalian__ (axel.manta@gmail.com)
01/12/2019
```{r message=FALSE, warning=FALSE, include=FALSE}
knitr::opts_chunk$set(
  comment = "#>",
  collapse = TRUE,
  #cache = TRUE,
  out.width = "70%",
  fig.align = 'center',
  fig.width = 6,
  fig.asp = 0.618,  # 1 / phi
  fig.show = "hold"
)
```
Importo librerías a utilizar
```{r}
library(tidyverse)
library(broom)
library(ISLR)
library(GGally)
library(modelr)
library(pROC)
library(rlang)
library(caret)
set.seed(1992)
```
# Preparación de los datos

Comenzamos leyendo el conjunto de datos de entrenamiento.
```{r, warning=FALSE, message=FALSE}
data_original <- read_csv('./datasets/titanic_complete_train.csv')

glimpse(data_original)
```
El dataset original consiste de 891 observaciones y 12 variables, de las cuales seleccionaremos las siguientes:

* __PassengerId__: id del pasajero
* __Survived__: 1 = sobrevivió, 0 = no sobrevivió 
* __Pclass__: clase del boleto. 1 = primera clase, 2 = segunda clase, 3 = tercera clase
* __Sex__: sexo
* __Age__: edad
* __SibSp__: cantidad de hermanos / conyugues a bordo del barco
* __Parch__: cantidad de padres / hijos a bordo del barco
* __Fare__: tarifa
* __Embarked__: puerto de embarcación. C = Cherbourg, Q = Queenstown, S = Southampton

Como transformación inicial convertimos a factor las variables __*Survived*__, __*Pclass*__ y __*Embarked*__.
```{r}
data <- data_original %>% 
  select(PassengerId,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked) %>% 
  mutate_at(.vars = c('Survived','Pclass','Embarked'),
            .funs = as.factor)

data
```
A continuación exploraremos algunas de las variables mediante un gráfico de _ggpairs_, el cual permite analizarlas de a pares.
```{r, warning=FALSE, message=FALSE, fig.height=8,fig.width=8}
# Realizo el gráfico de GGpairs para las variables seleccionadas

data %>% 
  select(Survived,Pclass,Sex,Age,Fare) %>% 
  ggpairs(.,mapping = aes(colour=Survived), legend = c(1,1)) + 
  theme(axis.text.x = element_text(angle = 90, hjust = 1)) + 
  theme_bw() +
  theme(legend.position = "bottom")

``` 
En el gráfico podemos observar:

* Vemos gráficamente, y posteriormente lo confirmaremos analíticamente, que hay una mayor cantidad de no sobrevivientes que de sobrevivientes. La relación es aproximadamente 60/40.
* La variable de clase muestra una distribución aproximadamente uniforme para el grupo de los sobrevivientes, pero un marcado desbalanceo en cuanto a la tercera clase dentro de los no sobrevivientes. Esto nos da un indicio de que la mayoría de los no sobrevivientes pertenecían a la clase más baja (tercera clase).
* De la totalidad de los hombres que viajaban a bordo del Titanic, más del 80% fallecieron. En el caso de las mujeres sucedió lo contrario, la gran mayoría sobrevivió a la tragedia.
* En cuanto a las variables de _edad_ y _tarifa_ no se observan diferencias muy significativas entre el grupo de sobrevivientes y el de no sobrevivientes. Analizadas conjuntamente tienen un coeficiente de correlación de 0.118 lo cual es bastante bajo. De todas formas se puede ver en el boxplot entre _fare_ y _survived_ que la mediana de la tarifa abonada por los sobrevivientes es levemente mayor al de los que no sobrevivieron.

Como lo indica el gráfico de barras en la esquina superior izquierda, hay un desbalanceo entre las clases target del dataset. Específicamente, hay 549 casos de personas que no sobrevivieron (61.6%) contra 342 sobrevivientes (38.3%).
```{r}
# Muestro la distribución original de las clases (Sobrevivientes vs No Sobrevivientes)

data %>% 
  group_by(Survived) %>% 
  summarise(cantidad_casos = n(),
            proporcion = cantidad_casos/nrow(data))
```
A continuación dividiremos el dataset en un conjunto de entrenamiento (70% de los datos) y otro conjunto de validación (30%). Verificamos que luego de la partición se haya mantenido la proporción de sobrevivientes y fallecidos.
```{r}
# Divido el dataset en conjunto de entrenamiento (70% de los datos) y validación (30% de los datos)

train_validation <- data %>% resample_partition(c(train=0.7,test=0.3))

data.train <- train_validation$train %>% as_tibble()

data.validation <- train_validation$test %>% as_tibble()

# Verifico que se cumpla la división de 70-30

paste0("Tamaño total del dataset: ",nrow(data))

paste0("Partición de entrenamiento (70%): ",nrow(data.train))

paste0("Partición de validación (30%): ",nrow(data.validation))

# Verifico distribución de clases en conjunto de entrenamiento

data.train %>% 
  group_by(Survived) %>% 
  summarise(cantidad_casos = n(),
            proporcion = cantidad_casos/nrow(data.train))

# Verifico distribución de clases en conjunto de validación

data.validation %>% 
  group_by(Survived) %>% 
  summarise(cantidad_casos = n(),
            proporcion = cantidad_casos/nrow(data.validation))
```

# Predicciones

Genero un primer modelo en base al dataset de entrenamiento para clasificar a los pasajeros en sobrevivientes o no, basado en las variables _Pclass_, _Sex_ y _Age_.
```{r}
# Genero el modelo 1 basado en Pclass, Sex y Age.

m1 <- glm(data=data.train,formula = Survived ~ Pclass+Sex+Age, family = 'binomial')

#Imprimo el resumen del modelo

m1 %>% tidy()
```
El resultado de este primer modelo nos indica que todos sus coeficientes son significativos y además negativos. Los mismos reflejan que, comparado al caso base de una mujer de primera clase, en el resto de los casos el individuo tendrá menor probabilidad de supervivencia. Es decir, un hombre de la misma edad y clase de una mujer tendrá menor probabilidad de sobrevivir. 
Si además de ser hombre, también es de una clase más baja, sus chances disminuyen más aún. 
Finalmente, un incremento en la edad del pasajero contribuye también negativamente a su chance de sobrevivir.

A continuación analizaremos dos predicciones puntuales: en un caso será Jack, un hombre de 20 años y que pertenece a tercera clase. Y por el otro lado Rose, una mujer de 17 años que pertenece a primera clase. A la luz de lo observado hasta el momento, esperaremos que Rose tenga mayor probabilidad de sobrevivir a la tragedia que Jack.
```{r}
# Definimos a los individuos Rose y Jack para el experimento de predicción
Rose <- data.frame(Pclass= as.factor(1),
           Sex='female',
           Age=17)

Jack <- data.frame(Pclass= as.factor(3),
           Sex='male',
           Age=20)

# Predecimos utilizando nuestro modelo_1

Rose.prob <- predict(m1,Rose,type = 'response')

Jack.prob <- predict(m1,Jack,type = 'response')

# Imprimimos los resultados

paste0("Probabilidad de supervivencia de Rose: ",round(Rose.prob,3))

paste0("Probabilidad de supervivencia de Jack: ",round(Jack.prob,3))

```
Tal como esperábamos, la probabilidad de sobrevivir de Rose (96.2%) supera ampliamente a la de Jack (0.12%), quien presentaba las cualidades de mayor riesgo de vida (hombre y tercera clase) en el contexto de este problema.

# Generación de modelos

Vamos a generar tres nuevos modelos con distintas combinaciones de covariables para evaluar cuál de ellos realiza un mejor trabajo a la hora de predecir la probabilidad de supervivencia.
```{r, warning=FALSE}
# Definimos la lista de fórmulas con las expresiones de todos los modelos. Se incluye m1 que era el modelo ya analizado en los puntos anteriores.

logit_formulas <- formulas(.response = ~Survived,
                           m1= ~Pclass+Sex+Age,
                           m2= ~Pclass+SibSp+Parch, 
                           m3= ~Sex+Age+Fare,  
                           m4= ~Pclass+Sex+Age+Embarked
                         )

# Generamos un dataframe de modelos

models <- data_frame(logit_formulas) %>% 
  mutate(models = names(logit_formulas), 
         expression = paste(logit_formulas),
         mod = map(logit_formulas, ~glm(.,family = 'binomial', data = data.train)),
         glance = map(mod,glance)) 
```



```{r}
# Mostramos en detalle los coeficientes de cada modelo

models %>% 
  mutate(tidy = map(mod,tidy)) %>%
  unnest(tidy, .drop = TRUE) %>% 
  mutate(estimate=round(estimate,5),
         p.value=round(p.value,4)) %>% 
  select(models,expression,term,estimate,p.value)
```
Se puede observar que la gran mayoría de las covariables presentan coeficientes negativos y en algunos casos no resultaron significativos, como por ejemplo la variable __SibSp__ del modelo m2. A continuación listaremos los modelos ordenados y seleccionaremos el modelo que mayor porcentaje de _deviance_ explicada posea.
```{r}
# Obtener las medidas de evaluacion de interes

models %>% 
  unnest(glance, .drop = TRUE) %>%
  mutate(perc_explained_dev = 1-deviance/null.deviance) %>% 
  select(models,deviance,perc_explained_dev,null.deviance) %>% 
  arrange(deviance)
```
Como observamos en la salida anterior, el modelo que seleccionaremos de acuerdo al criterio de mayor _deviance_ explicada será m4. 

De ahora en adelante trabajaremos con m4: Survived ~ Pclass + Sex + Age + Embarked


# Evaluación del modelo

```{r}
# Filtramos el dataframe de models para quedarnos con el modelo elegido (m4)

best.model <- models %>% 
              filter(models=='m4') %>% 
              select(mod)

# Generamos las predicciones utilizando m4

best.model.pred <- best.model %>% 
                   mutate(pred = map(mod,augment,type.predict='response')) %>% 
                   unnest(pred)
```
Ya teniendo las predicciones para cada observación, podemos generar la curva ROC del modelo m4 y calcular su área bajo la curva (AUC).
```{r}
# Genero curva ROC

best.model.roc <- roc(response=best.model.pred$Survived,predictor = best.model.pred$.fitted)

# Grafico la curva ROC

ggroc(best.model.roc, size=1,color='red') + 
  geom_abline(slope = 1, intercept = 1, linetype='dashed') + 
  theme_bw() + 
  labs(title='Curva ROC - modelo m4')

# Imprimo el AUC del modelo

paste0("AUC modelo m4: ",round(best.model.roc$auc,3))
```
Del gráfico obtenido de la curva ROC correspondiente al modelo seleccionado podemos decir que tiene una performance bastante mejor en comparación con un modelo basado en el azar. Esto se sustenta tanto gráficamente al mostrar una curva que se encuentra muy por arriba de la línea punteada (modelo azaroso), y también analíticamente donde obtuvimos un AUC = 0.852 > 0.5.

Como la curva ROC grafica el trade-off entre TPR (True Positive Rate) y FPR (False Positive Rate) para distintos puntos de corte, si por ejemplo se quisiera ganar en sensitividad para clasificar correctamente más observaciones positivas habrá que comprometer performance en especificidad, lo que derivaría en una mayor proporción de falsos positivos. 
```{r}
ggplot(best.model.pred, aes(x=Survived, y=.fitted, group=Survived,fill=factor(Survived))) +   geom_violin() +
  theme_bw() +
  guides(fill=FALSE) +
  labs(title='Violin plot', subtitle='Modelo m4', y='Predicted probability')
```
Por último en el violin plot lo que vemos es la concentración o densidad de las observaciones de acuerdo con su probabilidad estimada de supervivencia. Al separar los gráficos en su verdadera clasificación (azul para los sobrevivientes y rojo para los fallecidos) intentamos establecer si existe visiblemente un punto de corte para la probabilidad de supervivencia que nos permita separar lo mejor posible las observaciones en dichas categorías. 

En este caso, si bien se nota una mayor concentración en probabilidades bajas para el caso de los fallecidos y de probabilidades altas en los sobrevivientes, no hay un punto de corte muy claro que podamos seleccionar desde este gráfico. Consecuentemente, realizaremos otros gráficos que tengan en cuenta métricas adicionales para realizar esta elección. 

# Elección del punto corte

Como mencionamos previamente nuestro objetivo ahora será el de elegir el punto de corte óptimo que nos permita clasificar a las observaciones con el menor error posible. Para realizar esta tarea nos valdremos ya no del conjunto de datos con el que entrenamos el modelo sino con la partición de validación. 

Comenzamos generando predicciones sobre el conjunto de validación.

```{r}
# Del dataset de validación selecciono sólo las variables que me interesan para la predicción

data.validation.pred <- data.validation %>% 
                        select(Pclass,Sex,Age,Embarked)
                        
# Genero predicciones

validation.pred <- best.model %>% 
                  mutate(pred = map(mod,augment,newdata=data.validation.pred,type.predict='response')) %>% 
                  unnest(pred) %>% 
                  bind_cols(data.validation)
```
Para elegir el punto de corte realizaremos un gráfico en el cual incluiremos simultáneamente las métricas 'accuracy', 'sensitivity', 'specificity', 'precision' y 'recall'.

```{r}
# Defino la funcion de métricas de predicción

prediction_metrics <- function(cutoff, predictions=validation.pred){
  table <- predictions %>% 
    mutate(predicted_class=if_else(.fitted>cutoff, 1, 0) %>% as.factor())
  
  confusionMatrix(table(table$predicted_class, table$Survived), positive = "1") %>%
    tidy() %>%
    select(term, estimate) %>%
    filter(term %in% c('accuracy', 'sensitivity', 'specificity', 'precision','recall')) %>%
    mutate(cutoff=cutoff)
  
}

# Genero secuencia de puntos de corte para pasarle a la función como parámetro

cutoffs = seq(
  min(validation.pred$.fitted),
  max(validation.pred$.fitted),
  0.005
)

# Genero dataframe con los distin
logit_pred= map_dfr(cutoffs, prediction_metrics)%>% mutate(term=as.factor(term))

ggplot(logit_pred, aes(cutoff,estimate, group=term, color=term)) + geom_line(size=1) +
  theme_bw() +
  labs(title= 'Accuracy, Sensitivity, Specificity, Recall y Precision', subtitle= 'Modelo m4', color="")

```

Analizando el gráfico podemos pensar en un buen punto de corte como el determinado por la intersección de las curvas de sensitividad y especificidad, ya que provee un buen trade-off entre dichas métricas. Pasado ese punto de intersección (o el más próximo a él que podamos encontrar), estaremos entrando en una zona de caída de la sensitivity o recall a expensas de un aumento en la specificity. En otras palabras, a medida que más aumente el punto de corte tendremos menos falsos positivos pero aumentarán los falsos negativos. 

Pero sumado a esto hay que tener en cuenta dónde se posiciona la performance de nuestro modelo con ese punto de corte seleccionado en términos de accuracy, es decir, evaluando la proporcion de observaciones correctamente clasificadas sobre el total de las mismas. Es también en este punto de intersección elegido donde vemos que, si bien no es máxima, está en un nivel más que aceptable si consideramos la simplicidad del modelo que ajustamos. Si solamente nos guiáramos por la métrica de accuracy y buscáramos el punto donde ésta es máxima, y donde otra métrica como es la precisión (ratio entre los verdaderos caso positivos y la totalidad de las observaciones clasificadas como positivas) también tiene valores altos, habremos comprometido mucho en términos de recall donde la curva cae fuertemente a partir del cutoff ~ 0.65.

Calculando una nueva columna con la diferencia entre recall y specificity, y ordenando por ella considero las opciones que quedaron en el top 10 del listado. Al ser éstos puntos de corte muy próximos entre sí me quedo con el que mayor accuracy presenta que es el punto 0.38915448.

```{r}
# Busco el punto de corte óptimo en las inmediaciones de la intersección entre recall y specificity

logit_pred %>% 
  spread(term,estimate) %>% 
  mutate(dif = recall - specificity) %>% 
  arrange(abs(dif),desc(accuracy))

# Guardo el punto de corte seleccionado

cutoff_seleccionado <- 0.38915448

```

# Matriz de confusión


```{r}

# Genreo la matriz de confusion para comparar los valores reales vs los predichos y de acuerdo al punto de corte seleccionado

tabla <- validation.pred %>% 
    mutate(predicted_class=if_else(.fitted>cutoff_seleccionado,"1", "0") %>% as.factor(),
           Survived= factor(Survived)) %>% select(predicted_class,Survived)

confusionMatrix(table(tabla$predicted_class, tabla$Survived), positive = "1") 


```

La matriz de confusión obtenida a partir del conjunto de datos de validación (268 casos totales) es una manera de resumir el resultado del modelo.En su diagonal principal vemos la cantidad de casos correctamente clasificados, en particular 133 individuos del conjunto de validación que fallecieron fueron correctamente clasificados como tal; y 82 de los sobrevivientes fueron clasificados también correctamente con un 1 en su clase predicha. 

Por otro lado, 19 de las personas que fueron clasificados como no sobrevivientes habían sobrevivido a la tragedia (falsos negativos) y finalmente hubieron 34 casos en los que se predijo que las personas sobrevivirían y realmente no lo habían hecho (falsos positivos).

# Dataset de testeo

Para finalizar haremos predicciones sobre el conjunto de test, que contiene datos no utilizados hasta el momento ni para el entrenamiento ni para la validación del modelo. De esta forma tendremos una prueba fehaciente de la capacidad de generalización que posee el modelo. 

```{r,warning=FALSE, message=FALSE}

# Leo el dataset de test

data.test <- read_csv('./datasets/titanic_complete_test.csv')


# Convierto a factor algunas variables

data.test <- data.test %>% 
  select(PassengerId,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked) %>% 
  mutate_at(.vars = c('Survived','Pclass','Embarked'),
            .funs = as.factor)

glimpse(data.test)                           
```
El conjunto de datos de test consiste de 418 observaciones.


```{r}

# Del dataset de validación selecciono sólo las variables que me interesan para la predicción

data.test.pred <- data.test %>% 
                  select(Pclass,Sex,Age,Embarked)
                        
# Genero predicciones

test.pred <-  best.model %>% 
              mutate(pred = map(mod,augment,newdata=data.test.pred,type.predict='response')) %>% 
              unnest(pred) %>% 
              bind_cols(data.test) %>% 
              mutate(predicted_class = if_else(.fitted>cutoff_seleccionado,"1","0") %>%  as.factor())


# Armo la tabla con los valores predichos y reales

tabla.test <-   test.pred %>% 
                mutate(Survived= factor(Survived)) %>% 
                select(predicted_class,Survived)

# Genero matriz de confusión

confusionMatrix(table(tabla.test$predicted_class, tabla.test$Survived), positive = "1") 

```

Como era esperable, la performance sobre el conjunto de test es levemente inferior con respecto al conjunto de validación dado que en este último se optimizó el punto de corte. De los 418 individuos pertenecientes al dataset de testing 309 fueron correctamente clasificados en sus categorías correspondientes, es decir esto nos da casi un ratio de 3 de cada 4 correctamente clasificados.

Con un accuracy del 74% considero que este es un buen modelo teniendo en cuenta la simplicidad del mismo, que solo utiliza 4 variables y no requirió de ningún tipo de hiperparametrización ni optimización compleja o costosa.


