1. Preparación de los datos

1.a. lectura de los datos

'data.frame':   418 obs. of  12 variables:
 $ PassengerId: int  892 893 894 895 896 897 898 899 900 901 ...
 $ Pclass     : int  3 3 2 3 3 3 3 2 3 3 ...
 $ Name       : Factor w/ 418 levels "Abbott, Master. Eugene Joseph",..: 210 409 273 414 182 370 85 58 5 104 ...
 $ Sex        : Factor w/ 2 levels "female","male": 2 1 2 2 1 2 1 2 1 2 ...
 $ Age        : num  34.5 47 62 27 22 14 30 26 18 21 ...
 $ SibSp      : int  0 1 0 0 1 0 0 1 0 2 ...
Error in gregexpr(calltext, singleline, fixed = TRUE) : 
  regular expression is invalid UTF-8

 $ Parch      : int  0 0 0 0 1 0 0 1 0 0 ...
 $ Ticket     : Factor w/ 363 levels "110469","110489",..: 153 222 74 148 139 262 159 85 101 270 ...
 $ Fare       : num  7.83 7 9.69 8.66 12.29 ...
 $ Cabin      : Factor w/ 76 levels "A11","A18","A21",..: NA NA NA NA NA NA NA NA NA NA ...
 $ Embarked   : Factor w/ 3 levels "C","Q","S": 2 3 2 3 3 3 2 3 1 3 ...
 $ Survived   : int  0 1 0 0 1 1 0 1 1 0 ...

El dataset Titanictiene 418 observaciones y 12 variables. Resulta conveniente tratas como factor a la variables Survived y Pclass.

1.b y c. Selección y transformación de las variables

Se seleccionan las variables PassengerId, Survived, Pclass, Sex, Age, SibSp, Parch, Fare y Embarked, y se transforman a factor las variables Survived, Pclass y Embarked.

1.d. Correlograma

En el siguiente gráfico vemos la correlación y las distribuciones de las variables Survived, Pclass, Sex, Age y Fare. En color rojo se destacan los que no sobrevivieron al hundimiento y en color celeste a aquellos que sí. Algunos puntos a destacar:

  • Baja tasa de supervivencia en las terceras y segundas clases (gráficos [2,1] y [1,2])
  • Edad promedio de 25 años [4,4] y correlación positiva entre tarifa y edad [4,5]
  • Mayor tarifa media entre aquellos que sobrevivieron [1,5]
  • Mayor tasa de supervivencia en mujeres que en hombres [1,3]
  • Baja tasa de supervivencia general (en torno a 35% de los pasajeros) [1,1]

e. Distribución de clase

Calculamos la distribución de clase para el dataset completo.

[1] "sobrevive el 37.6 %"

e. División del dataset en entrenamiento y validación

Dividimos el dataset en entrenamiento (70%) y validación (30%)

<293/125/418>

Verificamos la distribución de clase nuevamente.

[1] "sobrevive el 38.9 %" "en train"           
[1] "sobrevive el 34.4 %" "en validación"      

El dataset de validacion tiene 39.1% de supervivientes y validacion 34.4%. Para el tamaño del dataset (418 obs.) es un balanceo adecuado.

2.Predicciones (en entrenamiento)

2.a. Modelo

\[Survived_i = \beta_0 + \beta1 Pclass_i + \beta_2 Sex_i + \beta_3 Age_i \]


Call:
glm(formula = Survived ~ Pclass + Sex + Age, family = "binomial", 
    data = training(titanic_split))

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.0901  -0.6147  -0.5156   0.7591   2.2017  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  3.30916    0.65893   5.022 5.11e-07 ***
Pclass2     -1.67309    0.46407  -3.605 0.000312 ***
Pclass3     -2.00682    0.41455  -4.841 1.29e-06 ***
Sexmale     -2.28525    0.29939  -7.633 2.29e-14 ***
Age         -0.03457    0.01370  -2.523 0.011625 *  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 391.64  on 292  degrees of freedom
Residual deviance: 288.00  on