PROJETOS EM DATA SCIENCE

Pós-Graduação em Estatística e Experimentação Agropecuária da Universidade Federal de Lavras (DES/UFLA). Disciplina Tópicos Especiais. Professor Responsável Paulo Henrique. Análise e Visualização de Dados

Introdução

Os dados correspondem as características dos passageiros que estavam no navio Titanic, como: os nomes, idade, preço do ticket, totalizando 891 passageiros (dataset de treino) que estavam a bordo do Titanic e seu destino no acidente (falaceu/sobreviveu). O objetivo é criar modelos que corretamente prevejam a sobrevivência dos 418 passageiros restantes (dataset de teste).

Análise exploratória dos dados

Sobrevivência vs. Idade e Preço do ticket

Pessoas com maior poder aquisitivo tinham maior probabilidade de sobrevivência.

Sobrevivência vs. Sexo e Idade

A taxa de mortalidade entre mulheres (codificadas como 0) foi muito menor que a entre homens (codificados como 1).

Sobrevivência vs. Tamanho da família e Idade

Famílias maiores e solteiros tiveram maior dificuldade para sobreviver.

Sobrevivência vs. Título e Idade

Mostrando novamente a tendência de mulheres sobreviverem mais que homens. O título “Master” em particular é dado para crianças, e por isso mostra maior número de sobreviventes que os outros associados ao sexo masculino.

Tratamento dos dados

Na análise da sobreivência dos passageiros, removeremos os nomes dos passageiros e o código do bilhete. Dessa forma teremos um conjunto com nove variáveis.

Cada variável no banco de dadoos tem uma característica. Porém há uma informação faltante nos dados como na variável idade e cabine. Há variáveis numéricas, caractéres e fatores como o sexo, cabine e porto de embarque.

Observations: 891
Variables: 9
$ Survived <fct> 0, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 1, 0, 1, 0, 1, …
$ Pclass   <fct> 3, 1, 3, 1, 3, 3, 1, 3, 3, 2, 3, 1, 3, 3, 3, 2, 3, 2, 3, 3, …
$ Sex      <fct> male, female, female, female, male, male, male, male, female…
$ Age      <dbl> 22, 38, 26, 35, 35, NA, 54, 2, 27, 14, 4, 58, 20, 39, 14, 55…
$ SibSp    <fct> 1, 1, 0, 1, 0, 0, 0, 3, 0, 1, 1, 0, 0, 1, 0, 0, 4, 0, 1, 0, …
$ Parch    <fct> 0, 0, 0, 0, 0, 0, 0, 1, 2, 0, 1, 0, 0, 5, 0, 0, 1, 0, 0, 0, …
$ Fare     <dbl> 7.2500, 71.2833, 7.9250, 53.1000, 8.0500, 8.4583, 51.8625, 2…
$ Cabin    <fct> , C85, , C123, , , E46, , , , G6, C103, , , , , , , , , , D5…
$ Embarked <fct> S, C, S, S, S, Q, S, S, S, C, S, S, S, S, S, S, Q, S, S, C, …

Inicialmente, haviam 577 homens e 314 mulheres no navio, onde 216 eram da primeira classe, 184 da segunda classe e 491 da terceira. Podemos notar que houveram 342 sobreviventes entre os 891 passageiros, correspondendo a 38%. Analisando as características dos sobreviventes conforme o sexo, temos:

Considerando o sexo femnino observamos uma maior sobrevivência quando comparado ao masculino em todas as classes. Ademais, as classes mais afetadas pelas mortes dos passageiros do sexo masculino foram a 2 e 3.

Sem considerar o fator da classe, a probabilidade de sobrevivência de um passageiro do sexo masculino foi de 109/577 e do sexo feminino de 233/314.

O modelo logístico para modelar esse fenômeno. Dividiremos os dados em dados testes e treinamento em 20% 80% respectivamente.


z test of coefficients:

               Estimate  Std. Error  z value  Pr(>|z|)    
(Intercept)  1.8497e+01  1.6594e+03   0.0111  0.991106    
Pclass2     -1.0836e+00  3.4750e-01  -3.1183  0.001819 ** 
Pclass3     -2.2073e+00  3.6659e-01  -6.0212 1.731e-09 ***
Sexmale     -2.6353e+00  2.3469e-01 -11.2289 < 2.2e-16 ***
Age         -4.0087e-02  9.1340e-03  -4.3887 1.140e-05 ***
SibSp1       5.0183e-03  2.5223e-01   0.0199  0.984127    
SibSp2      -6.5911e-01  6.1543e-01  -1.0710  0.284181    
SibSp3      -1.6904e+00  8.3196e-01  -2.0318  0.042171 *  
SibSp4      -1.6872e+00  8.0483e-01  -2.0964  0.036047 *  
SibSp5      -1.6096e+01  9.6178e+02  -0.0167  0.986647    
Parch1       2.8532e-01  3.1939e-01   0.8934  0.371669    
Parch2       1.1311e-01  4.2425e-01   0.2666  0.789763    
Parch3       4.0981e-01  1.0515e+00   0.3897  0.696737    
Parch4      -1.5873e+01  1.0539e+03  -0.0151  0.987983    
Parch5      -9.9151e-01  1.1836e+00  -0.8377  0.402181    
 [ reached getOption("max.print") -- omitted 4 rows ]
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

z test of coefficients:

               Estimate  Std. Error  z value  Pr(>|z|)    
(Intercept)   4.1279429   0.4705946   8.7718 < 2.2e-16 ***
Pclass2      -1.2912909   0.2965322  -4.3546 1.333e-05 ***
Pclass3      -2.5305685   0.3016483  -8.3891 < 2.2e-16 ***
Sexmale      -2.6296791   0.2262727 -11.6217 < 2.2e-16 ***
Age          -0.0449171   0.0086114  -5.2160 1.828e-07 ***
SibSp1        0.0622741   0.2373741   0.2623   0.79306    
SibSp2       -0.5517874   0.5882008  -0.9381   0.34820    
SibSp3       -1.5707251   0.7891354  -1.9904   0.04654 *  
SibSp4       -1.6178773   0.7531086  -2.1483   0.03169 *  
SibSp5      -14.9621831 584.1700243  -0.0256   0.97957    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

A qualidade de predição será comparada ao usar o modelo com os dados de teste. Assim, para o modelo ajustado relativo efeito da classe em que o passageiro se encontravam foi significativo. Considerando um limiar de 0,5, o modelo classificou corretamente 82,9% dos passageiros que morreram e 81,8% dos passageiros que sobreviveram considerando os dados de teste.

   
    FALSE TRUE
  0    39    4
  1     8   18

O modelo de random forest se considerou um conjunto de100 árvores e mtry = 2. Concluímos que esse modelo foi melhor quanto a capacidade de predição na morte dos passageiros, aumentando para 90,2%. Entretanto, uma redução para 72,7% na classificação de passageiros que sobreviveram.

Confusion Matrix and Statistics

          Reference
Prediction  0  1
         0 41  9
         1  2 17
                                          
               Accuracy : 0.8406          
                 95% CI : (0.7326, 0.9176)
    No Information Rate : 0.6232          
    P-Value [Acc > NIR] : 6.893e-05       
                                          
                  Kappa : 0.6415          
                                          
 Mcnemar's Test P-Value : 0.07044         
                                          
            Sensitivity : 0.9535          
            Specificity : 0.6538          
         Pos Pred Value : 0.8200          
         Neg Pred Value : 0.8947          
             Prevalence : 0.6232          
         Detection Rate : 0.5942          
   Detection Prevalence : 0.7246          
      Balanced Accuracy : 0.8037          
                                          
       'Positive' Class : 0               
                                          

Carlos Antônio Zarzar

03 de dezembro de 2019