PROJETOS EM DATA SCIENCE
Projeto_4: Mineração de Texto
PROJETOS EM DATA SCIENCE
Pós-Graduação em Estatística e Experimentação Agropecuária da Universidade Federal de Lavras (DES/UFLA). Disciplina Tópicos Especiais. Professor Responsável Paulo Henrique. Análise e Visualização de Dados
Introdução
Os dados correspondem as características dos passageiros que estavam no navio Titanic, como: os nomes, idade, preço do ticket, totalizando 891 passageiros (dataset de treino) que estavam a bordo do Titanic e seu destino no acidente (falaceu/sobreviveu). O objetivo é criar modelos que corretamente prevejam a sobrevivência dos 418 passageiros restantes (dataset de teste).
Análise exploratória dos dados
Sobrevivência vs. Idade e Preço do ticket
Pessoas com maior poder aquisitivo tinham maior probabilidade de sobrevivência.
Sobrevivência vs. Sexo e Idade
A taxa de mortalidade entre mulheres (codificadas como 0) foi muito menor que a entre homens (codificados como 1).
Sobrevivência vs. Tamanho da família e Idade
Famílias maiores e solteiros tiveram maior dificuldade para sobreviver.
Sobrevivência vs. Título e Idade
Mostrando novamente a tendência de mulheres sobreviverem mais que homens. O título “Master” em particular é dado para crianças, e por isso mostra maior número de sobreviventes que os outros associados ao sexo masculino.
Tratamento dos dados
Na análise da sobreivência dos passageiros, removeremos os nomes dos passageiros e o código do bilhete. Dessa forma teremos um conjunto com nove variáveis.
Cada variável no banco de dadoos tem uma característica. Porém há uma informação faltante nos dados como na variável idade e cabine. Há variáveis numéricas, caractéres e fatores como o sexo, cabine e porto de embarque.
Observations: 891
Variables: 9
$ Survived <fct> 0, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 1, 0, 1, 0, 1, …
$ Pclass <fct> 3, 1, 3, 1, 3, 3, 1, 3, 3, 2, 3, 1, 3, 3, 3, 2, 3, 2, 3, 3, …
$ Sex <fct> male, female, female, female, male, male, male, male, female…
$ Age <dbl> 22, 38, 26, 35, 35, NA, 54, 2, 27, 14, 4, 58, 20, 39, 14, 55…
$ SibSp <fct> 1, 1, 0, 1, 0, 0, 0, 3, 0, 1, 1, 0, 0, 1, 0, 0, 4, 0, 1, 0, …
$ Parch <fct> 0, 0, 0, 0, 0, 0, 0, 1, 2, 0, 1, 0, 0, 5, 0, 0, 1, 0, 0, 0, …
$ Fare <dbl> 7.2500, 71.2833, 7.9250, 53.1000, 8.0500, 8.4583, 51.8625, 2…
$ Cabin <fct> , C85, , C123, , , E46, , , , G6, C103, , , , , , , , , , D5…
$ Embarked <fct> S, C, S, S, S, Q, S, S, S, C, S, S, S, S, S, S, Q, S, S, C, …
Inicialmente, haviam 577 homens e 314 mulheres no navio, onde 216 eram da primeira classe, 184 da segunda classe e 491 da terceira. Podemos notar que houveram 342 sobreviventes entre os 891 passageiros, correspondendo a 38%. Analisando as características dos sobreviventes conforme o sexo, temos:
Considerando o sexo femnino observamos uma maior sobrevivência quando comparado ao masculino em todas as classes. Ademais, as classes mais afetadas pelas mortes dos passageiros do sexo masculino foram a 2 e 3.
Sem considerar o fator da classe, a probabilidade de sobrevivência de um passageiro do sexo masculino foi de 109/577 e do sexo feminino de 233/314.
O modelo logístico para modelar esse fenômeno. Dividiremos os dados em dados testes e treinamento em 20% 80% respectivamente.
z test of coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 1.8497e+01 1.6594e+03 0.0111 0.991106
Pclass2 -1.0836e+00 3.4750e-01 -3.1183 0.001819 **
Pclass3 -2.2073e+00 3.6659e-01 -6.0212 1.731e-09 ***
Sexmale -2.6353e+00 2.3469e-01 -11.2289 < 2.2e-16 ***
Age -4.0087e-02 9.1340e-03 -4.3887 1.140e-05 ***
SibSp1 5.0183e-03 2.5223e-01 0.0199 0.984127
SibSp2 -6.5911e-01 6.1543e-01 -1.0710 0.284181
SibSp3 -1.6904e+00 8.3196e-01 -2.0318 0.042171 *
SibSp4 -1.6872e+00 8.0483e-01 -2.0964 0.036047 *
SibSp5 -1.6096e+01 9.6178e+02 -0.0167 0.986647
Parch1 2.8532e-01 3.1939e-01 0.8934 0.371669
Parch2 1.1311e-01 4.2425e-01 0.2666 0.789763
Parch3 4.0981e-01 1.0515e+00 0.3897 0.696737
Parch4 -1.5873e+01 1.0539e+03 -0.0151 0.987983
Parch5 -9.9151e-01 1.1836e+00 -0.8377 0.402181
[ reached getOption("max.print") -- omitted 4 rows ]
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
z test of coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 4.1279429 0.4705946 8.7718 < 2.2e-16 ***
Pclass2 -1.2912909 0.2965322 -4.3546 1.333e-05 ***
Pclass3 -2.5305685 0.3016483 -8.3891 < 2.2e-16 ***
Sexmale -2.6296791 0.2262727 -11.6217 < 2.2e-16 ***
Age -0.0449171 0.0086114 -5.2160 1.828e-07 ***
SibSp1 0.0622741 0.2373741 0.2623 0.79306
SibSp2 -0.5517874 0.5882008 -0.9381 0.34820
SibSp3 -1.5707251 0.7891354 -1.9904 0.04654 *
SibSp4 -1.6178773 0.7531086 -2.1483 0.03169 *
SibSp5 -14.9621831 584.1700243 -0.0256 0.97957
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
A qualidade de predição será comparada ao usar o modelo com os dados de teste. Assim, para o modelo ajustado relativo efeito da classe em que o passageiro se encontravam foi significativo. Considerando um limiar de 0,5, o modelo classificou corretamente 82,9% dos passageiros que morreram e 81,8% dos passageiros que sobreviveram considerando os dados de teste.
FALSE TRUE
0 39 4
1 8 18
O modelo de random forest se considerou um conjunto de100 árvores e mtry = 2. Concluímos que esse modelo foi melhor quanto a capacidade de predição na morte dos passageiros, aumentando para 90,2%. Entretanto, uma redução para 72,7% na classificação de passageiros que sobreviveram.
Confusion Matrix and Statistics
Reference
Prediction 0 1
0 41 9
1 2 17
Accuracy : 0.8406
95% CI : (0.7326, 0.9176)
No Information Rate : 0.6232
P-Value [Acc > NIR] : 6.893e-05
Kappa : 0.6415
Mcnemar's Test P-Value : 0.07044
Sensitivity : 0.9535
Specificity : 0.6538
Pos Pred Value : 0.8200
Neg Pred Value : 0.8947
Prevalence : 0.6232
Detection Rate : 0.5942
Detection Prevalence : 0.7246
Balanced Accuracy : 0.8037
'Positive' Class : 0