Analise de dados do dataset - Titanic - Kaggle

Vinicius de Sousa - Cientista de dados

2019-05-11

Desafio Kaggle

O naufrágio do RMS Titanic é um dos mais infames naufrágios da história. Em 15 de abril de 1912, durante sua viagem inaugural, o Titanic afundou depois de colidir com um iceberg, matando 1502 de 2224 passageiros e tripulantes. Essa tragédia sensacional chocou a comunidade internacional e levou a melhores normas de segurança para os navios.

Uma das razões pelas quais o naufrágio causou tamanha perda de vidas foi que não havia botes salva-vidas suficientes para os passageiros e a tripulação. Embora houvesse algum elemento de sorte envolvido na sobrevivência do naufrágio, alguns grupos de pessoas tinham maior probabilidade de sobreviver do que outros, como mulheres, crianças e a classe alta.

Neste desafio, pedimos que você conclua a análise de quais tipos de pessoas provavelmente sobreviveriam. Em particular, pedimos que você aplique as ferramentas de aprendizado de máquina para prever quais passageiros sobreviveram à tragédia.

Nesse relátorio contém:

Análise exploratória de dados

Nesta análise exploratória verificamos padrões nos dados levantando estatísticas descritivas, tabelas cruzadas, dados faltantes e dados anomalos.

PassengerId Survived Pclass Name Sex Age SibSp Parch Ticket Fare Cabin Embarked
1 0 3 Braund, Mr. Owen Harris male 22 1 0 A/5 21171 7.2500 S
2 1 1 Cumings, Mrs. John Bradley (Florence Briggs Thayer) female 38 1 0 PC 17599 71.2833 C85 C
3 1 3 Heikkinen, Miss. Laina female 26 0 0 STON/O2. 3101282 7.9250 S

#> Warning: Transformation introduced infinite values in continuous y-axis
#> Warning: Removed 15 rows containing non-finite values (stat_boxplot).
#> Warning: Removed 177 rows containing non-finite values (stat_boxplot).

Engenharia de recursos

De acordo com a analise exploratoria e o entendimento do problema a primeira hipotese é que os sobreviventes eram na sua maioria mulheres e crianças de classe alta e praticamente com relações familiares de primeiro grau, a segunda hipotese é que os homens de primeira classe tem uma chance maior de sobreviver.

Modelgem do problema com R e H2O.ai

Realizar uma modelagem de aprendizado supervisionado com R e H2O.ai com validação cruzada, seleção de variáveis, padronização de dados, treino, teste e apresentação de resultados.

Resultados da modelagem