Desafio Kaggle
O naufrágio do RMS Titanic é um dos mais infames naufrágios da história. Em 15 de abril de 1912, durante sua viagem inaugural, o Titanic afundou depois de colidir com um iceberg, matando 1502 de 2224 passageiros e tripulantes. Essa tragédia sensacional chocou a comunidade internacional e levou a melhores normas de segurança para os navios.
Uma das razões pelas quais o naufrágio causou tamanha perda de vidas foi que não havia botes salva-vidas suficientes para os passageiros e a tripulação. Embora houvesse algum elemento de sorte envolvido na sobrevivência do naufrágio, alguns grupos de pessoas tinham maior probabilidade de sobreviver do que outros, como mulheres, crianças e a classe alta.
Neste desafio, pedimos que você conclua a análise de quais tipos de pessoas provavelmente sobreviveriam. Em particular, pedimos que você aplique as ferramentas de aprendizado de máquina para prever quais passageiros sobreviveram à tragédia.
Nesse relátorio contém:
Nesta análise exploratória verificamos padrões nos dados levantando estatísticas descritivas, tabelas cruzadas, dados faltantes e dados anomalos.
PassengerId | Survived | Pclass | Name | Sex | Age | SibSp | Parch | Ticket | Fare | Cabin | Embarked |
---|---|---|---|---|---|---|---|---|---|---|---|
1 | 0 | 3 | Braund, Mr. Owen Harris | male | 22 | 1 | 0 | A/5 21171 | 7.2500 | S | |
2 | 1 | 1 | Cumings, Mrs. John Bradley (Florence Briggs Thayer) | female | 38 | 1 | 0 | PC 17599 | 71.2833 | C85 | C |
3 | 1 | 3 | Heikkinen, Miss. Laina | female | 26 | 0 | 0 | STON/O2. 3101282 | 7.9250 | S |
#> Warning: Transformation introduced infinite values in continuous y-axis
#> Warning: Removed 15 rows containing non-finite values (stat_boxplot).
#> Warning: Removed 177 rows containing non-finite values (stat_boxplot).
De acordo com a analise exploratoria e o entendimento do problema a primeira hipotese é que os sobreviventes eram na sua maioria mulheres e crianças de classe alta e praticamente com relações familiares de primeiro grau, a segunda hipotese é que os homens de primeira classe tem uma chance maior de sobreviver.
Realizar uma modelagem de aprendizado supervisionado com R e H2O.ai com validação cruzada, seleção de variáveis, padronização de dados, treino, teste e apresentação de resultados.
Importância das variáveis:
Matriz de confusão:
Subimissão ao Kaggle e resultado:
Conclusões: