Introdução:

Hoje iremos analisar a base de dados do navio Titanic, disponibilizados na Base de Dados Master

Pacotes necessários:

library(forcats)
## Warning: pacote 'forcats' foi compilado no R versão 4.4.1
library(ggplot2)
## Warning: pacote 'ggplot2' foi compilado no R versão 4.4.1
library(ggpubr)
## Warning: pacote 'ggpubr' foi compilado no R versão 4.4.1

Importação da base de dados:

load("C:/Users/furta/OneDrive/Área de Trabalho/Base_de_dados-master/Titanic.RData")

Corrigindo a base de dados:

Titanic$Classe = iconv(Titanic$Classe, "latin1", "UTF-8")

Variáveis a serem estudadas:

Questão 1 - Quantas pessoas tinha no Titanic? Quantas informações (variáveis) existem no banco de dados?

  • Número total de pessoas: 2.200

  • Número de informações (variáveis) no banco de dados: 14

Questão 2 - Quantas pessoas sobreviveram ao Titanic?

tabela_sobrevivencia = table(Titanic$Sobreviveu)
tabela_sobrevivencia
## 
## Não sobreviveu     Sobreviveu 
##           1490            710

A escassez de botes salva-vidas, somada à falta de treinamento adequado da tripulação e à ausência de protocolos claros para lidar com uma emergência dessa magnitude, foram fatores decisivos para a baixa taxa de sobrevivência no Titanic. Esses elementos expuseram a vulnerabilidade dos passageiros, muitos dos quais estavam despreparados e inseguros sobre as ações a serem tomadas durante a evacuação, resultando em uma tragédia que poderia ter sido significativamente minimizada com medidas preventivas e uma infraestrutura de segurança mais robusta.

Questão 3 - Qual é a proporção de pessoas que sobreviveram ao Titanic?

round(prop.table(tabela_sobrevivencia)*100,2)
## 
## Não sobreviveu     Sobreviveu 
##          67.73          32.27

Isso significa que menos de 40% dos passageiros e tripulantes conseguiram sobreviver, o que reflete a gravidade das condições no momento do naufrágio. O resultado é indicativo das falhas tanto na infraestrutura de segurança quanto no gerenciamento da emergência, pois a grande maioria não teve a oportunidade de escapar com vida.

Análises descritivas dos dados:

Questão 4 - Quantas mulheres sobreviveram?

tabela_sobrevivencia_sexo <- table(Titanic$Sexo, Titanic$Sobreviveu)
tabela_sobrevivencia_sexo
##            
##             Não sobreviveu Sobreviveu
##   Feminino             126        344
##   Masculino           1364        366

Isso revela uma aplicação parcial da política “mulheres e crianças primeiro”. Esse dado também indica que, em comparação aos homens, as mulheres tinham uma maior chance de sobrevivência, possivelmente devido à prioridade que lhes foi dada nos resgates, alinhada com normas sociais da época.

Questão 5 - Quantas crianças sobreviveram?

tabela_sobrevivencia_idade <- table(Titanic$Idade, Titanic$Sobreviveu)
tabela_sobrevivencia_idade
##          
##           Não sobreviveu Sobreviveu
##   criança             52         57
##   adulto            1438        653

Crianças, sendo mais vulneráveis, podem ter sido ajudadas ou priorizadas durante os esforços de evacuação. Entretanto, o fato de nem todas terem sobrevivido também revela limitações graves no processo de resgate.

Questão 6 - Quantas pessoas da terceira classe sobreviveram?

tabela_sobrevivencia_classe <- table(Titanic$Classe, Titanic$Sobreviveu)
tabela_sobrevivencia_classe
##             
##              Não sobreviveu Sobreviveu
##   Primeira              122        202
##   Segunda               167        118
##   Terceira              528        178
##   Tripulação            673        212

Esse é um número relativamente baixo em comparação ao total. Isso reflete as desigualdades que marcaram o desastre, pois as classes sociais mais baixas tinham menos acesso aos botes salva-vidas e, possivelmente, foram evacuadas mais tardiamente. Esse dado expõe uma realidade injusta, na qual as condições socioeconômicas influenciaram diretamente a sobrevivência.

Questão 7 - Qual o percentual de mulheres que sobreviveu?

tabela_sobrevivencia_sexo <- table(Titanic$Sexo, Titanic$Sobreviveu)
tabela_sobrevivencia_sexo
##            
##             Não sobreviveu Sobreviveu
##   Feminino             126        344
##   Masculino           1364        366
round(prop.table(tabela_sobrevivencia_sexo)*100,2)
##            
##             Não sobreviveu Sobreviveu
##   Feminino            5.73      15.64
##   Masculino          62.00      16.64

Ao calcular o percentual de mulheres sobreviventes, fiquei espantado ao ver que apenas 15,64% escaparam. Esse dado é alarmante, pois indica que, apesar de haver sobreviventes, a maioria das mulheres não teve a mesma sorte. Isso levanta questões sobre o que realmente ocorreu naquele momento caótico e como o gênero pode influenciar as chances de sobrevivência. O que revela o quão era desigual os generos na epoca.

Questão 8 - Qual o percentual de crianças que sobreviveu?

tabela_sobrevivencia_idade <- table(Titanic$Idade, Titanic$Sobreviveu)
tabela_sobrevivencia_idade
##          
##           Não sobreviveu Sobreviveu
##   criança             52         57
##   adulto            1438        653
round(prop.table(tabela_sobrevivencia_idade)*100,2)
##          
##           Não sobreviveu Sobreviveu
##   criança           2.36       2.59
##   adulto           65.36      29.68

Realizei uma série de testes, explorando diferentes combinações entre duas variáveis para obter um percentual consolidado que representasse a relação entre elas. À medida que avançava nesse processo, ficou cada vez mais evidente como a análise de dados pode proporcionar uma visão mais detalhada e precisa. Esse aprofundamento permitiu identificar padrões e correlações antes obscuros, facilitando uma interpretação mais clara e fundamentada dos dados. O exercício também evidenciou a importância de ajustar as metodologias e considerar diferentes perspectivas para alcançar uma análise verdadeiramente significativa e embasada.

Questão 9 - Qual o percentual da terceira classe que sobreviveu?

tabela_sobrevivencia_classe <- table(Titanic$Classe, Titanic$Sobreviveu)
tabela_sobrevivencia_classe
##             
##              Não sobreviveu Sobreviveu
##   Primeira              122        202
##   Segunda               167        118
##   Terceira              528        178
##   Tripulação            673        212
round(prop.table(tabela_sobrevivencia_classe)*100,2)
##             
##              Não sobreviveu Sobreviveu
##   Primeira             5.55       9.18
##   Segunda              7.59       5.36
##   Terceira            24.00       8.09
##   Tripulação          30.59       9.64

Esse dado evidencia como a desigualdade social impactou as chances de sobrevivência no Titanic. É lamentável considerar que muitos passageiros da terceira classe provavelmente enfrentaram dificuldades pois devem ter sidos os ultimos a serem avisados sobre o naufrágio.

Se você quiser mais:

Questão 10 - Que tipo de gráfico você pode utilizar nesse tipo de dado? Por quê?

Grafico no formato de barra. Pois como temos apenas 4 variávies encaixa perfeitamente com esse gráfico.

Questão 11 - Você poderia construir um gráfico para a variável “sobreviveu”?

barplot(tabela_sobrevivencia,
        col = c("tan4", "rosybrown1"),
        main = "Gráfico 1 - Sobreviventes do Titanic",
        xlab = "Status",
        ylab = "Número de Pessoas")

Questão 12 - Você poderia construir um gráfico da variável “sobreviveu” por “sexo”?

tabela_sobrevivencia_sexo <- table(Titanic$Sexo, Titanic$Sobreviveu)
tabela_sobrevivencia_sexo
##            
##             Não sobreviveu Sobreviveu
##   Feminino             126        344
##   Masculino           1364        366
barplot(tabela_sobrevivencia_sexo,
        col = c("deeppink", "darkblue", "lightpink", "lightblue"),
        main = "Sobreviventes do Titanic por sexo",
        xlab = "Categoria",
        ylab = "Número de Pessoas",
        legend.text = c("Mulheres Sobreviventes", "Homens Sobreviventes", "Mulheres Não Sobreviventes", "Homens Não Sobreviventes"))

Um último desafio: fazer uma nova visualização de dados

tabela<-table(Titanic$Classe,Titanic$Sobreviveu)
tabela<-data.frame(tabela)
ggballoonplot(tabela, fill = "value")+
ggtitle("Sobreviventes do Titanic") 

mosaicplot(table(Titanic$Classe,Titanic$Sobreviveu), main = "Sobreviventes do Titanic", color = c("seashell","tan2"))

Questão 13 - Você poderia construir uma outra visualização de dados (além dessas duas)? Qual gráfico você sugere?

Sim! Eu usaria o flextable, com o tema do vader!

library(flextable)
## Warning: pacote 'flextable' foi compilado no R versão 4.4.1
## 
## Anexando pacote: 'flextable'
## Os seguintes objetos são mascarados por 'package:ggpubr':
## 
##     border, font, rotate
tabela_sobrevivencia
## 
## Não sobreviveu     Sobreviveu 
##           1490            710
class(tabela_sobrevivencia)
## [1] "table"
tabela_sobrevivencia2 = data.frame(tabela_sobrevivencia)
class(tabela_sobrevivencia2)
## [1] "data.frame"
tabela_sobrevivencia <- as.data.frame(tabela_sobrevivencia)

library(dplyr)
## Warning: pacote 'dplyr' foi compilado no R versão 4.4.1
## 
## Anexando pacote: 'dplyr'
## Os seguintes objetos são mascarados por 'package:stats':
## 
##     filter, lag
## Os seguintes objetos são mascarados por 'package:base':
## 
##     intersect, setdiff, setequal, union
flextable(tabela_sobrevivencia) %>% theme_vader()

Var1

Freq

Não sobreviveu

1,490

Sobreviveu

710

Questão 14 - Você consegue interpretar esses dois gráficos? o que eles estão dizendo?

O balloonplot, foi melhor para analisar do que tabelas com números. Eu gostei pois deu para entender a contagem entre as variaveis de acordo com o tamanho do círculo.

Já o mosaicplot, tive que pesquisar na internet para a interpretação, pois para analisar ficou estranho. Mas esse gráfico achei interessante para grandes informações.

Questão 15 - Se você fosse fazer um Pitch (apresentação de 03 a 05 minutos) com recomendações sobre o Titanic a partir dos dados. Qual ideia você passaria? Quero um posicionamento!

Diferença de Sobrevivência entre Classes:

Nós discutimos isso em aula, quando voce fez o comando para a tabela de sobrevivência por classe!

Gênero e Sobrevivência:

Falta de Infraestrutura Adequada: