Introdução

Nesse trabalho vamos fazer uma análise sobre os dados do Titanic.RData

Pacotes necessários

library(forcats)
library(ggplot2)
library(ggpubr)

Carregar a base de dados

Aqui vou carregar o arquivo do Titanic.Rdata, estou usando o computador do meu padrasto por isso o usuário ta com nome diferente.

load("C:/Users/dalto/Downloads/Trabalho de Estatística/Titanic.RData")

Olhar a base de dados

str(Titanic)
## 'data.frame':    2200 obs. of  4 variables:
##  $ Classe    : Factor w/ 4 levels "Tripula\xe7\xe3o",..: 2 2 2 2 2 2 2 2 2 2 ...
##  $ Idade     : Factor w/ 2 levels "criança","adulto": 2 2 2 2 2 2 2 2 2 2 ...
##  $ Sexo      : Factor w/ 2 levels "Feminino","Masculino": 2 2 2 2 2 2 2 2 2 2 ...
##  $ Sobreviveu: Factor w/ 2 levels "Não sobreviveu",..: 2 2 2 2 2 2 2 2 2 2 ...
head(Titanic$Classe)
## [1] Primeira Primeira Primeira Primeira Primeira Primeira
## Levels: Tripula\xe7\xe3o Primeira Segunda Terceira
tail(Titanic$Classe)
## [1] Tripula\xe7\xe3o Tripula\xe7\xe3o Tripula\xe7\xe3o Tripula\xe7\xe3o
## [5] Tripula\xe7\xe3o Tripula\xe7\xe3o
## Levels: Tripula\xe7\xe3o Primeira Segunda Terceira
# Tripulação está escrito de forma errada

Corrigir a base de dados

Titanic$Classe = iconv(Titanic$Classe, "latin1", "UTF-8")

Verificar se problema foi corrigido

str(Titanic)
## 'data.frame':    2200 obs. of  4 variables:
##  $ Classe    : chr  "Primeira" "Primeira" "Primeira" "Primeira" ...
##  $ Idade     : Factor w/ 2 levels "criança","adulto": 2 2 2 2 2 2 2 2 2 2 ...
##  $ Sexo      : Factor w/ 2 levels "Feminino","Masculino": 2 2 2 2 2 2 2 2 2 2 ...
##  $ Sobreviveu: Factor w/ 2 levels "Não sobreviveu",..: 2 2 2 2 2 2 2 2 2 2 ...
tail(Titanic$Classe)
## [1] "Tripulação" "Tripulação" "Tripulação" "Tripulação" "Tripulação"
## [6] "Tripulação"
View(Titanic)
# problema resolvido!

Resolver as questões do “Conheça os seus dados”

1 - Quantas pessoas tinham no Titanic? Quantas informações (variáveis) existem no banco de dados?

Resposta: Haviam 2200 pessoas no Titanic. Existem 4 informações (variáveis) no banco de dados do Titanic. Obtivemos esse resultado baseado na explicação que o professor deu em aula, onde as pessoas são representadas pelas linhas e as variáveis pelas colunas. No final da tabela também há como extrair essas informações, através dessa estruturação que colabora trazendo uma melhor compreensão do conteúdo e dos dados fornecidos.

2-Quantas pessoas sobreviveram ao Titanic?

tabela_sobrevivencia = table(Titanic$Sobreviveu)
tabela_sobrevivencia
## 
## Não sobreviveu     Sobreviveu 
##           1490            710

Resposta: Sobreviveram 710 pessoas ao Titanic. Onde a quantidade de passageiros que não sobreviveram chega a 1490 de 2200 pessoas que estavam presentes na embarcação, resultado de uma deficiência na segurança do navio e influência de fatores como as classes sociais e gênero nas taxas de sobrevivência. Para achar esse resultado utilizei o código da tabela_sobrevivencia que foi introduzido na segunda aula da matéria de estatística.

3-Qual é a proporção de pessoas que sobreviveram ao Titanic?

round(prop.table(tabela_sobrevivencia)*100,2)
## 
## Não sobreviveu     Sobreviveu 
##          67.73          32.27

Resposta: A proporção de pessoas que sobreviveram ao Titanic é de 32.27%, cerca de um terço dos passageiros que estavam na embarcação resistiram ao desastre causado pelo naufrágio do Titanic. Também introduzido na segunda aula, o cálculo que podemos usar para chegar a esse resultado é basicamente dividir a quantidade total de passageiros presentes no navio pela quantidade de sobreviventes, resultando em 32.27%.

4-Quantas mulheres sobreviveram?

tabela_sobrevivencia_Sexo = table(Titanic$Sobreviveu, Titanic$Sexo)
tabela_sobrevivencia_Sexo
##                 
##                  Feminino Masculino
##   Não sobreviveu      126      1364
##   Sobreviveu          344       366

Resposta: Sobreviveram 344 de 470 mulheres que estavam embarcadas. Isso nos faz refletir sobre como as mulheres, principalmente as da primeira classe, tiveram prioridade em relação aos homens devido às políticas de evacuação da época, tendo assim, uma taxa de sobrevivência maior do que a dos homens. O código utilizado para responder essa pergunta foi tabela_sobrevivencia_sexo.

5-Quantas crianças sobreviveram?

tabela_sobrevivencia_Idade = table(Titanic$Sobreviveu, Titanic$Idade)
tabela_sobrevivencia_Idade
##                 
##                  criança adulto
##   Não sobreviveu      52   1438
##   Sobreviveu          57    653

Resposta: Sobreviveram 57 de 109 crianças presentes no naufrágio. Através das políticas de evacuação, as crianças tiveram prioridade juntamente das mulheres, tendo mais possibilidades de sobreviver em relação aos homens. Ainda assim, algumas crianças da terceira classe e da tripulação não tiveram as mesmas chances que as crianças da primeira classe tiveram, evidenciando novamente o problema entre as distinções de classes. O código que usei foi tabela_sobrevivencia_Idade.

6-Quantas pessoas da terceira classe sobreviveram?

tabela_sobrevivencia_Classe = table(Titanic$Sobreviveu, Titanic$Classe)
tabela_sobrevivencia_Classe
##                 
##                  Primeira Segunda Terceira Tripulação
##   Não sobreviveu      122     167      528        673
##   Sobreviveu          202     118      178        212

Resposta: Sobreviveram 178 de 706 pessoas da terceira classe presentes no navio. No qual, a terceira classe teve a taxa de sobrevivência mais baixa do que a das classes superiores, não só pela preferência por salvar passageiros da primeira e segunda classes, mas também pela desorganização causada pelo pânico, o difícil acesso aos botes salva-vidas e pela demora da informação sobre o navio estar afundando chegar a classe mais baixa. Utilizei o código tabela_sobrevivencia_Classe.

7-Qual o percentual de mulheres que sobreviveu?

Perc_mulher<-table(Titanic$Sobreviveu, Titanic$Sexo, exclude = "Masculino")
round(prop.table(Perc_mulher)*100,2)
##                 
##                  Feminino
##   Não sobreviveu    26.81
##   Sobreviveu        73.19
tabela_sobrevivencia_sexo <- table(Titanic$Sexo, Titanic$Sobreviveu)
tabela_sobrevivencia_sexo
##            
##             Não sobreviveu Sobreviveu
##   Feminino             126        344
##   Masculino           1364        366
round(prop.table(tabela_sobrevivencia_sexo)*100,2)
##            
##             Não sobreviveu Sobreviveu
##   Feminino            5.73      15.64
##   Masculino          62.00      16.64

Resposta: Tive certa dificuldade ao interpretar essa questão, pois a pergunta não particulariza se o percentual de mulheres que sobreviveu é para ser relacionado ao número total de mulheres presentes na embarcação ou se é para ser relacionado com o número total de passageiros embarcados. Então utilizei dois códigos que respondem essas duas possibilidades. Dessa forma, usei esses dois códigos onde em relação ao total de mulheres o percentual é de 73.19% de 100% do público feminino, quanto no outro código em relação ao total de passageiros presentes no Titanic é de 15.64% de 100%.

8-Qual o percentual de crianças que sobreviveu?

Perc_criança<-table(Titanic$Sobreviveu, Titanic$Idade, exclude = "adulto")
round(prop.table(Perc_criança)*100,2)
##                 
##                  criança
##   Não sobreviveu   47.71
##   Sobreviveu       52.29
tabela_sobrevivencia_idade <- table(Titanic$Idade, Titanic$Sobreviveu)
tabela_sobrevivencia_idade
##          
##           Não sobreviveu Sobreviveu
##   criança             52         57
##   adulto            1438        653
round(prop.table(tabela_sobrevivencia_idade)*100,2)
##          
##           Não sobreviveu Sobreviveu
##   criança           2.36       2.59
##   adulto           65.36      29.68

Resposta: Como essa questão é parecida com a anterior, fiquei com a mesma dúvida em relação ao comando da questão e sobre como respondê-lo, então utilizei do mesmo método que na questão anterior. Através do qual, no primeiro código o percentual de crianças que sobreviveram é 52.29 % de 100% em relação ao total de crianças, já no segundo código o percentual de crianças que sobreviveram é de 2.59% de 100% em relação ao total de passageiros presentes no Titanic.

9-Qual o percentual da terceira classe que sobreviveu?

Perc_terc<-table(Titanic$Sobreviveu,Titanic$Classe,exclude = c("Tripulação","Primeira","Segunda")) 
round(prop.table(Perc_terc)*100,2)
##                 
##                  Terceira
##   Não sobreviveu    74.79
##   Sobreviveu        25.21
tabela_sobrevivencia_classe <- table(Titanic$Classe, Titanic$Sobreviveu)
tabela_sobrevivencia_classe
##             
##              Não sobreviveu Sobreviveu
##   Primeira              122        202
##   Segunda               167        118
##   Terceira              528        178
##   Tripulação            673        212
round(prop.table(tabela_sobrevivencia_classe)*100,2)
##             
##              Não sobreviveu Sobreviveu
##   Primeira             5.55       9.18
##   Segunda              7.59       5.36
##   Terceira            24.00       8.09
##   Tripulação          30.59       9.64

Resposta: Seguindo a sequência de questões de percentual, também usei dois códigos, já que não sabia ao certo qual era o código certo para responder essa questão. Desse modo, o percentual da terceira classe que sobreviveu é de 25.21% de 100% em relação ao total de passageiros da terceira classe. Logo no segundo código o percentual da terceira classe que sobreviveu é de 8.09% de 100% em relação ao total de passageiros presentes no Titanic.

10-Que tipo de gráfico você pode utilizar nesse tipo de dado? Por quê?

Resposta: Nesse tipo de dado (relação de sobrevivência no Titanic), podemos utilizar o gráfico de barras. Pois além de representar uma hierarquia de classes sociais (variável qualitativa ordinal), ele nos possibilita a comparação através de diferentes categorias (como: idade,sexo, classe social e sobreviveu) de maneira clara, mostrando as diferenças entre elas de forma visual e eficiente, facilitando assim a compreensão dos dados fornecidos para solucionar as questões.

11-Você poderia construir um gráfico para a variável “sobreviveu”?

Sobreviventes<-table(Titanic$Sobreviveu)
Sobreviventes
## 
## Não sobreviveu     Sobreviveu 
##           1490            710
pie(Sobreviventes, main = "Gráfico 1 - Sobreviveu", sub = "Sobreviveram 710 pessoas de 2200 que estavam no Titanic", beside = TRUE, ylim = c(0,1500), col=c("#054c99","#9dc7f5"))
## Warning in text.default(1.1 * P$x, 1.1 * P$y, labels[i], xpd = TRUE, adj =
## ifelse(P$x < : "beside" não é um parâmetro gráfico
## Warning in text.default(1.1 * P$x, 1.1 * P$y, labels[i], xpd = TRUE, adj =
## ifelse(P$x < : "beside" não é um parâmetro gráfico
## Warning in title(main = main, ...): "beside" não é um parâmetro gráfico

Resposta: Como se trata de uma variável qualitativa nominal, conseguimos utilizar um gráfico mais simples como o gráfico de pizza para representar a variável “sobreviveu” e facilitar sua compreensão. Mas também podemos usar o gráfico de barras, porém para não ficar repetitivo o uso do gráfico de barras eu optei pelo uso do gráfico de pizza para responder essa questão.

12-Você poderia construir um gráfico da variável “sobreviveu” por “sexo”?

T1 = table(Titanic$Sexo, Titanic$Sobreviveu)
T1
##            
##             Não sobreviveu Sobreviveu
##   Feminino             126        344
##   Masculino           1364        366
barplot(T1)

bp = barplot(T1, 
             col=c("#adff94","#2b8510"),
             main= "Gráfico 2 - Proporção entre sobreviventes por sexo",
             horiz = FALSE, beside=TRUE,
             legend.text = rownames(T1),
             args.legend = list(x = "topleft"))

percentual <- round(prop.table(T1,1)*100,digits = 1)
percentual
##            
##             Não sobreviveu Sobreviveu
##   Feminino            26.8       73.2
##   Masculino           78.8       21.2
rotulo <- paste0(percentual,"%")
rotulo
## [1] "26.8%" "78.8%" "73.2%" "21.2%"
text(bp, 0, rotulo,cex=1.6,pos=3,col = "black")

Resposta: Após a aula do dia 25/10, pude compreender melhor como funciona esse comando, no qual o gráfico ideal para responder essa pergunta seria o gráfico de barras. Pois além de ser mais eficaz que o de pizza nesse sentido, ele traz uma visualização dos dados mais fácil de ser entendida já que precisamos representar quatro categorias.

Um último desafio: fazer uma nova visualização de dados :

Vamos tentar criar uma nova visualização de dados.

tabela<-table(Titanic$Classe,Titanic$Sobreviveu)
tabela<-data.frame(tabela)
ggballoonplot(tabela, fill = "value")+
ggtitle("Sobreviventes do Titanic") 

mosaicplot(table(Titanic$Classe,Titanic$Sobreviveu), main = "Sobreviventes do Titanic", color = c("red","blue"))

13-Você poderia construir uma outra visualização de dados (além dessas duas)? Qual gráfico você sugere?

T2 = table(Titanic$Classe, Titanic$Sobreviveu)
T2
##             
##              Não sobreviveu Sobreviveu
##   Primeira              122        202
##   Segunda               167        118
##   Terceira              528        178
##   Tripulação            673        212
barplot(T2)

bp2 = barplot(T2, 
              col=c("#e094cd","#cf0c9e", "#8e60db", "#1f069c"),
              main= "Gráfico 3 - Proporção entre sobreviventes por classe",
              horiz = FALSE, beside=TRUE,
              legend.text = rownames(T2),
              args.legend = list(x = "topleft"))  

Resposta: Sim, conseguimos usar o gráfico de barras empilhadas para representar uma nova visualização de dados. O gráfico de barras empilhadas facilita a interpretação das informações, ajudando a observar como cada parte contribui para o valor total e evidenciando a comparação entre os diversos grupos e suas proporções em cada categoria.

14-Você consegue interpretar esses dois gráficos? o que eles estão dizendo?

Resposta: Ao analisar os dois gráficos pude concluir:

Primeiro Gráfico (Balloonplot): A frequência total dos “Sobreviventes” e “Não sobreviventes” do Titanic é ilustrada pelo gráfico ballonplot, onde a maior frequência de passageiros é representada por círculos maiores e de cor mais clara, e os círculos menores e de cor mais escura refletem a menor frequência de passageiros. Através desses dados, podemos observar como os círculos maiores retratam como a maior parte dos passageiros da terceira classe e da tripulação foram afetados em questão da letalidade provocada pelo naufrágio do navio, enquanto uma fração relevante da primeira classe se manteve, gerando assim uma reflexão sobre a prioridade de passageiros baseada em sua classe social.

Segundo Gráfico (Mosaicplot): Já no gráfico mosaicplot, a fragmentação da tripulação e das classes de passageiros é representada pela parcela de “sobreviventes” e “Não sobreviventes” do Titanic, por meio do qual refletimos como a desigualdade estava presente nas possibilidades de sobrevivência entre a tripulação e as classes . No qual a primeira classe obteve um maior números de sobreviventes comparado a parte superior da tripulação e da terceira classe que não tiveram tantas chances e a maioria presente no Titanic não sobreviveu.

15-Se você fosse fazer um Pitch (apresentação de 03 a 05 minutos) com recomendações sobre o Titanic a partir dos dados. Qual ideia você passaria? Quero um posicionamento!

Resposta:

Pitch: Lições que podemos aprender com a tragédia do Titanic

O Titanic, um dos navios mais famosos da história considerado uma obra-prima da engenharia naval, afundou em 1912. Esse marco nos faz refletir sobre como a segurança e o planejamento do navio mais luxuoso e inovador da época se mostraram imperfeitos, resultando na morte de mais de 1400 pessoas.

Os dados relacionados à possibilidade de sobrevivência no Titanic destacaram as disparidades sociais, pois muitos dos passageiros mais pobres foram deixados para trás nas tentativas de evacuação, onde a preferência foi para os passageiros da primeira classe. Desse modo, o Titanic proporcionou um aprendizado que pode nos auxiliar a prevenir que tragédias assim se repitam novamente, não apenas ligadas à construção do navio, mas também em relação a como a sociedade deve ser mais inclusiva em situações dessa magnitude.

Com base nesses dados, aqui estão algumas recomendações:

Portanto, a análise sobre os dados deixados pelo Titanic nos trouxe a necessidade contínua de aprender com os erros do passado e focar na construção de um futuro mais seguro e inclusivo, para evitar que tragédias semelhantes ocorram novamente. Além de priorizar a segurança , devemos também refletir sobre a importância da igualdade, onde muitas pessoas não tiveram as mesmas oportunidades de sobrevivência baseado na classe social a qual elas pertenciam. Dessa forma, conseguimos aplicar essas lições nos dias atuais para salvar vidas e melhorar a segurança, seja em navegações ou em qualquer outro meio de transporte, segurança em eventos ou outras áreas.