1 - Iniciar com os dados

Carregar pacotes

library(forcats)
library(ggplot2)
library(ggpubr)

Carregar os dados - Obs: O User está com o nome Manoel Perasi pois o meu computador não conseguiu utilizar o R4.4, e portanto, tive que pegar o computador de outra pessoa.

load("C:/Users/Manoel Perasi/Desktop/Base_de_dados-master/Titanic.RData")

Corrigir e verificar base de dados

Titanic$Classe = iconv(Titanic$Classe, "latin1", "UTF-8")
str(Titanic)
## 'data.frame':    2200 obs. of  4 variables:
##  $ Classe    : chr  "Primeira" "Primeira" "Primeira" "Primeira" ...
##  $ Idade     : Factor w/ 2 levels "criança","adulto": 2 2 2 2 2 2 2 2 2 2 ...
##  $ Sexo      : Factor w/ 2 levels "Feminino","Masculino": 2 2 2 2 2 2 2 2 2 2 ...
##  $ Sobreviveu: Factor w/ 2 levels "Não sobreviveu",..: 2 2 2 2 2 2 2 2 2 2 ...
head(Titanic$Classe)
## [1] "Primeira" "Primeira" "Primeira" "Primeira" "Primeira" "Primeira"
tail(Titanic$Classe)
## [1] "Tripulação" "Tripulação" "Tripulação" "Tripulação" "Tripulação"
## [6] "Tripulação"
View(Titanic)

2 - Perguntas descritivas sobre os dados

  1. Quantas pessoas tinha no Titanic? Quantas informações (variáveis) existem no banco de dados?

Haviam 2200 pessoas abordo do Titanic, e existe na base de dados 4 variáveis nas quais essas pessoas são subdivididas: Classe, Idade, Sexo e se sobreviveram.

  1. Quantas pessoas sobreviveram ao Titanic?

Das 2200 pessoas abordo do Titanic, 710 sobreviveram.

tabela_sobrevivencia = table(Titanic$Sobreviveu)
tabela_sobrevivencia
## 
## Não sobreviveu     Sobreviveu 
##           1490            710
  1. Qual é a proporção de pessoas que sobreviveram ao Titanic?

Somente pouco mais de 32% dos passageiros abordo do Titanic sobreviveram.

round(prop.table(tabela_sobrevivencia)*100,2)
## 
## Não sobreviveu     Sobreviveu 
##          67.73          32.27
  1. Quantas mulheres sobreviveram?

Dos 710 sobreviventes totas, 344 eram mulheres.

T1 = table(Titanic$Sexo,Titanic$Sobreviveu)
T1
##            
##             Não sobreviveu Sobreviveu
##   Feminino             126        344
##   Masculino           1364        366
  1. Quantas crianças sobreviveram?

Dos 710 sobreviventes totais, 57 eram crianças.

T2 = table(Titanic$Idade,Titanic$Sobreviveu)
T2
##          
##           Não sobreviveu Sobreviveu
##   criança             52         57
##   adulto            1438        653
  1. Quantas pessoas da terceira classe sobreviveram?

Dos 710 sobreviventes totais, 178 eram da terceira classe.

T3 = table(Titanic$Classe,Titanic$Sobreviveu)
T3
##             
##              Não sobreviveu Sobreviveu
##   Primeira              122        202
##   Segunda               167        118
##   Terceira              528        178
##   Tripulação            673        212
  1. Qual o percentual de mulheres que sobreviveu?

Dentre os passageiros que sobreviveram, as mulheres representam pouco mais de 73%.

percentual <- round(prop.table(T1,1)*100,digits = 1)
percentual
##            
##             Não sobreviveu Sobreviveu
##   Feminino            26.8       73.2
##   Masculino           78.8       21.2
  1. Qual o percentual de crianças que sobreviveu?

Dentre os passageiros que sobreviveram, as crianças representam 52,3%.

percentual2 <- round(prop.table(T2,1)*100,digits = 1)
percentual2
##          
##           Não sobreviveu Sobreviveu
##   criança           47.7       52.3
##   adulto            68.8       31.2
  1. Qual o percentual da terceira classe que sobreviveu?

Apenas pouco mais de um quarto da terceira classe sobreviveu.

percentual3 <- round(prop.table(T3,1)*100,digits = 1)
percentual3
##             
##              Não sobreviveu Sobreviveu
##   Primeira             37.7       62.3
##   Segunda              58.6       41.4
##   Terceira             74.8       25.2
##   Tripulação           76.0       24.0

3 - Pergunta analítica sobre os dados

  1. Que tipo de gráfico você pode utilizar nesse tipo de dado? Por quê?

Com dados qualitativos nominais, podemos utilizar gráfico de pizza, gráfico de barras, gráfico de colunas, dentre outros. Podemos utilizar diferentes gráficos para comunicar diferentes aspectos dos dados. Por exemplo, quando lidamos com um número total de pessoas abordo do titanic, podemos usar o gráfico de pizza para comunicar a proporção de sobreviventes, e dentro destes sobreviventes, qual a proporção de mulheres, crianças, classes, etc

4 - Criar gráficos

  1. Você poderia construir um gráfico para a variável “sobreviveu”?

Do or do not, there is no try.

T4 = table(Titanic$Sobreviveu)
T4
## 
## Não sobreviveu     Sobreviveu 
##           1490            710
 pie(tabela_sobrevivencia, col = c("blue4", "pink3"),
    main = "Gráfico 1 - Variável Sobreviveu")

  1. Você poderia construir um gráfico da variável “sobreviveu” por “sexo”?
T5 = table(Titanic$Sobreviveu,Titanic$Sexo)
T5
##                 
##                  Feminino Masculino
##   Não sobreviveu      126      1364
##   Sobreviveu          344       366
bp2 <- barplot(T5,
        col=c("thistle3", "tan2"),
        main = "Gráfico 2 - Variável Sexo",
        horiz = FALSE,beside = TRUE,
        legend.text = rownames(T5),
        args.legend = list(x = "topleft"))

  1. Você poderia construir uma outra visualização de dados (além dessas duas)? Qual gráfico você sugere?

Sim, eu usaria o gráfico de mosaico pois ele mostra a relação entre duas ou mais variáveis qualitativas, de forma que podemos visualizar a interação entre variáveis e como elas se relacionam entre si.

5 - Interpretação e considerações finais

  1. Você consegue interpretar esses dois gráficos? o que eles estão dizendo?

O primeiro gráfico nos dá a proporção de sobreviventes dentro de todo o número de passageiros. O segundo gráfico divide os passageiros de acordo com seu gênero e os distingue entre sobreviventes ou não. Ambos gráficos nos fornecem informações sobre o número de passageiros que sobreviveram, mas apenas o segundo os subdivide, fornecendo um dado importante, que em geral há uma maior mortalidade entre os homens do que entre as mulheres.

  1. Se você fosse fazer um Pitch (apresentação de 03 a 05 minutos) com recomendações sobre o Titanic a partir dos dados. Qual ideia você passaria? Quero um posicionamento!

Não tenho certeza sobre quais seriam as “recomendações”, mas definitivamente podemos analisar uma desigualdade de gênero quando olhamos a variável sobrevivência. Muito se dá por causa da regra social “mulheres e crianças primeiro”, isto é, por causa de uma atribuição de fragilidade dos grupos citados, estaria à cargo dos homens auxiliarem primeiramente as mulheres e crianças antes de salvarem a si mesmos, o que explicaria o nível de mortalidade entre eles.