load("C:/Users/diova/Desktop/Base_de_dados-master/Titanic.RData")library(ggplot2)
library(forcats)
library(ggpubr)No Titanic tinham 2200 pessoas e existem 4 variáveis na banco de dados
dim(Titanic)## [1] 2200 4
Foram 710 sobreviventes e 1490 mortos.
tabela1<- table(Titanic$Sobreviveu)
tabela1##
## Não sobreviveu Sobreviveu
## 1490 710
A proporção de sobreviventes é de 32,27%.
round(prop.table(tabela1)*100,2)##
## Não sobreviveu Sobreviveu
## 67.73 32.27
O número de mulheres que sobreviveram foi de 344.
tabela2<- table(Titanic$Sexo,Titanic$Sobreviveu)
tabela2##
## Não sobreviveu Sobreviveu
## Feminino 126 344
## Masculino 1364 366
57 crianças sobreviveram ao acidente.
tabela3<- table(Titanic$Idade, Titanic$Sobreviveu)
tabela3##
## Não sobreviveu Sobreviveu
## criança 52 57
## adulto 1438 653
Na terceira classe 178 pessoas sobreviveram.
tabela4<- table(Titanic$Classe,Titanic$Sobreviveu)
tabela4##
## Não sobreviveu Sobreviveu
## Tripulação 673 212
## Primeira 122 202
## Segunda 167 118
## Terceira 528 178
O percentual de mulheres sobreviventes foi de 15,64%.
round(prop.table(tabela2)*100,2)##
## Não sobreviveu Sobreviveu
## Feminino 5.73 15.64
## Masculino 62.00 16.64
Apenas 2,59% das crianças sobreviveram.
round(prop.table(tabela3)*100,2)##
## Não sobreviveu Sobreviveu
## criança 2.36 2.59
## adulto 65.36 29.68
O percentual na terceira classe foi de 8,09%.
round(prop.table(tabela4)*100,2)##
## Não sobreviveu Sobreviveu
## Tripulação 30.59 9.64
## Primeira 5.55 9.18
## Segunda 7.59 5.36
## Terceira 24.00 8.09
Os gráficos de barras, pizza, balloon e mosaico são recomendados para as variáveis categóricas, pois através deles é possível analisar a proporção e frequência das mesmas.
barras<- barplot(tabela1, main = "Gráfico 1 - Sobreviventes",
col = c("salmon","skyblue"), ylim = c(0,1600),
ylab = "Quantidade de Pessoas ", legend.text = TRUE)
rotulo <- paste0(round(prop.table(tabela1)*100,2),"%")
text(barras, 0, rotulo,cex=1,pos=3,col = "black")barras<- barplot(tabela2, main = "Gráfico 2 - Sobreviventes por sexo",
col = c("thistle","violetred2"), ylim = c(0,1600),
ylab = "Quantidade de Tripulantes ",
beside = TRUE, legend.text = TRUE)
rotulo <- paste0(round(prop.table(tabela2)*100,2),"%")
text(barras, 0, rotulo,cex=1,pos=3,col = "black")Vamos tentar criar uma nova visualização de dados. Para isso, vamos gerar dois gráficos: 1 - o balloonplot e o 2 - mosaicplot.
tabela<-table(Titanic$Classe,Titanic$Sobreviveu)
tabela<-data.frame(tabela)
ggballoonplot(tabela, fill = "value")+
ggtitle("Sobreviventes do Titanic") mosaicplot(table(Titanic$Classe,Titanic$Sobreviveu), main = "Sobreviventes do Titanic", color = c("salmon1","lightblue"))Além dos dois gráficos acima, pode ser utilizado o gráfico de barras sobrepostas.
ggplot(Titanic) + aes(x = Sobreviveu) + geom_bar(aes(fill = Classe)) +
labs(x="Status", y="Quantidade", title="Sobreviventes em cada classe")Balloonplot- Neste gráfico nota-se que na categoria não sobreviveu, a frequência foi maior entre a tripulção e a terceira classe de passageiros. Já na categoria sobreviveu, há uma igualdade no número entre a tripulação e a primeira classe e a segunda classe obteve o menor número de sobreviventes, logo conclui-se que a primeira classe teve mais prioridade no salvamento, pois sua taxa de sobreviventes foi maior que os não sobreviventes e a tripulação e a terceira classe foram as que tiveram menos prioridade comparando as duas categorias analisadas.
Mosaico- Através dele percebe-se as mesmas características do gráfico anterior, porém não possui legenda com a frequência, então analisamos através da proporção dos retângulos.
Como já foi relatado na análise dos gráficos, os grupos mais afetados foram a tripulação e a terceira classe. Levando em consideração os dados, a primeira classe foi a mais privilegiada, pois a taxa de mortalidade é muito baixa para esta classe. Penso que uma parte da tripulação foi afetada, porque podem ter ajudado alguns passageiros a se salvarem antes e eles se concentraram em salvar a primeira classe por ser uma parcela com mais poder aquisitivo que as outras.