library(forcats)
library(ggplot2)
library(ggpubr)
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(readr)
library(plyr)
## ------------------------------------------------------------------------------
## You have loaded plyr after dplyr - this is likely to cause problems.
## If you need functions from both plyr and dplyr, please load plyr first, then dplyr:
## library(plyr); library(dplyr)
## ------------------------------------------------------------------------------
##
## Attaching package: 'plyr'
## The following objects are masked from 'package:dplyr':
##
## arrange, count, desc, failwith, id, mutate, rename, summarise,
## summarize
## The following object is masked from 'package:ggpubr':
##
## mutate
nº 1 - Carregar base de dados Titanic
load("~/Base_de_dados-master/Titanic.RData")
View(Titanic)
nº 2 Variáveis
head(Titanic)
## Classe Idade Sexo Sobreviveu
## 1 Primeira adulto Masculino Sobreviveu
## 2 Primeira adulto Masculino Sobreviveu
## 3 Primeira adulto Masculino Sobreviveu
## 4 Primeira adulto Masculino Sobreviveu
## 5 Primeira adulto Masculino Sobreviveu
## 6 Primeira adulto Masculino Sobreviveu
CONHECENDO OS DADOS
Respostas: Tinha no Titanic 2,200 pessoas e existem 04 informações variáveis no banco de dados.
2 - quantas pessoas sobreviveram no Titanic
summary(Titanic)
## Classe Idade Sexo Sobreviveu
## Tripulação:885 criança: 109 Feminino : 470 Não sobreviveu:1490
## Primeira :324 adulto :2091 Masculino:1730 Sobreviveu : 710
## Segunda :285
## Terceira :706
Tabela_sobreviver <- table(Titanic$Sobreviveu)
Tabela_sobreviver
##
## Não sobreviveu Sobreviveu
## 1490 710
Resposta: Sobreviveram 710 pessoas
3- Qual a proporção de pessoas que sobreviveram ao Titanic?
round(prop.table(Tabela_sobreviver)*100,2)
##
## Não sobreviveu Sobreviveu
## 67.73 32.27
Resposta: 32,27% dos passageiros sobreviveram.
ANÁLISE DESCRITIVA DOS DADOS
1 - Quantas mulheres sobreviveram?
table(Titanic$Sobreviveu,Titanic$Sexo)
##
## Feminino Masculino
## Não sobreviveu 126 1364
## Sobreviveu 344 366
dos 710 sobreviventes 344 eram mulhereres
2 - Quantas crianças sobreviveram?
table(Titanic$Sobreviveu, Titanic$Idade)
##
## criança adulto
## Não sobreviveu 52 1438
## Sobreviveu 57 653
57 crianças sobreviveram
3 - Qual o percentual de mulheres que sobreviveram?
table_sob_sexo <- table(Titanic$Sobreviveu,Titanic$Sexo)
table_sob_sexo
##
## Feminino Masculino
## Não sobreviveu 126 1364
## Sobreviveu 344 366
4 - Qual o percentual de mulheres que sobreviveram?
round(prop.table(table_sob_sexo)*100,2)
##
## Feminino Masculino
## Não sobreviveu 5.73 62.00
## Sobreviveu 15.64 16.64
O percentual de mulheres que sobreviveram foi de 15,64%.
4 - Qual o percentual de crianças que sobreviveu?
table_sob_idade <- table(Titanic$Sobreviveu, Titanic$Idade)
table_sob_idade
##
## criança adulto
## Não sobreviveu 52 1438
## Sobreviveu 57 653
round(prop.table(table_sob_idade)*100,2)
##
## criança adulto
## Não sobreviveu 2.36 65.36
## Sobreviveu 2.59 29.68
Dos 710 passageiros apenas 2,59 das crianças sobreviveram.
5 - Qual o percentual da terceira classe que sobreviveu?
table_sob_Classe <- table(Titanic$Classe, Titanic$Sobreviveu)
table_sob_Classe
##
## Não sobreviveu Sobreviveu
## Tripulação 673 212
## Primeira 122 202
## Segunda 167 118
## Terceira 528 178
round(prop.table(table_sob_Classe)*100,2)
##
## Não sobreviveu Sobreviveu
## Tripulação 30.59 9.64
## Primeira 5.55 9.18
## Segunda 7.59 5.36
## Terceira 24.00 8.09
Dos sobreviventes 8,09% eram da terceira classe.
SE VOCÊ QUISE MAIS:
1 - Que tipo de grafico você pode utilizar nesse tipo de dados? Porque?
Resposta: Para comparar duas ou mais variáveis categóricas, pode-se usar o gráfico de barras,
gráfico Lollipop, gráfico mosaico, gráfico balloonplot, etc.
Você poderia construir um gráfico para a variável sobreviveu?
table_sobreviveu <- table(Titanic$Sobreviveu)
table_sobreviveu
##
## Não sobreviveu Sobreviveu
## 1490 710
bplot1 <- barplot (table_sobreviveu, besid=TRUE, col=c("#060333", "#261bc2"), main =("Sobreviventes Titanic"),
ylim = c(0,2000), ylab="Pessoas a bordo", xlab="Resultado", legend.text = TRUE)
rotulo1 <-paste(round(prop.table(table_sobreviveu)*100,2),"%")
text (bplot1, 0, rotulo1, cex = 0.7, pos = 3, col = "white")

Você poderia construir um gráfico para a variável sobreviveu por sexo?
bplot2 <-barplot (table_sob_sexo, besid=TRUE, col=c("#44cc16", "#10c470"), main =("Sobreviventes Titanic"),
ylim = c(0,2000), ylab="Pessoas a bordo", xlab="Resultado", legend.text = TRUE)
rotulo2 <-paste(round(prop.table(table_sobreviveu)*100,2),"%")
text (bplot2, 0, rotulo1, cex = 0.7, pos = 3, col = "white")

VAMOS TENTAR CRIAR UMA NOVA VISUALIZAÇÃO DE DADOS. PARA ISSO, VAMOS GERAR DOIS GRÁFICOS:
1 - ballonplot
tabela_blplot <- data.frame(table_sob_Classe)
ggballoonplot (tabela_blplot, fill = "value")+
ggtitle("Sobreviventes Titanic por classe")

2 - mosaicplot
mosaicplot(table(Titanic$Classe,Titanic$Sobreviveu),
main = "Sobreviventes Titanic por classe",
color = c("black","blue"))

Você poderia construir uma outra visualização de dados (além dessas duas)? Qual gráfico você sugere?
ggplot(Titanic, aes(Sobreviveu, fill = factor(Sexo))) + labs(fill = "Sexo") + geom_bar()

Você consegue interpretar esses dois gráficos? o que eles estão dizendo?
Que a tripulação da terceira classe foi a que teve menos sobreviventes.
Na minha opinião, é a maneira mais útil de analisar rapidamente os dados ou comparar distribuições foi através do grafico mosaico.
Se você fosse fazer um Pitch (apresentação de 03 a 05 minutos) com recomendações sobre o Titanic a partir dos dados. Qual ideia você passaria? Quero um posicionamento!
A tripulação do Titanic era de 2091 adultos e 109 crianças do total desta tripulação 67.73não sobreviveram. Dos tripulantes adultos 470 eram mulheres e 1730 homens.
Do total da tripulação 67.736% não sobreviveram. a maior proporção, exatamente 24% dos não sobreviventes eram da terceira classe.