1. Objetivos pedagógicos dessas atividades

Revisar os conceitos de análise bi-variada aprendidas na última aula.

Praticar a utilização de base de dados para extrair informações e conhecer melhor os dados.

Gerar gráficos para duas variáveis categóricas.

2. Inspiração + dados

Usaremos o banco de dados do Titanic.

Disponível publicamente no Journal of Statistics Education.

Dados originais podem ser baixados do artigo The “Unusual Episode” Data Revisited. (http://jse.amstat.org/v3n3/datasets.dawson.html)

Os dados surgiram do workshop STATS “Statistical Thinking And Teaching Statistics”.

Foi analisado por Dawson (1995), Simonoff (1997), e por outros.

3. Pacotes necessários

Vamos usar três pacotes do R: forcats,ggpubr, e ggplot2.

library(forcats)

library(ggplot2)

library(ggpubr)

4. Carregando os Dados

load("C:/Users/Cliente/Desktop/Base_de_dados-master/Titanic.RData")

5. Variáveis

Classe (tripulação, primeira, segunda, terceira).

Idade (adulto, criança).

Sexo (masculino, feminino).

Sobreviveu (sim, não).

6. Conheça os seus dados

Tente responder a todas essas perguntas.

Atividade 1

Quantas pessoas tinha no Titanic? Quantas informações (variáveis) existem no banco de dados?

Resposta:

dim(Titanic)
## [1] 2200    4

Existiam no Titanic 2200 pessoas, com 4 variáveis: Classe, Idade, Sexo e Sobreviveu.

Atividade 2

Quantas pessoas sobreviveram ao Titanic?

Resposta:

table(Titanic$Sobreviveu)
## 
## Não sobreviveu     Sobreviveu 
##           1490            710

710 pessoas sobreviveram

Atividade 3

Qual é a proporção de pessoas que sobreviveram ao Titanic?

Resposta:

round(prop.table(table(Titanic$Sobreviveu))*100,2)
## 
## Não sobreviveu     Sobreviveu 
##          67.73          32.27

Aproximadamente 32,27% das pessoas sobreviveram, pois 710 de um total de 2200 pessoas

7. Análises descritivas dos dados

Atividade 4

Quantas mulheres sobreviveram?

Resposta:

  table(Titanic$Sobreviveu,Titanic$Sexo)
##                 
##                  Feminino Masculino
##   Não sobreviveu      126      1364
##   Sobreviveu          344       366

Sobreviveram 344 mulheres

Atividade 5

Quantas crianças sobreviveram?

Resposta

  table(Titanic$Sobreviveu,Titanic$Idade)
##                 
##                  criança adulto
##   Não sobreviveu      52   1438
##   Sobreviveu          57    653

57 crianças sobreviveram ao Titanic.

Atividade 6

Quantas pessoas da terceira classe sobreviveram?

Resposta:

table(Titanic$Sobreviveu,Titanic$Classe)
##                 
##                  Tripulação Primeira Segunda Terceira
##   Não sobreviveu        673      122     167      528
##   Sobreviveu            212      202     118      178

178 pessoas da terceira classe sobreviveram ao Titanic

Atividade 7

Qual o percentual de mulheres que sobreviveu?

Resposta:

round(prop.table(table(Titanic$Sobreviveu,Titanic$Sexo),2)*100,2)
##                 
##                  Feminino Masculino
##   Não sobreviveu    26.81     78.84
##   Sobreviveu        73.19     21.16

Aproximadamente 73,19% das mulheres presentes sobreviviveram.

Atividade 8

Qual o percentual de crianças que sobreviveu?

Resposta:

round(prop.table(table(Titanic$Sobreviveu,Titanic$Idade),2)*100,2)
##                 
##                  criança adulto
##   Não sobreviveu   47.71  68.77
##   Sobreviveu       52.29  31.23

52,29% das crianças que estavam no Titanic, sobreviveram.

Atividade 9

Qual o percentual da terceira classe que sobreviveu?

Resposta:

round(prop.table(table(Titanic$Sobreviveu,Titanic$Classe),2)*100,2)
##                 
##                  Tripulação Primeira Segunda Terceira
##   Não sobreviveu      76.05    37.65   58.60    74.79
##   Sobreviveu          23.95    62.35   41.40    25.21

Aproximadamente 25,21% das pessoas da terceira classe sobreviveram ao acidente do Titanic.

8.Se você quiser mais

Atividade 10

Que tipo de gráfico você pode utilizar nesse tipo de dado? Por quê?

Resposta:

Como estamos trabalhando com variáveis qualitativas, um gráficos recomendado seria o gráfico de barras, pois a estrutura de comando possibilita realizar o cruzamento dessas informações

Atividade 11

Você poderia construir um gráfico para a variável “sobreviveu”?

Resposta:

tabela_sobreviveu<-table(Titanic$Sobreviveu)

barplot(tabela_sobreviveu,
        beside=TRUE,
        col=c("red","blue"),
        main = "Sobreviventes (Titanic)",
        ylim = c(0,2000),ylab="Pessoas a bordo",xlab="Status Pós-Acidente",
        legend.text = TRUE)

bp <- barplot(tabela_sobreviveu,
              beside=TRUE,
              col=c("black","green"),
              main = "Percentual de Sobreviventes ao Titanic",
              ylim = c(0,2000),ylab="Quantidade de Pessoas",xlab="Pós-Acidente",
              legend.text = TRUE)

Atividade 12

Você poderia construir um gráfico da variável “sobreviveu” por “sexo”?

Resposta:

Titanic$Sexo<-factor(Titanic$Sexo, levels = c("Masculino","Feminino"))

tabela_sobreviveu_sexo<-table(Titanic$Sobreviveu,Titanic$Sexo)

bp <- barplot(tabela_sobreviveu_sexo,
              beside=TRUE,
              col=c("black","blue"),
              main = "Sobreviventes ao Titanic segregados por sexo",
              ylim = c(0,1400),ylab="Quantidade de Pessoas",xlab="Sexo",
              legend.text = TRUE)

rotulo <- paste0(round(prop.table(tabela_sobreviveu_sexo)*100,2),"%")

text (bp, 0, rotulo, cex = 0.7, pos = 3, col = "white")

9. Um último desafio: fazer uma nova visualização de dados.

Vamos tentar criar uma nova visualização de dados. Para isso, vamos gerar dois gráficos: Um mosaicplo e um Balloonplot:

Não consegui fazer o Balloonplot, deu erro, fiz só o mosaicplo.

mosaicplot(table(Titanic$Classe,Titanic$Sobreviveu), main = "Sobreviventes do Titanic", color = c("black","blue"))

Atividade 13

Você poderia construir uma outra visualização de dados (além dessas duas)? Qual gráfico você sugere?

Resposta:

Conforme realizado na atividade 12, o gráfico de barras também possibilita a análise de 2 variáveis categóricas, segue nova analise:

Titanic$Sexo<-factor(Titanic$Sexo, levels = c("Masculino","Feminino"))

tabela_classe_sexo<-table(Titanic$Classe,Titanic$Sexo)

bp2 <- barplot(tabela_classe_sexo,
               beside=TRUE,
               col=c("yellow","green", "skyblue", "red"),
               main = "Pessoas a bordo do Titanic divididas por classe e sexo",
               ylim = c(0,1000),ylab="Pessoas a bordo",xlab="Sexo",
               legend.text = TRUE)

rotulo2 <- paste0(round(prop.table(tabela_classe_sexo)*100,2),"%")

text (bp2, 0, rotulo2, cex = 0.7, pos = 3, col = "black")

Atividade 14

Você consegue interpretar esses dois gráficos? o que eles estão dizendo?

Resposta:

Gráfico Mosaico:

Através da plotagem deste gráfico, pode-se perceber que a maioria das pessoas presentes no acidente do Titanic morreram. Numa análise relativa por classe, pode-se afirmar que o maior índice de mortes foi na Tripulação, e a menor na primeira classe, ainda podemos afirmar que a 1ª classe foi a única em que a maioria conseguiu sobreviver, dando a entender que houve privilégios de salvamentos na primeira classe.

Atividade 15

Se você fosse fazer um Pitch (apresentação de 03 a 05 minutos) com recomendações sobre o Titanic a partir dos dados. Qual ideia você passaria? Quero um posicionamento!

Resposta:

A base de dados Titanic apresenta 2.200 linhas (pessoas) e 4 variáveis categóricas: Classe (tripulação, primeira, segunda, terceira); Idade (adulto, criança); Sexo (masculino, feminino); Sobreviveu (sim, não). Desse modo, existem 6 combinações de cruzamento dessas variáveis (duas a duas) possíveis, a fim de entender melhor as informações desse banco de dados, usamos duas, como exemplo das informações que poderiam ser dispobilizadas a partir delas:

Cruzamento Classe x sexo

table(Titanic$Classe,Titanic$Sexo)
##             
##              Masculino Feminino
##   Tripulação       862       23
##   Primeira         179      145
##   Segunda          179      106
##   Terceira         510      196

Cruzamento Classe x Sobreviveu

table(Titanic$Classe,Titanic$Sobreviveu)
##             
##              Não sobreviveu Sobreviveu
##   Tripulação            673        212
##   Primeira              122        202
##   Segunda               167        118
##   Terceira              528        178

A partir desses dois cruzamentos, podemos extrair informações como, em todas as classes o número de homens é maior, daí também a proporção de sobrevivencia deles se mostrar superior, em relação a taxa de sobrevivencia por classes, a única que possui um percentual superior de sobrevivencia é a primeira classe, corroborando com a análise feita na atividade 14, sobre os supostos privilégios.

Referências

#Dawson, Robert J. MacG. “The “unusual episode” data revisited." Journal of Statistics Education 3.3 (1995). #Simonoff, Jeffrey S. “The “Unusual Episode” and a second statistics course." Journal of Statistics Education 5.1 (1997)