Atividade 04 - Análise de 2 variáveis categóricas (Titanic)

1. Objetivos pedagógicos dessas atividades

Revisar os conceitos de análise bi-variada aprendidas na última aula.

Praticar a utilização de base de dados para extrair informações e conhecer melhor os dados.

Gerar gráficos para duas variáveis categóricas.

2. Inspiração + dados

Usaremos o banco de dados do Titanic.

Disponível publicamente no Journal of Statistics Education.

Dados originais podem ser baixados do artigo The “Unusual Episode” Data Revisited. (http://jse.amstat.org/v3n3/datasets.dawson.html)

Os dados surgiram do workshop STATS “Statistical Thinking And Teaching Statistics”.

Foi analisado por Dawson (1995), Simonoff (1997), e por outros.

3. Pacotes necessários

Vamos usar três pacotes do R: forcats,ggpubr, e ggplot2.

library(forcats)

library(ggplot2)

library(ggpubr)

4. Carregar os dados

Esses são os dados de um periódico de educação estatística. Eles já estão prontos para análise estatística. Todavia, posso dizer por experiência que os dados precisam ser verificados todas as vezes que não sair de um livro didático.

Use este pedaço de código para ler o banco de dados disponível em https://github.com/DATAUNIRIO/Base_de_dados

ls()

[1] “Titanic”

O banco de dados se chama Titanic.RData e está armazenado no repositório de bases de dados do curso de estatística. Você pode usar esse código se quiser ler o arquivo RData local.

load("D:/Desktop/Base_de_dados-master/Titanic.RData")

5. Variáveis

Classe (tripulação, primeira, segunda, terceira).

Idade (adulto, criança).

Sexo (masculino, feminino).

Sobreviveu (sim, não).

6. Conheça os seus dados

Tente responder a todas essas perguntas.

Atividade 1

Quantas pessoas tinha no Titanic? Quantas informações (variáveis) existem no banco de dados?

Respostas:

dim(Titanic)
## [1] 2200    4

Haviam 2.200 pessoas no Titanic.

Existem 4 variáveis no banco de dados titanic, a saber: Classe, Idade, Sexo e Sobreviveu.

Atividade 2

Quantas pessoas sobreviveram ao Titanic?

Resposta:

table(Titanic$Sobreviveu)
## 
## Não sobreviveu     Sobreviveu 
##           1490            710

710 pessoas sobreviveram ao acidente do Titanic.

Atividade 3

Qual é a proporção de pessoas que sobreviveram ao Titanic?

Resposta:

table(Titanic$Sobreviveu)
## 
## Não sobreviveu     Sobreviveu 
##           1490            710
round(prop.table(table(Titanic$Sobreviveu))*100,2)
## 
## Não sobreviveu     Sobreviveu 
##          67.73          32.27

710 das 2200 pessoas que estavam no Titanic sobreviveram ao acidente, o que equivale à aproximadamente 32,27%.

7. Análises descritivas dos dados

Atividade 4

Quantas mulheres sobreviveram?

Resposta:

table(Titanic$Sobreviveu,Titanic$Sexo)
##                 
##                  Feminino Masculino
##   Não sobreviveu      126      1364
##   Sobreviveu          344       366

344 mulheres sobreviveram ao acidente no Titanic.

Atividade 5

Quantas crianças sobreviveram?

Resposta:

table(Titanic$Sobreviveu,Titanic$Idade)
##                 
##                  criança adulto
##   Não sobreviveu      52   1438
##   Sobreviveu          57    653

57 crianças sobreviveram ao acidente no Titanic.

Atividade 6

Quantas pessoas da terceira classe sobreviveram?

Resposta:

table(Titanic$Sobreviveu,Titanic$Classe)
##                 
##                  Tripulação Primeira Segunda Terceira
##   Não sobreviveu        673      122     167      528
##   Sobreviveu            212      202     118      178

178 pessoas da terceira classe sobreviveram ao acidente no Titanic.

Atividade 7

Qual o percentual de mulheres que sobreviveu?

Resposta:

round(prop.table(table(Titanic$Sobreviveu,Titanic$Sexo),2)*100,2)
##                 
##                  Feminino Masculino
##   Não sobreviveu    26.81     78.84
##   Sobreviveu        73.19     21.16

Aproximadamente 73,19% das mulheres que estavam presentes no Titanic sobreviveram ao acidente.

Atividade 8

Qual o percentual de crianças que sobreviveu?

Resposta:

round(prop.table(table(Titanic$Sobreviveu,Titanic$Idade),2)*100,2)
##                 
##                  criança adulto
##   Não sobreviveu   47.71  68.77
##   Sobreviveu       52.29  31.23

Aproximadamente 52,29% das crianças que estavam presentes no Titanic sobreviveram ao acidente.

Atividade 9

Qual o percentual da terceira classe que sobreviveu?

Resposta:

round(prop.table(table(Titanic$Sobreviveu,Titanic$Classe),2)*100,2)
##                 
##                  Tripulação Primeira Segunda Terceira
##   Não sobreviveu      76.05    37.65   58.60    74.79
##   Sobreviveu          23.95    62.35   41.40    25.21

Aproximadamente 25,21% das pessoas da terceira classe sobreviveram ao acidente do Titanic.

8. Se você quiser mais

Atividade 10

Que tipo de gráfico você pode utilizar nesse tipo de dado? Por quê?

Resposta:

Como estamos trabalhando com variáveis categóricas (ou qualitativas), os gráficos mais recomendados são aqueles cuja estrutura de comando possibilita realizar o cruzamento dessas informações. Alguns exemplos seriam: Gráfico de Barras, Gráfico Mosaico e Gráfico de Balões.

Atividade 11

Você poderia construir um gráfico para a variável “sobreviveu”?

Resposta:

tabela_sobreviveu<-table(Titanic$Sobreviveu)

barplot(tabela_sobreviveu,
        beside=TRUE,
        col=c("red","blue"),
        main = "Sobreviventes (Titanic)",
        ylim = c(0,2000),ylab="Pessoas a bordo",xlab="Status Pós-Acidente",
        legend.text = TRUE)

bp <- barplot(tabela_sobreviveu,
        beside=TRUE,
        col=c("red","blue"),
        main = "Sobreviventes (Titanic)",
        ylim = c(0,2000),ylab="Pessoas a bordo",xlab="Status Pós-Acidente",
        legend.text = TRUE)

rotulo <- paste0(round(prop.table(tabela_sobreviveu)*100,2),"%")

text (bp, 0, rotulo, cex = 0.7, pos = 3, col = "white")

Atividade 12

Você poderia construir um gráfico da variável “sobreviveu” por “sexo”?

Resposta:

Titanic$Sexo<-factor(Titanic$Sexo, levels = c("Masculino","Feminino"))

tabela_sobreviveu_sexo<-table(Titanic$Sobreviveu,Titanic$Sexo)

bp <- barplot(tabela_sobreviveu_sexo,
              beside=TRUE,
              col=c("red","blue"),
              main = "Sexo dos Sobreviventes (Titanic)",
              ylim = c(0,1400),ylab="Pessoas a bordo",xlab="Sexo",
              legend.text = TRUE)

rotulo <- paste0(round(prop.table(tabela_sobreviveu_sexo)*100,2),"%")

text (bp, 0, rotulo, cex = 0.7, pos = 3, col = "white")

9. Um último desafio: fazer uma nova visualização de dados

Vamos tentar criar uma nova visualização de dados. Para isso, vamos gerar dois gráficos:

Balloonplot:

tabela<-table(Titanic$Classe,Titanic$Sobreviveu)

tabela<-data.frame(tabela)

ggballoonplot(tabela, fill = "value")+
  ggtitle("Sobreviventes do Titanic")

Mosaicplot:

tabela<-table(Titanic$Classe,Titanic$Sobreviveu)

mosaicplot(tabela, main = "Sobreviventes (Titanic)",
           color = c("red","blue"))

Atividade 13

Você poderia construir uma outra visualização de dados (além dessas duas)? Qual gráfico você sugere?

Resposta:

Conforme realizado na atividade 12, o gráfico de barras também possibilita a análise de 2 variáveis qualitativas. Façamos uma nova análise:

Titanic$Sexo<-factor(Titanic$Sexo, levels = c("Masculino","Feminino"))

tabela_classe_sexo<-table(Titanic$Classe,Titanic$Sexo)

bp2 <- barplot(tabela_classe_sexo,
              beside=TRUE,
              col=c("yellow","gray", "skyblue", "pink"),
              main = "Sexo e Classe das pessoas a bordo (Titanic)",
              ylim = c(0,1000),ylab="Pessoas a bordo",xlab="Sexo",
              legend.text = TRUE)

rotulo2 <- paste0(round(prop.table(tabela_classe_sexo)*100,2),"%")

text (bp2, 0, rotulo2, cex = 0.7, pos = 3, col = "black")

Atividade 14

Você consegue interpretar esses dois gráficos? o que eles estão dizendo?

Resposta:

Gráfico Mosaico:

####Através da plotagem deste gráfico, pode-se perceber que a maioria das pessoas presentes no acidente do Titanic morreu. Numa análise relativa por classe, pode-se afirmar que o maior índice de mortes foi na Tripulação, seguida da 3ª, 2ª e 1ª classes, nesta ordem; sendo a 1ª classe a única em que a maioria conseguiu sobreviver ao acidente.

Gráfico Balloonplot:

Através deste gráfico, pode-se chegar às mesmas conclusões listadas no Gráfico Mosaico. Além disso, pode-se ainda verificar a frequência relativa entre as classes.

Atividade 15

Se você fosse fazer um Pitch (apresentação de 03 a 05 minutos) com recomendações sobre o Titanic a partir dos dados. Qual ideia você passaria? Quero um posicionamento!

Resposta:

A base de dados Titanic apresenta 2.200 linhas (pessoas) e 4 variáveis categóricas: Classe (tripulação, primeira, segunda, terceira); Idade (adulto, criança); Sexo (masculino, feminino); Sobreviveu (sim, não). Desse modo, existem 6 combinações de cruzamento dessas variáveis (duas a duas), a fim de entender melhor as informações desse banco de dados:

Cruzamento Classe x Idade
table(Titanic$Classe,Titanic$Idade)
##             
##              criança adulto
##   Tripulação       0    885
##   Primeira         6    318
##   Segunda         24    261
##   Terceira        79    627
Cruzamento Classe x Sexo
table(Titanic$Classe,Titanic$Sexo)
##             
##              Masculino Feminino
##   Tripulação       862       23
##   Primeira         179      145
##   Segunda          179      106
##   Terceira         510      196
Cruzamento Classe x Sobreviveu
table(Titanic$Classe,Titanic$Sobreviveu)
##             
##              Não sobreviveu Sobreviveu
##   Tripulação            673        212
##   Primeira              122        202
##   Segunda               167        118
##   Terceira              528        178
Cruzamento Idade x Sexo
table(Titanic$Idade,Titanic$Sexo)
##          
##           Masculino Feminino
##   criança        64       45
##   adulto       1666      425
Cruzamento Idade x Sobreviveu
table(Titanic$Idade,Titanic$Sobreviveu)
##          
##           Não sobreviveu Sobreviveu
##   criança             52         57
##   adulto            1438        653
Cruzamento Sexo x Sobreviveu
table(Titanic$Sexo,Titanic$Sobreviveu)
##            
##             Não sobreviveu Sobreviveu
##   Masculino           1364        366
##   Feminino             126        344

A partir desses cruzamentos prévios, pode-se passar para uma análise gráfica. Para tal recomenda-se aqueles gráficos que tem em seu comando uma natureza adequada à interpretação simultânea de 2 variáveis categóricas (qualitativas), como os Gráficos de Barras, de Mosaico ou de Balões.

Feito esse procedimento, seria possível realizar uma interpretação estatística e gráfica categórica bivariada.

Referências

Dawson, Robert J. MacG. “The “unusual episode” data revisited." Journal of Statistics Education 3.3 (1995).

Simonoff, Jeffrey S. “The “Unusual Episode” and a second statistics course." Journal of Statistics Education 5.1 (1997).