Introdução

Vamos trabalhar duas variáveis qualitativas, mas antes vamos fazer um gráfico de waffle

Passo 01: Carregar a base de dados

# Carregar a base de dados Titanic
load("C:/Users/19801926775/Desktop/Base_de_dados-master/Titanic.RData")

Passo 02: Corrigir a base de dados

tail(Titanic$Classe)
## [1] Tripula\xe7\xe3o Tripula\xe7\xe3o Tripula\xe7\xe3o Tripula\xe7\xe3o
## [5] Tripula\xe7\xe3o Tripula\xe7\xe3o
## Levels: Tripula\xe7\xe3o Primeira Segunda Terceira
# Mudar o enconding
Titanic$Classe = iconv(Titanic$Classe, "latin1", "UTF-8")

# Verificando se o problema foi corrigido
tail(Titanic$Classe)
## [1] "Tripulação" "Tripulação" "Tripulação" "Tripulação" "Tripulação"
## [6] "Tripulação"

Passo 03: Fazer o waffle

tabela1 = table(Titanic$Sobreviveu)
tabela1
## 
## Não sobreviveu     Sobreviveu 
##           1490            710
prop.table(tabela1)*100
## 
## Não sobreviveu     Sobreviveu 
##       67.72727       32.27273
barplot(tabela1, col = c("red","blue"))

library(waffle)

pedacos <- c(Não_sobreviveu=68, Sobreviveu=32)
waffle(pedacos)

tabela2 = table(Titanic$Sexo)
tabela2
## 
##  Feminino Masculino 
##       470      1730
prop.table(tabela2)*100
## 
##  Feminino Masculino 
##  21.36364  78.63636
barplot(tabela2, col = c("purple","green"))

pedacos2 <- c(Feminino=22, Masculino=78)
waffle(pedacos2)

tabela3 = table(Titanic$Idade)
tabela3
## 
## criança  adulto 
##     109    2091
prop.table(tabela3)*100
## 
##   criança    adulto 
##  4.954545 95.045455
barplot(tabela3, col = c("yellow","orange"))

pedacos3 <- c(Criança=5, Adulto=95)
waffle(pedacos3)

tabela4 = table(Titanic$Classe)
tabela4
## 
##   Primeira    Segunda   Terceira Tripulação 
##        324        285        706        885
prop.table(tabela4)*100
## 
##   Primeira    Segunda   Terceira Tripulação 
##   14.72727   12.95455   32.09091   40.22727
barplot(tabela4, col = c("pink4","khaki3","lightblue2","palegreen1"))

pedacos4 <- c(Primeira=15, Segunda=13, Terceira=32, Tripulação=40)
waffle(pedacos4)

Flextable

library(dplyr)
library(flextable)

#### %>% é chamado de operador pipe

head(Titanic) %>% flextable() %>% theme_zebra()

Classe

Idade

Sexo

Sobreviveu

Primeira

adulto

Masculino

Sobreviveu

Primeira

adulto

Masculino

Sobreviveu

Primeira

adulto

Masculino

Sobreviveu

Primeira

adulto

Masculino

Sobreviveu

Primeira

adulto

Masculino

Sobreviveu

Primeira

adulto

Masculino

Sobreviveu

Duas variáveis

Olhar a natureza da variável

  1. Qualitativa X Qualitativa
  2. Qualitativa X Quantitativa
  3. Quantitativa X Quantitativa

Questões de pesquisa

Teve uma desigualdade da sobrevivência? Hipótese: Desigualdade da sobrevivência.

Foi válida a expressão “mulheres e crianças primeiro”?

Desenho de pesquisa

Variável resposta/Variável de interesse: Sobrevivência

Variáveis explicativas/Preditores Lineares: Sexo, idade e a classe

Análise de dados

# Tabela Simples
tabela5 = table(Titanic$Sobreviveu,Titanic$Classe)
tabela5
##                 
##                  Primeira Segunda Terceira Tripulação
##   Não sobreviveu      122     167      528        673
##   Sobreviveu          202     118      178        212
library(janitor)
tabyl (Titanic,Sobreviveu,Classe) %>% flextable() %>% theme_zebra()

Sobreviveu

Primeira

Segunda

Terceira

Tripulação

Não sobreviveu

122

167

528

673

Sobreviveu

202

118

178

212

Tabela de proporção

prop.table(tabela5,1)*100
##                 
##                   Primeira   Segunda  Terceira Tripulação
##   Não sobreviveu  8.187919 11.208054 35.436242  45.167785
##   Sobreviveu     28.450704 16.619718 25.070423  29.859155
prop.table(tabela5,2)*100
##                 
##                  Primeira  Segunda Terceira Tripulação
##   Não sobreviveu 37.65432 58.59649 74.78754   76.04520
##   Sobreviveu     62.34568 41.40351 25.21246   23.95480

Teve uma desigualdade dado que 62% da primeira classe sobreviveu e 76% da tripulação não sobreviveu.

Gráfico para duas variáveis

barplot(tabela5)

barplot(tabela5,col=c("springgreen1","salmon"))

barplot(tabela5,col=c("springgreen1","salmon"),beside = TRUE)

barplot(tabela5,col=c("springgreen1","salmon"),beside = TRUE,
        legend.text = rownames(tabela5),
        args.legend = list(x = "topleft"))

Análise de dados 2

# Tabela Simples
tabela6 = table(Titanic$Sobreviveu,Titanic$Idade)
tabela6
##                 
##                  criança adulto
##   Não sobreviveu      52   1438
##   Sobreviveu          57    653
library(janitor)
tabyl (Titanic,Sobreviveu,Idade) %>% flextable() %>% theme_zebra()

Sobreviveu

criança

adulto

Não sobreviveu

52

1,438

Sobreviveu

57

653

Tabela de proporção

prop.table(tabela6,1)*100
##                 
##                    criança    adulto
##   Não sobreviveu  3.489933 96.510067
##   Sobreviveu      8.028169 91.971831
prop.table(tabela6,2)*100
##                 
##                   criança   adulto
##   Não sobreviveu 47.70642 68.77092
##   Sobreviveu     52.29358 31.22908

Gráfico para duas variáveis

barplot(tabela6)

barplot(tabela6,col=c("thistle1","turquoise1"))

barplot(tabela6,col=c("thistle1","turquoise1"),beside = TRUE)

barplot(tabela6,col=c("thistle1","turquoise1"),beside = TRUE,
        legend.text = rownames(tabela5),
        args.legend = list(x = "topleft"))

52% das crianças sobreviveram, enquanto apenas 31% dos adultos sobreviveram. Portanto, as crianças tiveram prioridade.

Hipótese verificada em parte.

Conclusão

  1. Teve muita desigualdade entre as classes no que tange a sobrevivência.
  2. As crianças tiveram prioridade.