Introdução

Vamos trabalhar duas variáveis qualitativas, mas antes vamos fazer um gráfico de waffle.

Carregar base de dados

load("C:/Users/Kim Fonseca Coquet/Base_de_dados-master/Titanic.RData")

Limpeza de dados

# olhar a base de dados
tail(Titanic$Classe)
## [1] Tripula\xe7\xe3o Tripula\xe7\xe3o Tripula\xe7\xe3o Tripula\xe7\xe3o
## [5] Tripula\xe7\xe3o Tripula\xe7\xe3o
## Levels: Tripula\xe7\xe3o Primeira Segunda Terceira
# mudança de enconding
Titanic$Classe = iconv(Titanic$Classe, "latin1", "UTF-8")

Fazer o waffle

tabela1 = table(Titanic$Sobreviveu)
tabela1
## 
## Não sobreviveu     Sobreviveu 
##           1490            710
prop.table(tabela1)*100
## 
## Não sobreviveu     Sobreviveu 
##       67.72727       32.27273
barplot(tabela1,col = c("red", "blue"))

library(waffle)
## Carregando pacotes exigidos: ggplot2

# ?waffle
  
pedacos <- c(Não_sobreviveu=68, Sobreviveu=32)
waffle(pedacos)

tabela2 = table(Titanic$Sexo)
tabela2
## 
##  Feminino Masculino 
##       470      1730
prop.table(tabela2)
## 
##  Feminino Masculino 
## 0.2136364 0.7863636
pedacos2 = c(Feminino=21, Masculino=79)
waffle(pedacos2,colors=c("red","blue"))

flextable

library(dplyr)
library(flextable)

# %>% operador pipe

head(Titanic) %>% flextable() %>% theme_tron()

Classe

Idade

Sexo

Sobreviveu

Primeira

adulto

Masculino

Sobreviveu

Primeira

adulto

Masculino

Sobreviveu

Primeira

adulto

Masculino

Sobreviveu

Primeira

adulto

Masculino

Sobreviveu

Primeira

adulto

Masculino

Sobreviveu

Primeira

adulto

Masculino

Sobreviveu

Duas variáveis

olhas a natureza da viariável

  1. Qualitativa x Qualitativa
  2. Qualitativa x Quantitativa
  3. Quantitativa x Quantitativa

Questões de pesquisa

Teve uma desigualdade de sobrevivência? Hipótese: desigualdade de sobrevivência.

Foi válida a expressão “mulheres e crianças primeiro”?

Desenho de pesquisa

Variável resposta / Variável de interesse: Sobrevivência

Variáveis explicativas / preditores lineares: o sexo, a idade e a classe.

Análise de dados

# tabela simples
tabela3 = table(Titanic$Sobreviveu,Titanic$Classe)
tabela3
##                 
##                  Primeira Segunda Terceira Tripulação
##   Não sobreviveu      122     167      528        673
##   Sobreviveu          202     118      178        212
# tabela melhorada
library(janitor)
## 
## Attaching package: 'janitor'
## The following objects are masked from 'package:stats':
## 
##     chisq.test, fisher.test
tabyl(Titanic,Sobreviveu,Classe) %>% flextable() %>%
theme_vader()

Sobreviveu

Primeira

Segunda

Terceira

Tripulação

Não sobreviveu

122

167

528

673

Sobreviveu

202

118

178

212

Tabela de proporção

prop.table(tabela3,1)*100
##                 
##                   Primeira   Segunda  Terceira Tripulação
##   Não sobreviveu  8.187919 11.208054 35.436242  45.167785
##   Sobreviveu     28.450704 16.619718 25.070423  29.859155
prop.table(tabela3,2)*100
##                 
##                  Primeira  Segunda Terceira Tripulação
##   Não sobreviveu 37.65432 58.59649 74.78754   76.04520
##   Sobreviveu     62.34568 41.40351 25.21246   23.95480

Teve uma desigualdade dado que 62% da primeira classe sobreviveu e 76% da tripulação não sobreviveu.

Gráfico para duas variáveis

barplot(tabela3)

barplot(tabela3,col=c("red","blue"))

barplot(tabela3,col=c("red","blue"),beside = TRUE)

barplot(tabela3,col=c("red","blue"),beside = TRUE,
        legend.text = rownames(tabela3),
        args.legend = list(x = "topleft"))

Tabela

tabela4 = table(Titanic$Sobreviveu,Titanic$Idade)

prop.table(tabela4,1)*100 %>% round(digits = 2)
##                 
##                    criança    adulto
##   Não sobreviveu  3.489933 96.510067
##   Sobreviveu      8.028169 91.971831

52% das crianças sobreviveram e apenas 31% dos adultos sobreviveram.

As crianças tiveram prioridade! Hipótese verificada em parte!

Conclusão

  1. Teve muita desigualdade entre as classes no que tange a sobrevivência.
  2. As crianças tiveram prioridade.