Introdução

Vamos trabalhar duas variáveis qualitativas, mas antes vamos fazer um gráfico de waffle

Carregar a base de dados

load("C:/Users/MLSS/Desktop/Base_de_dados-master/Titanic.RData")

Limpeza dos dados

#olhar base de dados
tail(Titanic$Classe)
## [1] Tripulação Tripulação Tripulação Tripulação Tripulação Tripulação
## Levels: Tripulação Primeira Segunda Terceira
#mudança do encoding
Titanic$Classe = iconv(Titanic$Classe, "latin1", "UTF-8")

Fazer os gráficos de waffle

tabela1 = table(Titanic$Sobreviveu)
tabela1
## 
## Não sobreviveu     Sobreviveu 
##           1490            710
prop.table(tabela1)*100
## 
## Não sobreviveu     Sobreviveu 
##       67.72727       32.27273
# Baixou pacote waffle(não vai precisar baixar mais)

library(waffle)
## Warning: package 'waffle' was built under R version 4.1.3
## Carregando pacotes exigidos: ggplot2
## Warning: package 'ggplot2' was built under R version 4.1.3
#?waffle

pedacos = c(Não_sobreviveu=68,sobreviveu=32)
waffle(pedacos)

tabela2 = table(Titanic$Sexo)
tabela2
## 
##  Feminino Masculino 
##       470      1730
prop.table(tabela2)*100
## 
##  Feminino Masculino 
##  21.36364  78.63636
pedacos2 = c(Feminino=21,Masculino=79)
waffle(pedacos2,colors=c("red" , "blue"))

Flextable

#Baixou o pacote dplyr(não vai precisar baixar mais)
library(dplyr)
##Baixou o pacote flextable (não vai precisar baixar mais)
library(flextable)
#transformar um objeto em interativo

# %>% operador pipe
head(Titanic) %>% flextable() %>% theme_tron()

Classe

Idade

Sexo

Sobreviveu

Primeira

adulto

Masculino

Sobreviveu

Primeira

adulto

Masculino

Sobreviveu

Primeira

adulto

Masculino

Sobreviveu

Primeira

adulto

Masculino

Sobreviveu

Primeira

adulto

Masculino

Sobreviveu

Primeira

adulto

Masculino

Sobreviveu

Duas variáveis

olhar a natureza da variável

  1. qualitativa x qualitativa
  2. qualitativa x quantitativa
  3. quantitativa x quantitativa

Questões de pesquisa

Houve uma desigualdade de sobrevivência? Hipótese: desigualdade de sobrevivência

Foi válida a expressão “mulheres e crianças primeiro”?

Desenho de pesquisa

Variável resposta/ Variável de interesse: Sobrevivência

Variáveis explicativas/ preditores lineares: sexo, idade, e classe

Análise de dados

#Tabela simples
tabela3 = table(Titanic$Sobreviveu, Titanic$Classe)
tabela3
##                 
##                  Primeira Segunda Terceira Tripulação
##   Não sobreviveu      122     167      528        673
##   Sobreviveu          202     118      178        212
#Tabela melhorada
library(janitor)
## Warning: package 'janitor' was built under R version 4.1.3
## 
## Attaching package: 'janitor'
## The following objects are masked from 'package:stats':
## 
##     chisq.test, fisher.test
tabyl(Titanic,Sobreviveu,Classe) %>% flextable() %>% theme_vader()

Sobreviveu

Primeira

Segunda

Terceira

Tripulação

Não sobreviveu

122

167

528

673

Sobreviveu

202

118

178

212

Tabela de proporção

prop.table(tabela3,1)
##                 
##                    Primeira    Segunda   Terceira Tripulação
##   Não sobreviveu 0.08187919 0.11208054 0.35436242 0.45167785
##   Sobreviveu     0.28450704 0.16619718 0.25070423 0.29859155
prop.table(tabela3,2)
##                 
##                   Primeira   Segunda  Terceira Tripulação
##   Não sobreviveu 0.3765432 0.5859649 0.7478754  0.7604520
##   Sobreviveu     0.6234568 0.4140351 0.2521246  0.2395480

Teve uma desigualdade dado que 62% da priemira classe sobreviveu e 76% da tripulação não sobreviveu.

Gráfico para duas variáveis

barplot(tabela3, col=c("red","lightgreen"))

barplot(tabela3, col=c("red","lightgreen"), beside = TRUE,
        legend.text = rownames(tabela3), 
        args.legend = list(x="topleft"))

Qual grupo teve maior índice de sobrevivência: crianças ou adultos?

#Tabela simples
tabela4 = table(Titanic$Sobreviveu, Titanic$Idade)
tabela4
##                 
##                  criança adulto
##   Não sobreviveu      52   1438
##   Sobreviveu          57    653
#Tabela de proporção
prop.table(tabela4,2)
##                 
##                    criança    adulto
##   Não sobreviveu 0.4770642 0.6877092
##   Sobreviveu     0.5229358 0.3122908
barplot(tabela4, col=c("red","lightgreen"))

barplot(tabela4, col=c("red","lightgreen"), beside = TRUE,
        legend.text = rownames(tabela3), 
        args.legend = list(x="topleft"))

Conclusão

  1. Teve muita desigualdade entre as classes no que tange a sobrevivência.
  2. As crianças tiveram prioridade
  3. Mulheres e crianças realmente tiveram prioridade!