• Introdução
    • Carregar a base de dados
    • Limpeza dos dados
    • Fazer os gráficos de waffle
  • Flextable
  • Duas variáveis
    • Questões de pesquisa
    • Desenho de pesquisa
    • Análise de dados
    • Tabela de proporção
  • Gráfico para duas variáveis
  • Qual grupo teve maior índice de sobrevivência: crianças ou adultos?
  • Conclusão

Introdução

Vamos trabalhar duas variáveis qualitativas, mas antes vamos fazer um gráfico de waffle

Carregar a base de dados

load("C:/Users/MLSS/Desktop/Base_de_dados-master/Titanic.RData")

Limpeza dos dados

#olhar base de dados
tail(Titanic$Classe)
## [1] Tripulação Tripulação Tripulação Tripulação Tripulação Tripulação
## Levels: Tripulação Primeira Segunda Terceira
#mudança do encoding
Titanic$Classe = iconv(Titanic$Classe, "latin1", "UTF-8")

Fazer os gráficos de waffle

tabela1 = table(Titanic$Sobreviveu)
tabela1
## 
## Não sobreviveu     Sobreviveu 
##           1490            710
prop.table(tabela1)*100
## 
## Não sobreviveu     Sobreviveu 
##       67.72727       32.27273
# Baixou pacote waffle(não vai precisar baixar mais)

library(waffle)
## Warning: package 'waffle' was built under R version 4.1.3
## Carregando pacotes exigidos: ggplot2
## Warning: package 'ggplot2' was built under R version 4.1.3
#?waffle

pedacos = c(Não_sobreviveu=68,sobreviveu=32)
waffle(pedacos)

tabela2 = table(Titanic$Sexo)
tabela2
## 
##  Feminino Masculino 
##       470      1730
prop.table(tabela2)*100
## 
##  Feminino Masculino 
##  21.36364  78.63636
pedacos2 = c(Feminino=21,Masculino=79)
waffle(pedacos2,colors=c("red" , "blue"))

Flextable

#Baixou o pacote dplyr(não vai precisar baixar mais)
library(dplyr)
##Baixou o pacote flextable (não vai precisar baixar mais)
library(flextable)
#transformar um objeto em interativo

# %>% operador pipe
head(Titanic) %>% flextable() %>% theme_tron()

Duas variáveis

olhar a natureza da variável

  1. qualitativa x qualitativa
  2. qualitativa x quantitativa
  3. quantitativa x quantitativa

Questões de pesquisa

Houve uma desigualdade de sobrevivência? Hipótese: desigualdade de sobrevivência

Foi válida a expressão “mulheres e crianças primeiro”?

Desenho de pesquisa

Variável resposta/ Variável de interesse: Sobrevivência

Variáveis explicativas/ preditores lineares: sexo, idade, e classe

Análise de dados

#Tabela simples
tabela3 = table(Titanic$Sobreviveu, Titanic$Classe)
tabela3
##                 
##                  Primeira Segunda Terceira Tripulação
##   Não sobreviveu      122     167      528        673
##   Sobreviveu          202     118      178        212
#Tabela melhorada
library(janitor)
## Warning: package 'janitor' was built under R version 4.1.3
## 
## Attaching package: 'janitor'
## The following objects are masked from 'package:stats':
## 
##     chisq.test, fisher.test
tabyl(Titanic,Sobreviveu,Classe) %>% flextable() %>% theme_vader()

Tabela de proporção

prop.table(tabela3,1)
##                 
##                    Primeira    Segunda   Terceira Tripulação
##   Não sobreviveu 0.08187919 0.11208054 0.35436242 0.45167785
##   Sobreviveu     0.28450704 0.16619718 0.25070423 0.29859155
prop.table(tabela3,2)
##                 
##                   Primeira   Segunda  Terceira Tripulação
##   Não sobreviveu 0.3765432 0.5859649 0.7478754  0.7604520
##   Sobreviveu     0.6234568 0.4140351 0.2521246  0.2395480

Teve uma desigualdade dado que 62% da priemira classe sobreviveu e 76% da tripulação não sobreviveu.

Gráfico para duas variáveis

barplot(tabela3, col=c("red","lightgreen"))

barplot(tabela3, col=c("red","lightgreen"), beside = TRUE,
        legend.text = rownames(tabela3), 
        args.legend = list(x="topleft"))

Qual grupo teve maior índice de sobrevivência: crianças ou adultos?

#Tabela simples
tabela4 = table(Titanic$Sobreviveu, Titanic$Idade)
tabela4
##                 
##                  criança adulto
##   Não sobreviveu      52   1438
##   Sobreviveu          57    653
#Tabela de proporção
prop.table(tabela4,2)
##                 
##                    criança    adulto
##   Não sobreviveu 0.4770642 0.6877092
##   Sobreviveu     0.5229358 0.3122908
barplot(tabela4, col=c("red","lightgreen"))

barplot(tabela4, col=c("red","lightgreen"), beside = TRUE,
        legend.text = rownames(tabela3), 
        args.legend = list(x="topleft"))

Conclusão

  1. Teve muita desigualdade entre as classes no que tange a sobrevivência.
  2. As crianças tiveram prioridade
  3. Mulheres e crianças realmente tiveram prioridade!