Vamos trabalhar duas variáveis qualitativas, mas antes vamos fazer um gráfico de waffle.
load("C:/Users/Kim Fonseca Coquet/Base_de_dados-master/Titanic.RData")
# olhar a base de dados
tail(Titanic$Classe)
## [1] Tripula\xe7\xe3o Tripula\xe7\xe3o Tripula\xe7\xe3o Tripula\xe7\xe3o
## [5] Tripula\xe7\xe3o Tripula\xe7\xe3o
## Levels: Tripula\xe7\xe3o Primeira Segunda Terceira
# mudança de enconding
Titanic$Classe = iconv(Titanic$Classe, "latin1", "UTF-8")
tabela1 = table(Titanic$Sobreviveu)
tabela1
##
## Não sobreviveu Sobreviveu
## 1490 710
prop.table(tabela1)*100
##
## Não sobreviveu Sobreviveu
## 67.72727 32.27273
barplot(tabela1,col = c("red", "blue"))
library(waffle)
## Carregando pacotes exigidos: ggplot2
# ?waffle
pedacos <- c(Não_sobreviveu=68, Sobreviveu=32)
waffle(pedacos)
tabela2 = table(Titanic$Sexo)
tabela2
##
## Feminino Masculino
## 470 1730
prop.table(tabela2)
##
## Feminino Masculino
## 0.2136364 0.7863636
pedacos2 = c(Feminino=21, Masculino=79)
waffle(pedacos2,colors=c("red","blue"))
library(dplyr)
library(flextable)
# %>% operador pipe
head(Titanic) %>% flextable() %>% theme_tron()
Classe | Idade | Sexo | Sobreviveu |
|---|---|---|---|
Primeira | adulto | Masculino | Sobreviveu |
Primeira | adulto | Masculino | Sobreviveu |
Primeira | adulto | Masculino | Sobreviveu |
Primeira | adulto | Masculino | Sobreviveu |
Primeira | adulto | Masculino | Sobreviveu |
Primeira | adulto | Masculino | Sobreviveu |
olhas a natureza da viariável
Teve uma desigualdade de sobrevivência? Hipótese: desigualdade de sobrevivência.
Foi válida a expressão “mulheres e crianças primeiro”?
Variável resposta / Variável de interesse: Sobrevivência
Variáveis explicativas / preditores lineares: o sexo, a idade e a classe.
# tabela simples
tabela3 = table(Titanic$Sobreviveu,Titanic$Classe)
tabela3
##
## Primeira Segunda Terceira Tripulação
## Não sobreviveu 122 167 528 673
## Sobreviveu 202 118 178 212
# tabela melhorada
library(janitor)
##
## Attaching package: 'janitor'
## The following objects are masked from 'package:stats':
##
## chisq.test, fisher.test
tabyl(Titanic,Sobreviveu,Classe) %>% flextable() %>%
theme_vader()
Sobreviveu | Primeira | Segunda | Terceira | Tripulação |
|---|---|---|---|---|
Não sobreviveu | 122 | 167 | 528 | 673 |
Sobreviveu | 202 | 118 | 178 | 212 |
prop.table(tabela3,1)*100
##
## Primeira Segunda Terceira Tripulação
## Não sobreviveu 8.187919 11.208054 35.436242 45.167785
## Sobreviveu 28.450704 16.619718 25.070423 29.859155
prop.table(tabela3,2)*100
##
## Primeira Segunda Terceira Tripulação
## Não sobreviveu 37.65432 58.59649 74.78754 76.04520
## Sobreviveu 62.34568 41.40351 25.21246 23.95480
Teve uma desigualdade dado que 62% da primeira classe sobreviveu e 76% da tripulação não sobreviveu.
barplot(tabela3)
barplot(tabela3,col=c("red","blue"))
barplot(tabela3,col=c("red","blue"),beside = TRUE)
barplot(tabela3,col=c("red","blue"),beside = TRUE,
legend.text = rownames(tabela3),
args.legend = list(x = "topleft"))
tabela4 = table(Titanic$Sobreviveu,Titanic$Idade)
prop.table(tabela4,1)*100 %>% round(digits = 2)
##
## criança adulto
## Não sobreviveu 3.489933 96.510067
## Sobreviveu 8.028169 91.971831
52% das crianças sobreviveram e apenas 31% dos adultos sobreviveram.
As crianças tiveram prioridade! Hipótese verificada em parte!