Agora iremosrealizar a análise de duas variaveis qualitativas. Vamos carregar, olhar, limpar e criar tabelas de propoção dos sobreviventes do Titanic.
load("~/Base_de_dados-master/Titanic.RData")
tail(Titanic$Classe)
## [1] Tripula\xe7\xe3o Tripula\xe7\xe3o Tripula\xe7\xe3o Tripula\xe7\xe3o
## [5] Tripula\xe7\xe3o Tripula\xe7\xe3o
## Levels: Tripula\xe7\xe3o Primeira Segunda Terceira
Há um problema com os “ç” e temos que resolver através desse comando:
Titanic$Classe = iconv(Titanic$Classe, "latin1", "UTF-8")
table(Titanic$Classe)
##
## Primeira Segunda Terceira Tripulação
## 324 285 706 885
variável explicada: sobreviveu variáveis explicativas: idade, sexo e classe
Carregar as bibliotecas:
library(janitor)
##
## Attaching package: 'janitor'
## The following objects are masked from 'package:stats':
##
## chisq.test, fisher.test
library(flextable)
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
Logo após, vamos fazer a tabela.
tabyl(Titanic,Classe,Sobreviveu) %>% adorn_percentages("row") %>% adorn_pct_formatting(digits = 2) %>% adorn_ns()%>% flextable() %>% theme_vader()
Classe | Não sobreviveu | Sobreviveu |
|---|---|---|
Primeira | 37.65% (122) | 62.35% (202) |
Segunda | 58.60% (167) | 41.40% (118) |
Terceira | 74.79% (528) | 25.21% (178) |
Tripulação | 76.05% (673) | 23.95% (212) |
TABELA DE BARRAS
tabela_classe = table(Titanic$Sobreviveu, Titanic$Classe)
tabela_classe
##
## Primeira Segunda Terceira Tripulação
## Não sobreviveu 122 167 528 673
## Sobreviveu 202 118 178 212
barplot(tabela_classe)
barplot(tabela_classe, main= "Sobreviventes do Titanic: Classe", col=c("green","blue"), beside = TRUE, legend.text = rownames(tabela_classe), args.legend = list(x = "topleft"))
Teoria da desigualdade verificada. A Primeira classe sobreviveu mais e a Tripulação morreu mais. Dessa forma, ocorrendo uma desigualdade economica da sobrevivencia.