Aula 2 - Análise de variável qualitativa

Author

Steven

Aqui vamos fazer uma análise de variável qualitativa. Vamos fazer, tabelas, proporções,e gráficos.

Primeiro passo - Carregar a base de dados

load("~/Base_de_dados-master/Titanic.RData")
str(Titanic)
'data.frame':   2200 obs. of  4 variables:
 $ Classe    : Factor w/ 4 levels "Tripula\xe7\xe3o",..: 2 2 2 2 2 2 2 2 2 2 ...
 $ Idade     : Factor w/ 2 levels "criança","adulto": 2 2 2 2 2 2 2 2 2 2 ...
 $ Sexo      : Factor w/ 2 levels "Feminino","Masculino": 2 2 2 2 2 2 2 2 2 2 ...
 $ Sobreviveu: Factor w/ 2 levels "Não sobreviveu",..: 2 2 2 2 2 2 2 2 2 2 ...

Passo 2 - olhar a base de dados

head(Titanic$Classe)
[1] Primeira Primeira Primeira Primeira Primeira Primeira
Levels: Tripula\xe7\xe3o Primeira Segunda Terceira
tail(Titanic$Classe)
[1] Tripula\xe7\xe3o Tripula\xe7\xe3o Tripula\xe7\xe3o Tripula\xe7\xe3o
[5] Tripula\xe7\xe3o Tripula\xe7\xe3o
Levels: Tripula\xe7\xe3o Primeira Segunda Terceira
# Tripulação está escrito de forma errada

A tripulação precisa ser ccorrigida. vamos fazer isso com o comando iconv.

Passo três (corrigir a base de dados)

Titanic$Classe = iconv(Titanic$Classe, "latin1", "UTF-8")

Questões de pesquisa

Quantas pessoas sobreviveram?

Quantas pessoas da primeira classe?

Qual a proporção de mulheres no Titanic?

Variáveis de interesse

Sobreviveu, Classe e Sexo

Passo 5 - tabela de frequência

tabela_sobrevivencia = table(Titanic$Sobreviveu)
tabela_sobrevivencia

Não sobreviveu     Sobreviveu 
          1490            710 
tabela_classe = table(Titanic$Classe)
tabela_classe

  Primeira    Segunda   Terceira Tripulação 
       324        285        706        885 
tabela_sexo = table(Titanic$Sexo)
tabela_sexo

 Feminino Masculino 
      470      1730 

Passo 6 - proporções

round(prop.table(tabela_sobrevivencia)*100,2)

Não sobreviveu     Sobreviveu 
         67.73          32.27 
round(prop.table(tabela_classe)*100,2)

  Primeira    Segunda   Terceira Tripulação 
     14.73      12.95      32.09      40.23 
round(prop.table(tabela_sexo)*100,2)

 Feminino Masculino 
    21.36     78.64 

Gráfico de pizza

pie(tabela_sobrevivencia)

pie(tabela_sobrevivencia, main = "Gráfico 1 - Sobrevivência do Titanic")

pie(tabela_sobrevivencia, 
    col = c("green", "pink"),
    main = "Gráfico 1 - Sobrevivência do Titanic com as cores da Mangueira")

cores = c("skyblue","royalblue")
pie(tabela_sobrevivencia, 
    col = cores,
    main = "Gráfico 1 - Sobrevivência do Titanic com as cores da Mangueira")

cores = c("whitesmoke","turquoise4")
pie(tabela_sobrevivencia, 
    col = cores,
    main = "Gráfico 1 - Sobrevivência do Titanic")

# colors()


cores = c("darkred","turquoise2")
pie(tabela_sexo, 
    col = cores,
    main = "Gráfico 1 - Sexo da população do Titanic")

cores = c("darkred","turquoise2", "green", "blue")

cores = c("#74cff2","#34a5d1", "#bf1551", "#7d0932")

pie(tabela_classe, 
    col = cores,
    main = "Gráfico 2 - Classe da população do Titanic")

Um gráfico de barras

barplot(tabela_classe)

barplot(tabela_classe,
        col = cores,
        main = "Gráfico 3 - Classes da população do Titanic")

Gráfico de waffle

library(waffle)
Carregando pacotes exigidos: ggplot2
fatias <- c(Feminino=21, Masculino=79)

waffle(fatias)

waffle(fatias,colors = c('pink','royalblue'))

Tabelas do flextable e do reactable

# Passo 10 - Tabelas

library(flextable)

tabela_classe

  Primeira    Segunda   Terceira Tripulação 
       324        285        706        885 
class(tabela_classe)
[1] "table"
tabela_classe2 = data.frame(tabela_classe)
class(tabela_classe2)
[1] "data.frame"
library(dplyr)

Anexando pacote: 'dplyr'
Os seguintes objetos são mascarados por 'package:stats':

    filter, lag
Os seguintes objetos são mascarados por 'package:base':

    intersect, setdiff, setequal, union
flextable(tabela_classe2) %>% theme_vader()

Var1

Freq

Primeira

324

Segunda

285

Terceira

706

Tripulação

885

library(reactable)
reactable(tabela_classe2)

Conclusão

  1. Importante identificar o tipo de variável para fazer as estatísticas,
  2. Gráficos de pizza são feitos com o comando pie()
  3. Gráficos de barras são realizados com o comando barplot
  4. O R é Demais!