Aqui vamos fazer uma análise de variável qualitativa! Vamos fazer, tabelas, proporções e gráficos.
load("C:/Users/furta/OneDrive/Área de Trabalho/Base_de_dados-master/Titanic.RData")
#Passo 2 - OLhar a base de dados
str(Titanic)
## 'data.frame': 2200 obs. of 4 variables:
## $ Classe : Factor w/ 4 levels "Tripula\xe7\xe3o",..: 2 2 2 2 2 2 2 2 2 2 ...
## $ Idade : Factor w/ 2 levels "criança","adulto": 2 2 2 2 2 2 2 2 2 2 ...
## $ Sexo : Factor w/ 2 levels "Feminino","Masculino": 2 2 2 2 2 2 2 2 2 2 ...
## $ Sobreviveu: Factor w/ 2 levels "Não sobreviveu",..: 2 2 2 2 2 2 2 2 2 2 ...
head(Titanic$Classe)
## [1] Primeira Primeira Primeira Primeira Primeira Primeira
## Levels: Tripula\xe7\xe3o Primeira Segunda Terceira
tail(Titanic$Classe)
## [1] Tripula\xe7\xe3o Tripula\xe7\xe3o Tripula\xe7\xe3o Tripula\xe7\xe3o
## [5] Tripula\xe7\xe3o Tripula\xe7\xe3o
## Levels: Tripula\xe7\xe3o Primeira Segunda Terceira
#Tripulação está escrita de forma errada
#Passo 3 - Corrigir a base de dados
Titanic$Classe = iconv(Titanic$Classe, "latin1", "UTF-8")
#Passo 4 - Verificar se o problema foi resolvido
str(Titanic)
## 'data.frame': 2200 obs. of 4 variables:
## $ Classe : chr "Primeira" "Primeira" "Primeira" "Primeira" ...
## $ Idade : Factor w/ 2 levels "criança","adulto": 2 2 2 2 2 2 2 2 2 2 ...
## $ Sexo : Factor w/ 2 levels "Feminino","Masculino": 2 2 2 2 2 2 2 2 2 2 ...
## $ Sobreviveu: Factor w/ 2 levels "Não sobreviveu",..: 2 2 2 2 2 2 2 2 2 2 ...
tail(Titanic$Classe)
## [1] "Tripulação" "Tripulação" "Tripulação" "Tripulação" "Tripulação"
## [6] "Tripulação"
View(Titanic)
#resolvido
tabela_sobrevivencia = table(Titanic$Sobreviveu)
tabela_sobrevivencia
##
## Não sobreviveu Sobreviveu
## 1490 710
tabela_classe = table(Titanic$Classe)
tabela_classe
##
## Primeira Segunda Terceira Tripulação
## 324 285 706 885
tabela_sexo = table(Titanic$Sexo)
tabela_sexo
##
## Feminino Masculino
## 470 1730
round(prop.table(tabela_sobrevivencia)*100,2)
##
## Não sobreviveu Sobreviveu
## 67.73 32.27
round(prop.table(tabela_sexo)*100,2)
##
## Feminino Masculino
## 21.36 78.64
round(prop.table(tabela_classe)*100,2)
##
## Primeira Segunda Terceira Tripulação
## 14.73 12.95 32.09 40.23
pie(tabela_sobrevivencia)
pie(tabela_sobrevivencia, main = "Gráfico 1 - Sobreviventes Titanic")
pie(tabela_sobrevivencia, col = c("lightblue", "white"),
main = "Gráfico 1 - Sobreviventes do Titanic com as cores da Mangeueira")
pie(tabela_classe)
pie(tabela_classe, main = "Gráfico 2 - Classe Titanic")
pie (tabela_classe, col = c("lightblue", "white" , "pink" , "red"),
main = "Grafico 2 - Classe Titanic com as cores da Límina")
# Passo 8 - Gráfico de qualitativa ordinal
pie(tabela_classe)
pie(tabela_classe, main = "Gráfico 3 - Sexo Titanic")
pie (tabela_sexo, col = c("darkgreen" , "firebrick1" ),
main = "Grafico 3 - Sexo Titanic")
barplot (tabela_classe, col = c("lightblue", "white" , "pink" , "red"),
main = "Grafico 4 - Classe Titanic")
# Passo 9 - Novo Gráfico
library(waffle)
## Warning: pacote 'waffle' foi compilado no R versão 4.4.1
## Carregando pacotes exigidos: ggplot2
## Warning: pacote 'ggplot2' foi compilado no R versão 4.4.1
fatias <- c(feminino=21, masculino=30)
waffle(fatias)
waffle(fatias,colors = c("pink", "royalblue"))
# Passo 10 - Tabelas
library(flextable)
## Warning: pacote 'flextable' foi compilado no R versão 4.4.1
tabela_classe
##
## Primeira Segunda Terceira Tripulação
## 324 285 706 885
class(tabela_classe)
## [1] "table"
tabela_classe2 = data.frame(tabela_classe)
class(tabela_classe2)
## [1] "data.frame"
library(dplyr)
## Warning: pacote 'dplyr' foi compilado no R versão 4.4.1
##
## Anexando pacote: 'dplyr'
## Os seguintes objetos são mascarados por 'package:stats':
##
## filter, lag
## Os seguintes objetos são mascarados por 'package:base':
##
## intersect, setdiff, setequal, union
flextable(tabela_classe2) %>% theme_vader()
Var1 | Freq |
|---|---|
Primeira | 324 |
Segunda | 285 |
Terceira | 706 |
Tripulação | 885 |
1.Importante identificar o tipo de variável para fazer as estatísticas
Gráficos de pizza são feitos com o comando pie()
Gráficos de barras são realizadas com o comando barplot
O R e o Stevn são demais