load("C:/Users/PCY/Documents/Estatistica R/BASE DE DADOS ESTATISTICA/Titanic.RData")
library(forcats)
library(ggplot2)
library(ggpubr)
library(dplyr)
# quantas pessoas:
nrow(Titanic)
## [1] 2200
# quantas variáveis:
ncol(Titanic)
## [1] 4
sort(table(Titanic$Sobreviveu),decreasing=FALSE)[1:1]
## Sobreviveu
## 710
vivos<-table(Titanic$Sobreviveu)
round(prop.table(vivos)*100,2)
##
## Não sobreviveu Sobreviveu
## 67.73 32.27
mulheres_tit <- filter(Titanic,Sexo == "Feminino")
sort(table(mulheres_tit$Sobreviveu),decreasing=TRUE)[1:1]
## Sobreviveu
## 344
crianca_tit <- filter(Titanic,Idade == "criança")
sort(table(crianca_tit$Sobreviveu),decreasing=TRUE)[1:1]
## Sobreviveu
## 57
ter_classe <- filter(Titanic,Classe == "Terceira")
sort(table(ter_classe$Sobreviveu),decreasing=FALSE)[1:1]
## Sobreviveu
## 178
mulheres_vivas <- table(mulheres_tit$Sobreviveu)
round(prop.table(mulheres_vivas)*100,2)
##
## Não sobreviveu Sobreviveu
## 26.81 73.19
crianca_vivas <- table(crianca_tit$Sobreviveu)
round(prop.table(crianca_vivas)*100,2)
##
## Não sobreviveu Sobreviveu
## 47.71 52.29
ter_classe_vivas <- table(ter_classe$Sobreviveu)
round(prop.table(ter_classe_vivas)*100,2)
##
## Não sobreviveu Sobreviveu
## 74.79 25.21
Preferencialmente o gráfico de barras, dada a sua utilização para representar a freqüência absoluta ou percentual de variáveis, que neste caso se resume a um conjunto de dados categóricos, de variáveis qualitativas.
tab_sobreviventes<-table(Titanic$Sobreviveu)
barplot(tab_sobreviventes,col = c("#48b007","#1be3d9"),ylim = c(0,1600))
tab_sobreviventes<-table(Titanic$Sobreviveu, Titanic$Sexo)
barplot(tab_sobreviventes, beside = TRUE,
col = c("#0212a6","#fc08dc"),
legend = levels(unique(Titanic$Sobreviveu)),
xlim = c(0,8),
ylim = c(0,1600))
ggplot(Titanic) +
aes(x = Classe) +
geom_bar(fill = "#26828e") +
theme_minimal() +
facet_wrap(vars(Sobreviveu)) +
coord_cartesian(ylim = c(0,800))
Novamente o gráfico de barras para visualizar a frequência absoluta dos valores das variáveis.
No primeiro gráfico a área dos pontos é proporcional ao valor numérico imbutido, e neste caso nos mostra a frequência absoluta de sobreviventes e não sobreviventes. Enquanto que o segundo não apresenta valores numéricos, porém, percebe-se que é retratada a frequência relativa dos sobreviventes e não sobreviventes ao levar-se em consideração todos os dados desta variável. Vale dizer que é a intuição que pode facilitar a interpretação neste tipo de gráfico.