A base de dados

load("C:/Users/PCY/Documents/Estatistica R/BASE DE DADOS ESTATISTICA/Titanic.RData")

library(forcats)
library(ggplot2)
library(ggpubr)
library(dplyr)

Atividade 1 - Quantas pessoas tinha no Titanic? Quantas informações (variáveis) existem no banco de dados?

# quantas pessoas:
nrow(Titanic)
## [1] 2200
# quantas variáveis:
ncol(Titanic)
## [1] 4

Atividade 2 - Quantas pessoas sobreviveram ao Titanic?

sort(table(Titanic$Sobreviveu),decreasing=FALSE)[1:1]
## Sobreviveu 
##        710

Atividade 3 - Qual é a proporção de pessoas que sobreviveram ao Titanic?

vivos<-table(Titanic$Sobreviveu)
round(prop.table(vivos)*100,2)
## 
## Não sobreviveu     Sobreviveu 
##          67.73          32.27

Atividade 4 - Quantas mulheres sobreviveram?

mulheres_tit <- filter(Titanic,Sexo == "Feminino")

sort(table(mulheres_tit$Sobreviveu),decreasing=TRUE)[1:1]
## Sobreviveu 
##        344

Atividade 5 - Quantas crianças sobreviveram?

crianca_tit <- filter(Titanic,Idade == "criança")

sort(table(crianca_tit$Sobreviveu),decreasing=TRUE)[1:1]
## Sobreviveu 
##         57

Atividade 6 - Quantas pessoas da terceira classe sobreviveram?

ter_classe <- filter(Titanic,Classe == "Terceira")

sort(table(ter_classe$Sobreviveu),decreasing=FALSE)[1:1]
## Sobreviveu 
##        178

Atividade 7 - Qual o percentual de mulheres que sobreviveu?

mulheres_vivas <- table(mulheres_tit$Sobreviveu)
round(prop.table(mulheres_vivas)*100,2)
## 
## Não sobreviveu     Sobreviveu 
##          26.81          73.19

Atividade 8 - Qual o percentual de crianças que sobreviveu?

crianca_vivas <- table(crianca_tit$Sobreviveu)
round(prop.table(crianca_vivas)*100,2)
## 
## Não sobreviveu     Sobreviveu 
##          47.71          52.29

Atividade 9 - Qual o percentual da terceira classe que sobreviveu?

ter_classe_vivas <- table(ter_classe$Sobreviveu)
round(prop.table(ter_classe_vivas)*100,2)
## 
## Não sobreviveu     Sobreviveu 
##          74.79          25.21

Atividade 10 - Que tipo de gráfico você pode utilizar nesse tipo de dado? Por quê?

Preferencialmente o gráfico de barras, dada a sua utilização para representar a freqüência absoluta ou percentual de variáveis, que neste caso se resume a um conjunto de dados categóricos, de variáveis qualitativas.

Atividade 11 - Você poderia construir um gráfico para a variável “sobreviveu”?

tab_sobreviventes<-table(Titanic$Sobreviveu)

barplot(tab_sobreviventes,col = c("#48b007","#1be3d9"),ylim = c(0,1600))

Atividade 12 - Você poderia construir um gráfico da variável “sobreviveu” por “sexo”?

tab_sobreviventes<-table(Titanic$Sobreviveu, Titanic$Sexo)

barplot(tab_sobreviventes, beside = TRUE,
        col = c("#0212a6","#fc08dc"),
        legend = levels(unique(Titanic$Sobreviveu)),
        xlim = c(0,8),
        ylim = c(0,1600))

Atividade 13 - Você poderia construir uma outra visualização de dados (além dessas duas)? Qual gráfico você sugere?

ggplot(Titanic) +
  aes(x = Classe) +
  geom_bar(fill = "#26828e") +
  theme_minimal() +
  facet_wrap(vars(Sobreviveu)) +
  coord_cartesian(ylim = c(0,800))

Novamente o gráfico de barras para visualizar a frequência absoluta dos valores das variáveis.

Atividade 14 - Você consegue interpretar esses dois gráficos? o que eles estão dizendo?

No primeiro gráfico a área dos pontos é proporcional ao valor numérico imbutido, e neste caso nos mostra a frequência absoluta de sobreviventes e não sobreviventes. Enquanto que o segundo não apresenta valores numéricos, porém, percebe-se que é retratada a frequência relativa dos sobreviventes e não sobreviventes ao levar-se em consideração todos os dados desta variável. Vale dizer que é a intuição que pode facilitar a interpretação neste tipo de gráfico.