Matrícula: 20241520033

Professor: Steven Dutt-Ross

Baixei os pacotes necessários para o exercício.

library(forcats)
library(ggplot2)
library(ggpubr)

Abri o arquivo Titanic.RData.

load("C:/Users/Helena/Base_de_dados-master/Titanic.RData")

Corrigi o problema presente no arquivo e verifiquei se tive êxito.

Titanic$Classe = iconv(Titanic$Classe, "latin1", "UTF-8")

str(Titanic)
## 'data.frame':    2200 obs. of  4 variables:
##  $ Classe    : chr  "Primeira" "Primeira" "Primeira" "Primeira" ...
##  $ Idade     : Factor w/ 2 levels "criança","adulto": 2 2 2 2 2 2 2 2 2 2 ...
##  $ Sexo      : Factor w/ 2 levels "Feminino","Masculino": 2 2 2 2 2 2 2 2 2 2 ...
##  $ Sobreviveu: Factor w/ 2 levels "Não sobreviveu",..: 2 2 2 2 2 2 2 2 2 2 ...
head(Titanic$Classe)
## [1] "Primeira" "Primeira" "Primeira" "Primeira" "Primeira" "Primeira"
tail(Titanic$Classe)
## [1] "Tripulação" "Tripulação" "Tripulação" "Tripulação" "Tripulação"
## [6] "Tripulação"
View(Titanic)

Problema corrigido :)

Perguntas a serem respondidas:

CONHEÇA OS SEUS DADOS

1 - Quantas pessoas tinham no Titanic? Quantas informações (variáveis) existem no banco de dados?

R: Havia 2200 pessoas a bordo do navio Titanic. Existem 4 variáveis no banco de dados do arquivo.

Interpretação do resultado encontrado:

Cheguei à resposta a partir da visualização da aba “Environment”. Nela pude observar que é informado o número de linhas e colunas. Sendo assim, constatei que havia 2200 linhas, que diziam respeito à quantidade de pessoas a bordo do navio, e o número de colunas, que diziam respeito às variáveis.

2 - Quantas pessoas sobreviveram ao Titanic?

tabela_sobrevivencia = table(Titanic$Sobreviveu)
tabela_sobrevivencia
## 
## Não sobreviveu     Sobreviveu 
##           1490            710

R: Após executar os comandos acima, observa-se que somente 710 pessoas sobreviveram ao trágico acidente do Titanic.

Interpretação do resultado encontrado:

Cheguei à resposta a partir dos comandos das linhas 60 e 61. Esses comandos foram ensinados na segunda aula que tivemos. O primeiro comando constrói uma tabela que apresenta as pessoas que não sobreviveram e que sobreviveram ao Titanic. Já o segundo comando mostra a tabela em questão, em que pude concluir que houve 710 óbitos no incidente.

3 - Qual é a proporção de pessoas que sobreviveram ao Titanic?

round(prop.table(tabela_sobrevivencia)*100,2)
## 
## Não sobreviveu     Sobreviveu 
##          67.73          32.27

R: A proporção de pessoas que sobreviveram é de 32.27%, como mostra o comando acima.

Interpretação do resultado encontrado:

Cheguei à resposta a partir do comando da linha 73, já que ele constrói uma tabela apresentando a porcentagem de pessoas que não sobreviveram e que sobreviveram ao incidente. Adicionei “*100,2” para deixar o resultado percentual com duas casas decimais, para melhor visualização. Esse comando também foi ensinado na segunda aula que tivemos.

ANÁLISES DESCRITIVAS DOS DADOS

4 - Quantas mulheres sobreviveram?

T1 = table(Titanic$Sexo,Titanic$Sobreviveu)
T1
##            
##             Não sobreviveu Sobreviveu
##   Feminino             126        344
##   Masculino           1364        366

R: Após executar os comandos acima, é possível observar, a partir do resultado obtido, que 344 mulheres sobreviveram ao incidente do Titanic.

Interpretação do resultado encontrado:

Cheguei à resposta a partir dos comandos das linhas 87 e 88, que fazem nada mais nada menos que comparar duas variáveis. Dessa forma, o que fiz foi pegar a variável “sexo” e compará-la com a variável “sobreviveu”, o que resultou na resposta de 344 mulheres sobreviventes no acidente marítimo mais famoso do último século.

5 - Quantas crianças sobreviveram?

T2 = table(Titanic$Idade,Titanic$Sobreviveu)
T2
##          
##           Não sobreviveu Sobreviveu
##   criança             52         57
##   adulto            1438        653

R: Após executar o comando acima, observa-se que 57 crianças sobreviveram ao acidente.

Interpretação do resultado encontrado:

Cheguei à resposta a partir dos comandos das linhas 100 e 101, só que dessa vez comparei as variáveis “idade” e “sobreviveu”. Dessa forma, pude analisar que somente 57 crianças sobreviveram ao acidente do Titanic.

6 - Quantas pessoas da terceira classe sobreviveram?

T3 = table(Titanic$Classe,Titanic$Sobreviveu)
T3
##             
##              Não sobreviveu Sobreviveu
##   Primeira              122        202
##   Segunda               167        118
##   Terceira              528        178
##   Tripulação            673        212

R: Após executar o comando acima, observa-se que 178 pessoas da terceira classe do navio sobreviveram.

Interpretação do resultado encontrado:

Cheguei à resposta com os comandos das linhas 113 e 114, já que esses comandos são responsáveis por comparar variáveis. Essa e as duas últimas questões têm esse aspecto em comum, comparar variáveis, por isso o uso dos mesmos comandos repetidas vezes. Dessa vez, comparei as variáveis “classe” e “sobreviveu”, o que resultou na resposta de 178 pessoas sobreviventes na terceira classe do navio.

7 - Qual o percentual de mulheres que sobreviveu?

percentual <- round(prop.table(T1,1)*100,digits = 1)
percentual
##            
##             Não sobreviveu Sobreviveu
##   Feminino            26.8       73.2
##   Masculino           78.8       21.2

R: Após executar o comando acima, é possível ver que a porcentagem de mulheres que sobreviveram ao acidente é de 73,2%.

Interpretação do resultado encontrado:

Cheguei à resposta a partir dos comandos das linhas 126 e 127. Esses comandos se relacionaram com os comandos da questão 4, me dando uma tabela mostrando a porcentagem de homens e mulheres que não sobreviveram e sobreviveram ao Titanic. Dessa forma, busquei a informação que estava querendo para responder à pergunta, que foi a porcentagem de mulheres sobreviventes. Sendo assim, pude concluir que essa porcentagem era de 73,2%.

8 - Qual o percentual de crianças que sobreviveu?

percentual2 <- round(prop.table(T2,1)*100,digits = 1)
percentual2
##          
##           Não sobreviveu Sobreviveu
##   criança           47.7       52.3
##   adulto            68.8       31.2

R: Tendo executado os comandos acima, pude concluir que o percentual de crianças que sobreviveram ao Titanic foi de 52,3%.

Interpretação do resultado encontrado:

Cheguei à resposta a partir dos comandos das linhas 139 e 140. Esses comandos se relacionaram com os comandos da questão 5, me dando uma tabela mostrando a porcentagem de crianças e adultos que não sobreviveram e sobreviveram ao incidente, assim como na questão 7. Sendo assim, segui a mesma lógica da questão anterior. Busquei o dado que me interessava e concluí que 52,3% das crianças tiveram a sorte de sobreviver.

9 - Qual o percentual da terceira classe que sobreviveu?

percentual3 <- round(prop.table(T3,1)*100,digits = 1)
percentual3
##             
##              Não sobreviveu Sobreviveu
##   Primeira             37.7       62.3
##   Segunda              58.6       41.4
##   Terceira             74.8       25.2
##   Tripulação           76.0       24.0

R: Depois de executar os comandos acima, é possível perceber que a quantidade de pessoas da terceira classe que sobreviveram foi de 25,2%.

Interpretação do resultado encontrado:

Cheguei à resposta a partir dos comandos das linhas 152 e 153. Esses comandos se relacionaram com os comandos da questão 6, me dando uma tabela mostrando a porcentagem de pessoas de cada classe que não sobreviveram e sobreviveram ao incidente, assim como na questão 7 e 8. Sendo assim, busquei novamente o que me interessava, que era a porcentagem de pessoas da terceira classe que conseguiram sobreviver, obtendo a resposta de 25,2%.

SE VOCÊ QUISER MAIS

10 - Que tipo de gráfico você pode utilizar nesse tipo de dado? Por quê?

R: Nesse tipo de dado pode-se usar um gráfico de barras, por exemplo, já que esse tipo de gráfico é eficaz na análise de variáveis qualitativas, sejam elas ordinais ou nominais.

Interpretação do resultado encontrado:

Cheguei à resposta a partir do conteúdo passado ao longo das aulas. Nessas aulas pude aprender diferença entre variáveis qualitativas e quantitativas, sendo assim capaz de responder à pergunta de número 10. As variáveis qualitativas representam categorias, enquanto as quantitativas representam números. As qualitativas subdividem-se em ordinais e nominais, sendo a ordinal responsável por organizar informações que possuem uma hierarquia, como escolaridade, e a nominal por organizar informações que não possuem ordem específica, como o sexo de uma pessoa. Já as variáveis quantitativas subdividem-se em contínuas e discretas, sendo a contínua responsável por organizar intervalos contínuos, como altura, e a discreta por organizar valores inteiros, como a idade de alguém.

11 - Você poderia construir um gráfico para a variável “sobreviveu”?

T4 = table(Titanic$Sobreviveu)
T4
## 
## Não sobreviveu     Sobreviveu 
##           1490            710
bp <- barplot(T4,
        col=c("gray","grey12"),
        main = "Gráfico 1 - Variável Sobreviveu",
        horiz = FALSE,beside = TRUE,
        legend.text = rownames(T4),
        args.legend = list(x = "topright"))

R: Tendo executado os comandos acima, consegui montar o gráfico somente para a variável “sobreviveu”. O comando que resultou no gráfico em si foi o que começou na linha 177 e foi até a linha 182.

Interpretação do resultado encontrado:

Cheguei à resposta a partir dos comandos das linhas 175 até 182. Os primeiros dois comandos foram para criar uma tabela e deixá-la salva na aba “Environment”. Depois disso, executei o terceiro comando para realmente criar um gráfico para a variável “sobreviveu”, em particular.

12 - Você poderia construir um gráfico da variável “sobreviveu” por “sexo”?

T5 = table(Titanic$Sobreviveu,Titanic$Sexo)
T5
##                 
##                  Feminino Masculino
##   Não sobreviveu      126      1364
##   Sobreviveu          344       366
bp2 <- barplot(T5,
        col=c("rosybrown","seashell","wheat","thistle3"),
        main = "Gráfico 2 - Variável Sobreviveu por Sexo",
        horiz = FALSE,beside = TRUE,
        legend.text = rownames(T5),
        args.legend = list(x = "topleft"))

R: Executando os comandos acima, consegui montar o gráfico para a variável “sobreviveu” por “sexo”. O comando que resultou no gráfico em si foi o que começou na linha 196 e foi até a linha 201.

Interpretação do resultado encontrado:

Cheguei à resposta a partir das linhas 194 até 201. Os primeiros dois comandos foram para criar uma tabela e deixá-la salva na aba “Environment”, assim como na questão 11. Depois disso, executei o terceiro comando para realmente criar um gráfico para a variável “sobreviveu” por “sexo”. Essa questão é muito semelhante à questão anterior, o que muda é que a questão 12 trabalha com duas variáveis, enquanto a questão 11 trabalha somente com uma.

UM ÚLTIMO DESAFIO: FAZER UMA NOVA VISUALIZAÇÃO DE DADOS

tabela<-table(Titanic$Classe,Titanic$Sobreviveu)
tabela<-data.frame(tabela)
ggballoonplot(tabela, fill = "value")+
ggtitle("Sobreviventes do Titanic") 

mosaicplot(table(Titanic$Classe,Titanic$Sobreviveu), main = "Sobreviventes do Titanic", color = c("red","blue"))

13 - Você poderia construir uma outra visualização de dados (além dessas duas)? Qual gráfico você sugere?

R: Sim, poderia. O gráfico que sugiro é o de “Waffle”, que traz uma visualização semelhante ao de “mosaico”, no entanto, ele é mais compacto. Na minha opinião, esse gráfico precisa ser um pouco melhor analisado para poder ser entendido, mas que no geral deixa as informações explicitadas de maneira eficaz e coerente.

Interpretação do resultado encontrado:

Cheguei à resposta a partir do que foi passado em aula, quando criamos pela primeira vez um gráfico no R. Nessa aula, vimos o gráfico de “Waffle” e ele me chamou bastante atenção, já que fugia do aspecto dos gráficos convencionais. Tendia para um novo viés de exposição de dados, o que me impressionou e fez eu escolher ele como opção de resposta para a pergunta 13.

14 - Você consegue interpretar esses dois gráficos? O que eles estão dizendo?

R: Sim, consigo. Os dois gráficos estão expondo os mesmos dados: quantidade de pessoas de cada classe que sobreviveram ou não. A única diferença é como estão mostrando essas informações, o que é totalmente plausível, já que se trata de duas visualizações de dados diferentes.

15 - Se você fosse fazer um Pitch (apresentação de 03 a 05 minutos) com recomendações sobre o Titanic a partir dos dados, qual ideia você passaria? Quero um posicionamento!

R: Eu passaria a ideia de um filme triste, já que pela análise dos dados podemos ver que a maioria das pessoas que estavam no navio Titanic faleceram. Um filme que deixa um clima pesado, que faz você refletir, nem que seja um pouco, sobre a vida. Em instantes, você pode ir da mais pura felicidade ao mais obscuro desespero, sem que possa fazer quase nada a respeito. Os dados realmente são cruéis, principalmente se analisados pela quantidade de sobreviventes por cada classe da embarcação. Os tripulantes foram os que mais morreram nessa catástrofe, simplesmente por serem tripulantes. Já a primeira classe teve mais sobreviventes do que mortos, o que é chocante. É algo bem importante de ser analisado, já que é perceptível que o que estava valendo ali, na hora de salvar alguém, não eram vidas em si, e sim o poder, a condição, o dinheiro que aquela vida possuía. Portanto, é valioso conhecer melhor a história desse famigerado acidente, já que ele tem muito a ensinar, só que não deixa isso amostrado de forma aparente. Você precisa enxergar além do óbvio para poder desfrutar de todo o conhecimento que essa narrativa pode lhe conceber.