Trabalho sobre o Titanic

Author

Larissa Ramos

Introdução

#Passo 1: carregar a base de dados

load("~/BASE DE DADOS UNIRIO/Titanic.RData")

#Passo 2: inspecionar a base de dados a fim de verificar se há erros

str(Titanic)
'data.frame':   2200 obs. of  4 variables:
 $ Classe    : Factor w/ 4 levels "Tripula\xe7\xe3o",..: 2 2 2 2 2 2 2 2 2 2 ...
 $ Idade     : Factor w/ 2 levels "criança","adulto": 2 2 2 2 2 2 2 2 2 2 ...
 $ Sexo      : Factor w/ 2 levels "Feminino","Masculino": 2 2 2 2 2 2 2 2 2 2 ...
 $ Sobreviveu: Factor w/ 2 levels "Não sobreviveu",..: 2 2 2 2 2 2 2 2 2 2 ...
head(Titanic$Classe)
[1] Primeira Primeira Primeira Primeira Primeira Primeira
Levels: Tripula\xe7\xe3o Primeira Segunda Terceira
tail(Titanic$Classe)
[1] Tripula\xe7\xe3o Tripula\xe7\xe3o Tripula\xe7\xe3o Tripula\xe7\xe3o
[5] Tripula\xe7\xe3o Tripula\xe7\xe3o
Levels: Tripula\xe7\xe3o Primeira Segunda Terceira

Vemos que a palavra “tripulação” está escrita de forma errada.

#Passo 3: corrigir o problema

Titanic$Classe=iconv(Titanic$Classe,"latin1","UTF-8")

#Passo 4: verificar se o problema foi corrigido:

str(Titanic)
'data.frame':   2200 obs. of  4 variables:
 $ Classe    : chr  "Primeira" "Primeira" "Primeira" "Primeira" ...
 $ Idade     : Factor w/ 2 levels "criança","adulto": 2 2 2 2 2 2 2 2 2 2 ...
 $ Sexo      : Factor w/ 2 levels "Feminino","Masculino": 2 2 2 2 2 2 2 2 2 2 ...
 $ Sobreviveu: Factor w/ 2 levels "Não sobreviveu",..: 2 2 2 2 2 2 2 2 2 2 ...
tail(Titanic$Classe)
[1] "Tripulação" "Tripulação" "Tripulação" "Tripulação" "Tripulação"
[6] "Tripulação"
View(Titanic)

Agora o problema foi resolvido!

Vamos iniciar as atividades.

#Atividade 1:

Quantas pessoas tinha no Titanic?

R: Tinham 2.200 pessoas no Titanic.É possível comprovar essa informação sem a necessidade de aplicação de código, apenas com a observação da base de dados Titanic e a parte “environment” do RStudio.Isso porque, cada linha da base corresponde a uma observação (igual a uma pessoa).

Quantas informações (variáveis) existem no banco de dados?

R: Existem 4 variáveis.É possível comprovar essa informação sem a necessidade de aplicação de código, apenas com a observação da base de dados e a parte “environment” do RStudio.Isso porque,cada coluna da base de dados Titanic corresponde a uma variável.

#Atividade 2:

Quantas pessoas sobreviveram ao Titanic?

R: Para responder a esta pergunta iremos usar um código específico para saber a quantidade de pessoas que sobreviveu.Aplicando o código:

tabela_sobrevivencia=table(Titanic$Sobreviveu)
tabela_sobrevivencia

Não sobreviveu     Sobreviveu 
          1490            710 

R: Ao aplicar o código, verificamos que sobreviveram 710 pessoas.

#Atividade 3:

Qual é a proporção de pessoas que sobreviveram ao Titanic?

R: Para responder a esta pergunta iremos usar um código específico para saber a proporção de sobreviventes. Aplicando o código:

round(prop.table(tabela_sobrevivencia)*100,2)  

Não sobreviveu     Sobreviveu 
         67.73          32.27 

R: Ao aplicar o cógigo, verificamos que a proporção de pessoas que sobreviveram é igual a 32,27%.

#Atividade 4:

Quantas mulheres sobreviveram?

R: Para responder a esta pergunta iremos usar um código específico que relacione a variável sexo com a variável sobreviveu. Dessa forma, ao aplicar o código teremos os números exatos de pessoas do sexo feminino que sobreviveu ou não, assim como teremos os números exatos de pessoas do sexo masculino que sobreviveu ou não.Aplicando o código:

tabela_contingencia <- table(Titanic$Sexo,Titanic$Sobreviveu)
tabela_contingencia
           
            Não sobreviveu Sobreviveu
  Feminino             126        344
  Masculino           1364        366

R: Ao aplicar o código, verificamos que sobreviveram 344 mulheres.

#Atividade 5:

Quantas crianças sobreviveram?

R: Para responder a esta pergunta iremos usar um código específico que relacione a variável idade com a variável sobreviveu. Dessa forma, ao aplicar o código teremos os números exatos de pessoas com idade “adulto” ou “criança” que sobreviveram ou não. Aplicando o código:

tabela_contingencia <- table(Titanic$Idade,Titanic$Sobreviveu)
tabela_contingencia
         
          Não sobreviveu Sobreviveu
  criança             52         57
  adulto            1438        653

R: Ao aplicar o código, verificamos que sobreviveram 57 crianças.

#Atividade 6:

Quantas pessoas da terceira classe sobreviveram?

R: Para responder a esta pergunta iremos usar um código específico que relacione a variável classe com a variável sobreviveu. Dessa forma, ao aplicar o código teremos os números exatos de pessoas que estavam na terceira classe que sobreviveram ou não. Aplicando o código:

tabela_contingencia <- table(Titanic$Classe,Titanic$Sobreviveu)
tabela_contingencia
            
             Não sobreviveu Sobreviveu
  Primeira              122        202
  Segunda               167        118
  Terceira              528        178
  Tripulação            673        212

R: Ao aplicar o código, verificamos que sobreviveram 178 pessoas da terceira classe.

#Atividade 7:

Qual o percentual de mulheres que sobreviveu?

R: Para responder a esta pergunta iremos usar um código específico que relacione a variável sexo com a variável sobreviveu. Vale lembrar que já fizemos esse código anteriomente,então basta puxá-lo e executá-lo novamente. Em sequência, adicionamos um novo código, o qual pedimos que nos dê a informação anterior em proporção, ou melhor dizendo, em porcentagem. Dessa forma, ao aplicar o código, teremos a porcentagem exata de mulheres que sobreviveram ou não ao Titanic.Aplicando o código:

tabela_contingencia <- table(Titanic$Sexo,Titanic$Sobreviveu)
tabela_contingencia
           
            Não sobreviveu Sobreviveu
  Feminino             126        344
  Masculino           1364        366
round(prop.table(tabela_contingencia)*100,2)
           
            Não sobreviveu Sobreviveu
  Feminino            5.73      15.64
  Masculino          62.00      16.64

R: Ao aplicar o código, verificamos que entre homens e mulheres que sobreviveram, 15,64% eram mulheres.

#Atividade 8:

Qual o percentual de crianças que sobreviveu?

R: Para responder a esta pergunta iremos usar um código específico que relacione a variável idade com a variável sobreviveu. Vale lembrar que já fizemos esse código anteriomente,então basta puxá-lo e executá-lo novamente. Em sequência, adicionamos um novo código, o qual pedimos que nos dê a informação anterior em proporção, ou melhor dizendo, em porcentagem. Dessa forma, ao aplicar o código, teremos a porcentagem exata de crianças que sobreviveram ou não ao Titanic.Aplicando o código:

tabela_contingencia <- table(Titanic$Idade,Titanic$Sobreviveu)
tabela_contingencia
         
          Não sobreviveu Sobreviveu
  criança             52         57
  adulto            1438        653
round(prop.table(tabela_contingencia)*100,2)
         
          Não sobreviveu Sobreviveu
  criança           2.36       2.59
  adulto           65.36      29.68

R: Ao aplicar o código, verificamos que entre a idade “criança/adulto”, sobreviveram apenas 2,59% crianças.

#Atividade 9:

Qual o percentual da terceira classe que sobreviveu?

R: Para responder a esta pergunta iremos usar um código específico que relacione a variável classe com a variável sobreviveu. Vale lembrar que já fizemos esse código anteriomente,então basta puxá-lo e executá-lo novamente. Em sequência, adicionamos um novo código, o qual pedimos que nos dê a informação anterior em proporção, ou melhor dizendo, em porcentagem. Dessa forma, ao aplicar o código, teremos a porcentagem exata da terceira classe que sobreviveu ou não ao Titanic. Aplicando o código:

tabela_contingencia <- table(Titanic$Classe,Titanic$Sobreviveu)
tabela_contingencia
            
             Não sobreviveu Sobreviveu
  Primeira              122        202
  Segunda               167        118
  Terceira              528        178
  Tripulação            673        212
round(prop.table(tabela_contingencia)*100,2)
            
             Não sobreviveu Sobreviveu
  Primeira             5.55       9.18
  Segunda              7.59       5.36
  Terceira            24.00       8.09
  Tripulação          30.59       9.64

R: Ao aplicar o código, verificamos que das pessoas que estavam na terceira classe, apenas 8,09% sobreviveram. eram crianças.

#Atividade 10

Que tipo de gráfico você pode utilizar nesse tipo de dado? Por quê?

R: A variável classe se trata de uma variável qualitativa ordinal, portanto, o tipo de gráfico a ser utilizado é o de barras.

#Atividade 11

Você poderia construir um gráfico para a variável “sobreviveu”?

R: Sim, é possível criar um gráfico para essa variável. Segue:

pie(tabela_sobrevivencia,col=c("#FF69B4","#FFF0F5"),
main="Gráfico 1 - Sobrevivência no Titanic")

#Atividade 12

Você poderia construir um gráfico da variável “sobreviveu” por “sexo”?

R: Sim, é possível criar um gráfico para essa variável. Segue:

tabela_sobreviveu=table(Titanic$Sexo)
pie(tabela_sobreviveu,col=c("#E6E6FA","violet"),
main="Gráfico 2 - Sobrevivência no Titanic por Sexo")

#Nova visualização de dados:

R: Professor, não consegui fazer o gráfico “balloonplot”, dava erro, falando que não foi possível encontrar a função “ggballoonplot”.

#Nova visualização: gráfico “mosaicplot”

mosaicplot(table(Titanic$Classe,Titanic$Sobreviveu),
main = "Gráfico 3 - Sobreviventes do Titanic", color = c("#FDF5E6","#FFB6C1"))

#Atividade 13

Você poderia construir uma outra visualização de dados (além dessas duas)? Qual gráfico você sugere?

R: Sim. Sugiro o gráfico waffle.

#Atividade 14

Você consegue interpretar esses dois gráficos? O que eles estão dizendo?

R: Sim. Os gráficos estão mostrando a quantidade de pessoas que sobreviveram e as que não sobreviveram nas classes do navio, permitindo fazer uma comparação entre a quantidade de pessoas vivas e mortas entre as classes, mas com visualizações diferentes.

#Atividade 15

Se você fosse fazer um Pitch (apresentação de 03 a 05 minutos) com recomendações sobre o Titanic a partir dos dados. Qual ideia você passaria? Quero um posicionamento!

R: Tendo em vista os dados analisados, pode-se concluir que a tripulação do navio foi a que teve mais óbitos, em seguida temos a terceira classe, se comparado com as demais classes do Titanic. Na minha opinião, esse resultado é consequência da posição em que essas classes foram acomodadas no navio, ou seja, nas regiões inferiores e porões, regiões as quais sofreram mais com a inundação da água, corroborando, mais tarde, com o afundamento do navio.

Além disso, também é importante pontuar o fato de ter havido mais homens do que mulheres no Titanic. Isso pode ser explicado pelas questões sociais e econômicas da época.