load("~/BASE DE DADOS UNIRIO/Titanic.RData")
Trabalho sobre o Titanic
Introdução
#Passo 1: carregar a base de dados
#Passo 2: inspecionar a base de dados a fim de verificar se há erros
str(Titanic)
'data.frame': 2200 obs. of 4 variables:
$ Classe : Factor w/ 4 levels "Tripula\xe7\xe3o",..: 2 2 2 2 2 2 2 2 2 2 ...
$ Idade : Factor w/ 2 levels "criança","adulto": 2 2 2 2 2 2 2 2 2 2 ...
$ Sexo : Factor w/ 2 levels "Feminino","Masculino": 2 2 2 2 2 2 2 2 2 2 ...
$ Sobreviveu: Factor w/ 2 levels "Não sobreviveu",..: 2 2 2 2 2 2 2 2 2 2 ...
head(Titanic$Classe)
[1] Primeira Primeira Primeira Primeira Primeira Primeira
Levels: Tripula\xe7\xe3o Primeira Segunda Terceira
tail(Titanic$Classe)
[1] Tripula\xe7\xe3o Tripula\xe7\xe3o Tripula\xe7\xe3o Tripula\xe7\xe3o
[5] Tripula\xe7\xe3o Tripula\xe7\xe3o
Levels: Tripula\xe7\xe3o Primeira Segunda Terceira
Vemos que a palavra “tripulação” está escrita de forma errada.
#Passo 3: corrigir o problema
$Classe=iconv(Titanic$Classe,"latin1","UTF-8") Titanic
#Passo 4: verificar se o problema foi corrigido:
str(Titanic)
'data.frame': 2200 obs. of 4 variables:
$ Classe : chr "Primeira" "Primeira" "Primeira" "Primeira" ...
$ Idade : Factor w/ 2 levels "criança","adulto": 2 2 2 2 2 2 2 2 2 2 ...
$ Sexo : Factor w/ 2 levels "Feminino","Masculino": 2 2 2 2 2 2 2 2 2 2 ...
$ Sobreviveu: Factor w/ 2 levels "Não sobreviveu",..: 2 2 2 2 2 2 2 2 2 2 ...
tail(Titanic$Classe)
[1] "Tripulação" "Tripulação" "Tripulação" "Tripulação" "Tripulação"
[6] "Tripulação"
View(Titanic)
Agora o problema foi resolvido!
Vamos iniciar as atividades.
#Atividade 1:
Quantas pessoas tinha no Titanic?
R: Tinham 2.200 pessoas no Titanic.É possível comprovar essa informação sem a necessidade de aplicação de código, apenas com a observação da base de dados Titanic e a parte “environment” do RStudio.Isso porque, cada linha da base corresponde a uma observação (igual a uma pessoa).
Quantas informações (variáveis) existem no banco de dados?
R: Existem 4 variáveis.É possível comprovar essa informação sem a necessidade de aplicação de código, apenas com a observação da base de dados e a parte “environment” do RStudio.Isso porque,cada coluna da base de dados Titanic corresponde a uma variável.
#Atividade 2:
Quantas pessoas sobreviveram ao Titanic?
R: Para responder a esta pergunta iremos usar um código específico para saber a quantidade de pessoas que sobreviveu.Aplicando o código:
=table(Titanic$Sobreviveu)
tabela_sobrevivencia tabela_sobrevivencia
Não sobreviveu Sobreviveu
1490 710
R: Ao aplicar o código, verificamos que sobreviveram 710 pessoas.
#Atividade 3:
Qual é a proporção de pessoas que sobreviveram ao Titanic?
R: Para responder a esta pergunta iremos usar um código específico para saber a proporção de sobreviventes. Aplicando o código:
round(prop.table(tabela_sobrevivencia)*100,2)
Não sobreviveu Sobreviveu
67.73 32.27
R: Ao aplicar o cógigo, verificamos que a proporção de pessoas que sobreviveram é igual a 32,27%.
#Atividade 4:
Quantas mulheres sobreviveram?
R: Para responder a esta pergunta iremos usar um código específico que relacione a variável sexo com a variável sobreviveu. Dessa forma, ao aplicar o código teremos os números exatos de pessoas do sexo feminino que sobreviveu ou não, assim como teremos os números exatos de pessoas do sexo masculino que sobreviveu ou não.Aplicando o código:
<- table(Titanic$Sexo,Titanic$Sobreviveu)
tabela_contingencia tabela_contingencia
Não sobreviveu Sobreviveu
Feminino 126 344
Masculino 1364 366
R: Ao aplicar o código, verificamos que sobreviveram 344 mulheres.
#Atividade 5:
Quantas crianças sobreviveram?
R: Para responder a esta pergunta iremos usar um código específico que relacione a variável idade com a variável sobreviveu. Dessa forma, ao aplicar o código teremos os números exatos de pessoas com idade “adulto” ou “criança” que sobreviveram ou não. Aplicando o código:
<- table(Titanic$Idade,Titanic$Sobreviveu)
tabela_contingencia tabela_contingencia
Não sobreviveu Sobreviveu
criança 52 57
adulto 1438 653
R: Ao aplicar o código, verificamos que sobreviveram 57 crianças.
#Atividade 6:
Quantas pessoas da terceira classe sobreviveram?
R: Para responder a esta pergunta iremos usar um código específico que relacione a variável classe com a variável sobreviveu. Dessa forma, ao aplicar o código teremos os números exatos de pessoas que estavam na terceira classe que sobreviveram ou não. Aplicando o código:
<- table(Titanic$Classe,Titanic$Sobreviveu)
tabela_contingencia tabela_contingencia
Não sobreviveu Sobreviveu
Primeira 122 202
Segunda 167 118
Terceira 528 178
Tripulação 673 212
R: Ao aplicar o código, verificamos que sobreviveram 178 pessoas da terceira classe.
#Atividade 7:
Qual o percentual de mulheres que sobreviveu?
R: Para responder a esta pergunta iremos usar um código específico que relacione a variável sexo com a variável sobreviveu. Vale lembrar que já fizemos esse código anteriomente,então basta puxá-lo e executá-lo novamente. Em sequência, adicionamos um novo código, o qual pedimos que nos dê a informação anterior em proporção, ou melhor dizendo, em porcentagem. Dessa forma, ao aplicar o código, teremos a porcentagem exata de mulheres que sobreviveram ou não ao Titanic.Aplicando o código:
<- table(Titanic$Sexo,Titanic$Sobreviveu)
tabela_contingencia tabela_contingencia
Não sobreviveu Sobreviveu
Feminino 126 344
Masculino 1364 366
round(prop.table(tabela_contingencia)*100,2)
Não sobreviveu Sobreviveu
Feminino 5.73 15.64
Masculino 62.00 16.64
R: Ao aplicar o código, verificamos que entre homens e mulheres que sobreviveram, 15,64% eram mulheres.
#Atividade 8:
Qual o percentual de crianças que sobreviveu?
R: Para responder a esta pergunta iremos usar um código específico que relacione a variável idade com a variável sobreviveu. Vale lembrar que já fizemos esse código anteriomente,então basta puxá-lo e executá-lo novamente. Em sequência, adicionamos um novo código, o qual pedimos que nos dê a informação anterior em proporção, ou melhor dizendo, em porcentagem. Dessa forma, ao aplicar o código, teremos a porcentagem exata de crianças que sobreviveram ou não ao Titanic.Aplicando o código:
<- table(Titanic$Idade,Titanic$Sobreviveu)
tabela_contingencia tabela_contingencia
Não sobreviveu Sobreviveu
criança 52 57
adulto 1438 653
round(prop.table(tabela_contingencia)*100,2)
Não sobreviveu Sobreviveu
criança 2.36 2.59
adulto 65.36 29.68
R: Ao aplicar o código, verificamos que entre a idade “criança/adulto”, sobreviveram apenas 2,59% crianças.
#Atividade 9:
Qual o percentual da terceira classe que sobreviveu?
R: Para responder a esta pergunta iremos usar um código específico que relacione a variável classe com a variável sobreviveu. Vale lembrar que já fizemos esse código anteriomente,então basta puxá-lo e executá-lo novamente. Em sequência, adicionamos um novo código, o qual pedimos que nos dê a informação anterior em proporção, ou melhor dizendo, em porcentagem. Dessa forma, ao aplicar o código, teremos a porcentagem exata da terceira classe que sobreviveu ou não ao Titanic. Aplicando o código:
<- table(Titanic$Classe,Titanic$Sobreviveu)
tabela_contingencia tabela_contingencia
Não sobreviveu Sobreviveu
Primeira 122 202
Segunda 167 118
Terceira 528 178
Tripulação 673 212
round(prop.table(tabela_contingencia)*100,2)
Não sobreviveu Sobreviveu
Primeira 5.55 9.18
Segunda 7.59 5.36
Terceira 24.00 8.09
Tripulação 30.59 9.64
R: Ao aplicar o código, verificamos que das pessoas que estavam na terceira classe, apenas 8,09% sobreviveram. eram crianças.
#Atividade 10
Que tipo de gráfico você pode utilizar nesse tipo de dado? Por quê?
R: A variável classe se trata de uma variável qualitativa ordinal, portanto, o tipo de gráfico a ser utilizado é o de barras.
#Atividade 11
Você poderia construir um gráfico para a variável “sobreviveu”?
R: Sim, é possível criar um gráfico para essa variável. Segue:
pie(tabela_sobrevivencia,col=c("#FF69B4","#FFF0F5"),
main="Gráfico 1 - Sobrevivência no Titanic")
#Atividade 12
Você poderia construir um gráfico da variável “sobreviveu” por “sexo”?
R: Sim, é possível criar um gráfico para essa variável. Segue:
=table(Titanic$Sexo)
tabela_sobreviveupie(tabela_sobreviveu,col=c("#E6E6FA","violet"),
main="Gráfico 2 - Sobrevivência no Titanic por Sexo")
#Nova visualização de dados:
R: Professor, não consegui fazer o gráfico “balloonplot”, dava erro, falando que não foi possível encontrar a função “ggballoonplot”.
#Nova visualização: gráfico “mosaicplot”
mosaicplot(table(Titanic$Classe,Titanic$Sobreviveu),
main = "Gráfico 3 - Sobreviventes do Titanic", color = c("#FDF5E6","#FFB6C1"))
#Atividade 13
Você poderia construir uma outra visualização de dados (além dessas duas)? Qual gráfico você sugere?
R: Sim. Sugiro o gráfico waffle.
#Atividade 14
Você consegue interpretar esses dois gráficos? O que eles estão dizendo?
R: Sim. Os gráficos estão mostrando a quantidade de pessoas que sobreviveram e as que não sobreviveram nas classes do navio, permitindo fazer uma comparação entre a quantidade de pessoas vivas e mortas entre as classes, mas com visualizações diferentes.
#Atividade 15
Se você fosse fazer um Pitch (apresentação de 03 a 05 minutos) com recomendações sobre o Titanic a partir dos dados. Qual ideia você passaria? Quero um posicionamento!
R: Tendo em vista os dados analisados, pode-se concluir que a tripulação do navio foi a que teve mais óbitos, em seguida temos a terceira classe, se comparado com as demais classes do Titanic. Na minha opinião, esse resultado é consequência da posição em que essas classes foram acomodadas no navio, ou seja, nas regiões inferiores e porões, regiões as quais sofreram mais com a inundação da água, corroborando, mais tarde, com o afundamento do navio.
Além disso, também é importante pontuar o fato de ter havido mais homens do que mulheres no Titanic. Isso pode ser explicado pelas questões sociais e econômicas da época.