Carregar base de dados

O presente relatório visa analisar dois tipos de variáveis presentes na base de dados “Questionario_Estresse”. A primeira análise será realizada com duas variáveis qualitativa (Mora com os Pais e Natural do Rio de Janeiro). Será avaliada a relação do aluno morar com os pais e ser natural do Rio de Janeiro. A segunda análise será realizada com três variáveis quantitativas (Desempenho, Horas de estudo e Estresse). Será avaliada a relação do desempenho do aluno com as horas de estudo empregadas em seu dia a dia e o estresse gerado.

library(readxl)
Questionario_Estresse <- read_excel("Questionario_Estresse.xls",
                                    sheet = "Dados") 

Gráfico para uma variável qualitativa: waffle

library(waffle)
partes = c("não mora com os pais"=54,"mora com os pais"=46)
waffle(partes)

Sendo possível observar que a maioria dos alunos não mora com os pais (54%).

Gráfico para duas variáveis categóricas: mosaico

Foram analisadas duas variáveis qualitativas Mora com os pais natural do Rio de Janeiro. Ao elaborar o gráfico, foi possível observar que a cor cinza compoem a parcela dos alunos que mora com os pais e a cor rosa compoem a parcela de alunos que não moram com os pais.

Questionario_Estresse$Mora_pais = ifelse(Questionario_Estresse$Mora_pais=="1",
                                         "Sim","Não")

Questionario_Estresse$RJ = ifelse(Questionario_Estresse$RJ=="1",
                                  "Natural do RJ","Natural de outras cidades")

tabela1=table(Questionario_Estresse$RJ , Questionario_Estresse$Mora_pais)
mosaicplot(~ RJ+Mora_pais, data = Questionario_Estresse, color=c("gray","pink"),main="Mora com os pais por Natural do RJ")

Gráfico para duas variáveis categóricas: barras

## barplot
tabela <- table(Questionario_Estresse$Mora_pais, Questionario_Estresse$RJ)  ## get the cross tab
barplot(tabela, beside = TRUE, legend = levels(unique(Questionario_Estresse$RJ)),main="Mora com os pais por Natural do RJ",col=c("gray","pink")) ##plot

Através dos referidos gráficos é possível observar que a maioria dos alunos, naturais do RJ, moram com os pais e a maioria dos alunos que são de outros estados não moram com os pais.

Tabelas com duas variáveis categóricas

Foram elaboradas 3 tabelas com as duas variáveis qualitativas Mora com os pais e Natural do Rio de Janeiro.

Tabela 1

tabela1=table(Questionario_Estresse$Mora_pais , Questionario_Estresse$RJ)

prop.table(tabela1)*100
     
      Natural de outras cidades Natural do RJ
  Não                      50.5           3.2
  Sim                      14.7          31.6

A tabela 1 relaciona a porcentagem entre as duas variáveis (Mora com os pais e Natural do Rio)

  • 31,6% do total de 95 alunos que moram com os pais são naturais do RJ;
  • 14,7% do total de 95 alunos que moram com os pais não são naturais do RJ;
  • 3,2% do total de 95 alunos que não moram com os pais são naturais do RJ; e
  • 50,5% do total de 95 alunos que não moram com os pais não são naturais do RJ.

Tabela 2

# percentual da linha
prop.table(tabela1,1)
     
      Natural de outras cidades Natural do RJ
  Não                     0.941         0.059
  Sim                     0.318         0.682

A tabela 2 faz uma relação entre as porcentagens das duas variáveis por linha.

  • 68,2% dos alunos que moram com os pais são naturais do RJ;
  • 31,8% dos alunos que moram com os pais não são naturais do RJ; e
  • 5,9% dos alunos que não moram com os pais são naturais do RJ;
  • 94,1% dos alunos que não moram com os pais não são naturais do RJ.

Tabela 3

# percentual da coluna
prop.table(tabela1,2)
     
      Natural de outras cidades Natural do RJ
  Não                     0.774         0.091
  Sim                     0.226         0.909

A tabela 3 faz uma relação entre as porcentagens das duas variáveis por coluna.

  • 90,9% dos alunos que são naturais do RJ não moram com os pais;
  • 0,91% dos alunos que são naturais do RJ moram com os pais; e
  • 22,6% dos alunos que não são naturais do RJ moram com os pais;
  • 77,4% dos alunos que não são naturais do RJ não moram com os pais

Conclusão

  • A maior parte dos alunos que moram com os pais são naturais do RJ;
  • A maior parte dos alunos que não moram com os pais não são naturais do RJ;
  • A maior parte dos alunos que são naturais do RJ moram com os pais; e
  • A maior parte dos alunos que não são naturais do RJ não moram com os pais.

Pôde-se concluir que a maioria dos alunos não moram com os pais e não são naturais do RJ.

#--------------------------------------------------------------------------------------------------------------------
# Duas variáveis quantitativas
#--------------------------------------------------------------------------------------------------------------------

plot(Questionario_Estresse$Desempenho,Questionario_Estresse$Horas_estudo, pch=20, col = "pink", main = "Diagrama de dispersão entre Desempenho e Horas de estudo")
abline(lm(Horas_estudo~Desempenho,data=Questionario_Estresse), col = "black", lty=4)

plot(Questionario_Estresse$Desempenho,Questionario_Estresse$Estresse, pch=20, col = "purple", main = "Diagrama de dispersão entre Desempenho e Estresse")
abline(lm(Estresse~Desempenho,data=Questionario_Estresse), col = "black", lty=4)

plot(Questionario_Estresse$Horas_estudo,Questionario_Estresse$Estresse, pch=20, col = "orange", main = "Diagrama de Horas de estudo e Estresse")
abline(lm(Estresse~Horas_estudo,data=Questionario_Estresse), col = "black", lty=4)

Matriz de correlação

correlacoes = cor(Questionario_Estresse[,c("Horas_estudo","Desempenho","Estresse")])

# correlacoes

library(corrplot)
corrplot(correlacoes, method="number")

corrplot.mixed(correlacoes)

corrplot(correlacoes,addCoef.col=TRUE,number.cex=0.7)

Conclusão

  • Correlação linear, fraca e positiva entre Horas de Estudo e Desempenho = 0,22;
  • Correlação linear, fraca e positiva entre Horas de estudo e Estresse, porém maior quando comparada a correlação linear entre horas de estudo e desempenho = 0,30;e
  • Correlação linear, fraca e positiva entre Desempeno e Estresse = 0,08.

Conclui-se que todas as correlações observadas são positivas, porém há pouca relação entre cada uma das variáveis.Todas as matrizes de correlações possuem outliers, evidenciando assim a baixa correlação entre elas.