Introdução

Primeiro fez se a importação da base de dados e adequação dos dados para as respostas com a legenda da pesquisa

library(readxl)
Dados <- read_excel("C:/Users/Laryssa/Desktop/Mestrado_UFF/Estatistica/Base_de_dados-master/Questionario_Estresse.xls", 
                    sheet = "Dados")

Dados$Turma <- ifelse(Dados$Turma == 1, "2007.2", ifelse(Dados$Turma == 2, "2008.1", "2008.2"))
Dados$Mora_pais <- ifelse(Dados$Mora_pais == 1, "Sim", "Não")
Dados$RJ <- ifelse(Dados$RJ == 1, "Natural do RJ", "Natural de outras cidades")
Dados$Namorado_a <- ifelse(Dados$Namorado_a == 1, "Sim", "Não")
Dados$Trabalha <- ifelse(Dados$Trabalha == 1, "Sim", "Não")

library(dplyr)
library(flextable)

Tabela com médias e desvios padrão

Dados %>% select(Trabalha,Desempenho,Estresse) %>%
  group_by(Trabalha) %>%
  summarise(Media_Desempenho = round(mean(Desempenho),2), 
            DP_Desempenho = round(sd(Desempenho),2),
            Media_Estresse = round(mean(Estresse),2), 
            Mediana_Estresse = round(median(Estresse),2),
            DP_Estresse = round(sd(Estresse),2),
            Tamanho=n()) %>%
  flextable() %>% bg(j = "Trabalha", bg = "#056360", part = "body") %>%
  bg(j = "Media_Desempenho", bg = "#088E8B", part = "body") %>%
  bg(j = "DP_Desempenho", bg = "#088E8B", part = "body") %>%
  bg(j = "Media_Estresse", bg = "#0ABAB5", part = "body") %>%
  bg(j = "Mediana_Estresse", bg = "#0ABAB5", part = "body") %>%
  bg(j = "DP_Estresse", bg = "#0ABAB5", part = "body") %>%
   bg(j = "Tamanho", bg = "#0CE6DF", part = "body") %>%
  add_header_lines("Tabela 1 - Estatisticas de alunos que trabalham - parte 1")
Dados %>% select(Trabalha,Créditos,Horas_estudo) %>%
  group_by(Trabalha) %>%
  summarise(Media_Creditos = round(mean(Créditos, na.rm=T),2), 
            DP_Creditos = round(sd(Créditos, na.rm=T),2),
            Media_Horas_estudo = round(mean(Horas_estudo),2), 
            Mediana_Horas_estudo = round(median(Horas_estudo),2),
            DP_Horas_estudo = round(sd(Horas_estudo),2),
            Tamanho=n()) %>%
  flextable() %>% bg(j = "Trabalha", bg = "#0ABAB5", part = "body") %>%
  bg(j = "Media_Creditos", bg = "#0CE6DF", part = "body") %>%
  bg(j = "DP_Creditos", bg = "#0CE6DF", part = "body") %>%
  bg(j = "Media_Horas_estudo", bg = "#2CF4EE", part = "body") %>%
  bg(j = "Mediana_Horas_estudo", bg = "#2CF4EE", part = "body") %>%
  bg(j = "DP_Horas_estudo", bg = "#2CF4EE", part = "body") %>%
  bg(j = "Tamanho", bg = "#58F6F2", part = "body") %>%
  add_header_lines("Tabela 1 - Estatisticas de alunos que trabalham - parte 2")

Nessa análise vemos alunos que trabalham ou não e comparamos as médias dos dois grupos e a homogeneidade dos dados. A primeira comparação que vemos é que temos um desempenho superior de alunos que não trabalham e os dados de ambos podem ser considerados bem uniformes ao redor da média. Já para o estresse como o desvio padrão mostra que os dados são mais espalhados, também utilizou a mediana dos dados, tendo a analise de que alunos que não trabalham tem níveis de estresse superior aos que trabalham, dado que vai contra o pensamento comum de que trabalhar e estudar aumenta os niveis de estresse. Já os créditos de aulas são superiores dos alunos que não trabalham, podendo fazer mais matérias e também variando menos ao redor da média do que os alunos que trabalham, que podemos ver que alguns puxem bem menos ou bem mais créditos que a média. Por fim para as horas de estudo também precisamos da análise com a mediana, pois os dados são pouco uniformes e assim vemos que na realidade as horas de estudo dos alunos que trabalham ou não são muito similares e ambas apresentam grande variação.

Boxplot

boxplot(Dados$Estresse ~ Dados$Trabalha,
        main = "Grafico 1 - boxplot de estresse por trabalho",
        col = c("#B4F8C8","#DF4C8A"),
        ylab = "Estresse",
        xlab = "Trabalha")

boxplot(Dados$Horas_estudo ~ Dados$Trabalha,
        main = "Grafico 2 - boxplot de Horas de estudo por trabalho",
        col = c("#B4F8C8","#DF4C8A"),
        ylab = "Horas de estudo",
        xlab = "Trabalha")

Para as duas variaveis que a analise por tabela não é suficiente, foram feitos boxplot para vermos de forma visual. No gráfico 1 temos o estresse, vendo a grande variação de ambos os dados e que eles tem valores máximos e minimos muito parecidos nos dois casos, mas a “caixa” dos alunos que trabalham é maior do que a dos que não trabalham. Já para horas de estudo vemos que apesar da mesma mediana, os valores de alunos que trabalham são mais espaçados do que os que não trabalham, com maior quantidade com menos horas de estudo e em ambos os casos temos um outlier, que modifica a média.

Conclusão

Para valores com pouca homogeneidade, isto é, desvio padrão longe de zero, fazer só a analise por média não é sufuciente, sendo necessário ver a madiana e preferencialmente fazer o box plot, para ter uma interpretação gráfica e até utilizar estatistica exploratória de dados, EDA.