Introdução

A primeira coisa a ser feita foi a transformação das variaveis quantitativas em qualitativas, então para as colunas Desempenho, Estresse, Créditos e Horas_estudo foi classificado utilizando seu summario, assim o 1º quartil foi chamado de “Baixo”, o 2º de “Médio”, o 3º de “Alto” e o 4º de “Muito Alto”.

library(readxl)
Dados <- read_excel("C:/Users/Laryssa/Desktop/Mestrado_UFF/Estatistica/Base_de_dados-master/Questionario_Estresse.xls", 
                    sheet = "Dados")

library(dplyr)
library(flextable)

Dados$Turma <- ifelse(Dados$Turma == 1, "2007.2", ifelse(Dados$Turma == 2, "2008.1", "2008.2"))
Dados$Mora_pais <- ifelse(Dados$Mora_pais == 1, "Sim", "Não")
Dados$RJ <- ifelse(Dados$RJ == 1, "Natural do RJ", "Natural de outras cidades")
Dados$Namorado_a <- ifelse(Dados$Namorado_a == 1, "Sim", "Não")
Dados$Trabalha <- ifelse(Dados$Trabalha == 1, "Sim", "Não")

summary(Dados)
##      Aluno         Turma            Mora_pais              RJ           
##  Min.   : 1.0   Length:95          Length:95          Length:95         
##  1st Qu.:24.5   Class :character   Class :character   Class :character  
##  Median :48.0   Mode  :character   Mode  :character   Mode  :character  
##  Mean   :48.0                                                           
##  3rd Qu.:71.5                                                           
##  Max.   :95.0                                                           
##                                                                         
##   Namorado_a          Trabalha           Desempenho       Estresse    
##  Length:95          Length:95          Min.   :5.820   Min.   :12.00  
##  Class :character   Class :character   1st Qu.:8.500   1st Qu.:22.50  
##  Mode  :character   Mode  :character   Median :8.700   Median :27.00  
##                                        Mean   :8.594   Mean   :27.82  
##                                        3rd Qu.:9.050   3rd Qu.:33.00  
##                                        Max.   :9.700   Max.   :44.00  
##                                                                       
##     Créditos      Horas_estudo  
##  Min.   :15.00   Min.   :19.00  
##  1st Qu.:23.00   1st Qu.:25.00  
##  Median :24.00   Median :30.00  
##  Mean   :24.95   Mean   :30.73  
##  3rd Qu.:27.00   3rd Qu.:35.00  
##  Max.   :49.00   Max.   :60.00  
##  NA's   :1
Dados$Desempenho <- ifelse(between(Dados$Desempenho,5.50,8.5),"Baixo", 
                           ifelse(between(Dados$Desempenho,8.51,8.7),"Médio",
                                  ifelse(between(Dados$Desempenho,8.71,9.05),"Alto", "Muito Alto")))
                                         
                                         
                                         
Dados$Estresse <- ifelse(between(Dados$Estresse,11,22),"Baixo", 
                           ifelse(between(Dados$Estresse,22.1,27),"Médio",
                                  ifelse(between(Dados$Estresse,27.1,33),"Alto", "Muito Alto")))                                       
                                         
                                         
Dados$Créditos <- ifelse(between(Dados$Créditos,14,23),"Baixo", 
                         ifelse(between(Dados$Créditos,23.1,24),"Médio",
                                ifelse(between(Dados$Créditos,24.1,27),"Alto", "Muito Alto")))

Dados$Horas_estudo <- ifelse(between(Dados$Horas_estudo,18,25),"Baixo", 
                         ifelse(between(Dados$Horas_estudo,25.1,30),"Médio",
                                ifelse(between(Dados$Horas_estudo,30.1,35),"Alto", "Muito Alto")))

Gráfico de barras por grupo

tab1 <- table(Dados$Desempenho,Dados$Estresse)

barplot(tab1,beside=T,col=c("Orange","cyan","hotpink","green"),
       ylim =c(0,15), legend.text = rownames(tab1), 
       main = "Gráfico 1 - Desempenho x Estresse",xlab = "Estresse", ylab = "Frequencia", args.legend=list(title="Desempenho",x="top", horiz =T, cex = .85))

Nessa análise existia a suposição que pessoa com estresse muito alto teriam um desempenho baixo, assim como pessoas com estresse baixo teriam um desempenho alto.

Mas como pode-se ver pelo gráfico apenas a primeira hipótese mostrou-se verdadeira. Pessoas com estresse muito alto são as com mais alunos mostrando desempenho baixo, mas também vemos que pessoas com estresse baixo também apresentaram um desempenho baixo. Os melhores desempenhos foram obtidos pelos alunos de estresse alto.

Tabela

tab3 <- table(Dados$Trabalha,Dados$Horas_estudo)

tab3 %>% 
  data.frame() %>%
  flextable() %>%
  theme_zebra() %>%
  set_header_labels(Var1 = "Trabalha", Var2 = "Horas de Estudo", Freq = "Frequencia") %>%
  add_header_lines("Tabela 2 - Estatisticas de Trabalho por Horas de Estudo")

Para essa análise a hipótese formulada é que alunos que trabalham tem menos horas de estudo. Isso pode ser verificado já que alunos com horas de estudo classificadas em alta e muito alta tem maior número entre os alunos que não trabalham. Enquanto para horas de estudo baixas os alunos que trabalham tem maioria. Também pode-se ver que para os alunos que não trabalham a maioria tem horas de estudo média, enquanto para os alunos que trabalham a maioria tem horas de estudo baixas.

Tabela com proporções

tab4 <- table(Dados$Turma,Dados$RJ)

tab4 %>% 
  prop.table(1) %>% 
  round(digits = 2) %>%
  data.frame() %>%
  flextable() %>%
  theme_zebra() %>%
  set_header_labels(Var1 = "Turma", Var2 = "Natural do Rio", Freq = "Percentual") %>%
  add_header_lines("Tabela 3 - Estatisticas de Turma por Naturalidade")

Para essa tabela o objetivo foi descobrir como é a relação de alunos naturais do Rio com as turmas nesse 1 ano e meio. Podemos ver que em todos os anos alunos de fora do Rio são maioria. Para entender esse fenomeno provavelmente iriamos precisar de outros tipos de dados do que leva um aluno a mudar de cidade para seus estudos e porque alunos do Rio ou tem menor desempenho ou menor interesse para estar nesse grupo de alunos analisado. Como não conseguimos tirar muitas conclusões desse caso, foi feita outra tabela para tentar comparar os desempenhos dos alunos do Rio ou de fora.

tab5 <- table(Dados$RJ,Dados$Desempenho)

tab5 %>% 
  prop.table(1) %>% 
  round(digits = 2) %>%
  data.frame() %>%
  flextable() %>%
  theme_zebra() %>%
  set_header_labels(Var1 = "Natural do Rio", Var2 = "Desempenho", Freq = "Percentual") %>%
  add_header_lines("Tabela 3 - Estatisticas de Naturalidade por Desempenho")

Então seguindo a hipotese da tabela anterior, vemos que dentre os naturais do Rio 52% tem desempenho baixo e dos naturais de outras cidade tem maior proporção do desempenho Muito Alto. Assim, provavelmente, os alunos de outras cidades tem maior exito nas colocações para vagas ao curso.