A primeira coisa a ser feita foi a transformação das variaveis quantitativas em qualitativas, então para as colunas Desempenho, Estresse, Créditos e Horas_estudo foi classificado utilizando seu summario, assim o 1º quartil foi chamado de “Baixo”, o 2º de “Médio”, o 3º de “Alto” e o 4º de “Muito Alto”.
library(readxl)
Dados <- read_excel("C:/Users/Laryssa/Desktop/Mestrado_UFF/Estatistica/Base_de_dados-master/Questionario_Estresse.xls",
sheet = "Dados")
library(dplyr)
library(flextable)
Dados$Turma <- ifelse(Dados$Turma == 1, "2007.2", ifelse(Dados$Turma == 2, "2008.1", "2008.2"))
Dados$Mora_pais <- ifelse(Dados$Mora_pais == 1, "Sim", "Não")
Dados$RJ <- ifelse(Dados$RJ == 1, "Natural do RJ", "Natural de outras cidades")
Dados$Namorado_a <- ifelse(Dados$Namorado_a == 1, "Sim", "Não")
Dados$Trabalha <- ifelse(Dados$Trabalha == 1, "Sim", "Não")
summary(Dados)
## Aluno Turma Mora_pais RJ
## Min. : 1.0 Length:95 Length:95 Length:95
## 1st Qu.:24.5 Class :character Class :character Class :character
## Median :48.0 Mode :character Mode :character Mode :character
## Mean :48.0
## 3rd Qu.:71.5
## Max. :95.0
##
## Namorado_a Trabalha Desempenho Estresse
## Length:95 Length:95 Min. :5.820 Min. :12.00
## Class :character Class :character 1st Qu.:8.500 1st Qu.:22.50
## Mode :character Mode :character Median :8.700 Median :27.00
## Mean :8.594 Mean :27.82
## 3rd Qu.:9.050 3rd Qu.:33.00
## Max. :9.700 Max. :44.00
##
## Créditos Horas_estudo
## Min. :15.00 Min. :19.00
## 1st Qu.:23.00 1st Qu.:25.00
## Median :24.00 Median :30.00
## Mean :24.95 Mean :30.73
## 3rd Qu.:27.00 3rd Qu.:35.00
## Max. :49.00 Max. :60.00
## NA's :1
Dados$Desempenho <- ifelse(between(Dados$Desempenho,5.50,8.5),"Baixo",
ifelse(between(Dados$Desempenho,8.51,8.7),"Médio",
ifelse(between(Dados$Desempenho,8.71,9.05),"Alto", "Muito Alto")))
Dados$Estresse <- ifelse(between(Dados$Estresse,11,22),"Baixo",
ifelse(between(Dados$Estresse,22.1,27),"Médio",
ifelse(between(Dados$Estresse,27.1,33),"Alto", "Muito Alto")))
Dados$Créditos <- ifelse(between(Dados$Créditos,14,23),"Baixo",
ifelse(between(Dados$Créditos,23.1,24),"Médio",
ifelse(between(Dados$Créditos,24.1,27),"Alto", "Muito Alto")))
Dados$Horas_estudo <- ifelse(between(Dados$Horas_estudo,18,25),"Baixo",
ifelse(between(Dados$Horas_estudo,25.1,30),"Médio",
ifelse(between(Dados$Horas_estudo,30.1,35),"Alto", "Muito Alto")))
tab1 <- table(Dados$Desempenho,Dados$Estresse)
barplot(tab1,beside=T,col=c("Orange","cyan","hotpink","green"),
ylim =c(0,15), legend.text = rownames(tab1),
main = "Gráfico 1 - Desempenho x Estresse",xlab = "Estresse", ylab = "Frequencia", args.legend=list(title="Desempenho",x="top", horiz =T, cex = .85))
Nessa análise existia a suposição que pessoa com estresse muito alto teriam um desempenho baixo, assim como pessoas com estresse baixo teriam um desempenho alto.
Mas como pode-se ver pelo gráfico apenas a primeira hipótese mostrou-se verdadeira. Pessoas com estresse muito alto são as com mais alunos mostrando desempenho baixo, mas também vemos que pessoas com estresse baixo também apresentaram um desempenho baixo. Os melhores desempenhos foram obtidos pelos alunos de estresse alto.
tab3 <- table(Dados$Trabalha,Dados$Horas_estudo)
tab3 %>%
data.frame() %>%
flextable() %>%
theme_zebra() %>%
set_header_labels(Var1 = "Trabalha", Var2 = "Horas de Estudo", Freq = "Frequencia") %>%
add_header_lines("Tabela 2 - Estatisticas de Trabalho por Horas de Estudo")
Tabela 2 - Estatisticas de Trabalho por Horas de Estudo | ||
Trabalha | Horas de Estudo | Frequencia |
Não | Alto | 10 |
Sim | Alto | 8 |
Não | Baixo | 10 |
Sim | Baixo | 15 |
Não | Médio | 25 |
Sim | Médio | 8 |
Não | Muito Alto | 14 |
Sim | Muito Alto | 5 |
Para essa análise a hipótese formulada é que alunos que trabalham tem menos horas de estudo. Isso pode ser verificado já que alunos com horas de estudo classificadas em alta e muito alta tem maior número entre os alunos que não trabalham. Enquanto para horas de estudo baixas os alunos que trabalham tem maioria. Também pode-se ver que para os alunos que não trabalham a maioria tem horas de estudo média, enquanto para os alunos que trabalham a maioria tem horas de estudo baixas.
tab4 <- table(Dados$Turma,Dados$RJ)
tab4 %>%
prop.table(1) %>%
round(digits = 2) %>%
data.frame() %>%
flextable() %>%
theme_zebra() %>%
set_header_labels(Var1 = "Turma", Var2 = "Natural do Rio", Freq = "Percentual") %>%
add_header_lines("Tabela 3 - Estatisticas de Turma por Naturalidade")
Tabela 3 - Estatisticas de Turma por Naturalidade | ||
Turma | Natural do Rio | Percentual |
2007.2 | Natural de outras cidades | 0.61 |
2008.1 | Natural de outras cidades | 0.69 |
2008.2 | Natural de outras cidades | 0.66 |
2007.2 | Natural do RJ | 0.39 |
2008.1 | Natural do RJ | 0.31 |
2008.2 | Natural do RJ | 0.34 |
Para essa tabela o objetivo foi descobrir como é a relação de alunos naturais do Rio com as turmas nesse 1 ano e meio. Podemos ver que em todos os anos alunos de fora do Rio são maioria. Para entender esse fenomeno provavelmente iriamos precisar de outros tipos de dados do que leva um aluno a mudar de cidade para seus estudos e porque alunos do Rio ou tem menor desempenho ou menor interesse para estar nesse grupo de alunos analisado. Como não conseguimos tirar muitas conclusões desse caso, foi feita outra tabela para tentar comparar os desempenhos dos alunos do Rio ou de fora.
tab5 <- table(Dados$RJ,Dados$Desempenho)
tab5 %>%
prop.table(1) %>%
round(digits = 2) %>%
data.frame() %>%
flextable() %>%
theme_zebra() %>%
set_header_labels(Var1 = "Natural do Rio", Var2 = "Desempenho", Freq = "Percentual") %>%
add_header_lines("Tabela 3 - Estatisticas de Naturalidade por Desempenho")
Tabela 3 - Estatisticas de Naturalidade por Desempenho | ||
Natural do Rio | Desempenho | Percentual |
Natural de outras cidades | Alto | 0.24 |
Natural do RJ | Alto | 0.24 |
Natural de outras cidades | Baixo | 0.32 |
Natural do RJ | Baixo | 0.52 |
Natural de outras cidades | Médio | 0.15 |
Natural do RJ | Médio | 0.06 |
Natural de outras cidades | Muito Alto | 0.29 |
Natural do RJ | Muito Alto | 0.18 |
Então seguindo a hipotese da tabela anterior, vemos que dentre os naturais do Rio 52% tem desempenho baixo e dos naturais de outras cidade tem maior proporção do desempenho Muito Alto. Assim, provavelmente, os alunos de outras cidades tem maior exito nas colocações para vagas ao curso.