Foi importada a base de dados “Questionario_Estresse.xls”. Diante dessa importação, foi apresentada algumas variáveis, onde foram escolhidas a variável qualitativa mora_pais e a variável quantitativa desempenho.
library(readxl)
Questionario_Estresse <- read_excel("C:/Users/rober/Desktop/Base_de_dados-master/Questionario_Estresse.xls")
head(Questionario_Estresse)
## # A tibble: 6 × 10
## Aluno Turma Mora_pais RJ Namorado_a Trabalha Desempenho Estresse Créditos
## <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 1 1 2 2 2 2 8.89 23 27
## 2 2 1 1 1 2 2 8.8 24 28
## 3 3 1 2 2 2 2 8 25 25
## 4 4 1 2 2 1 1 8.8 38 21
## 5 5 1 2 2 2 1 8.9 41 18
## 6 6 1 2 2 1 1 8.1 25 29
## # … with 1 more variable: Horas_estudo <dbl>
Em seguida, realizamos a “limpeza” da base de dados, onde a variável qualitativa mora_pais foi alterada. Dessa maneira, mora com os pais (SIM = 1) e não mora com os pais (NÃO = 2).
Questionario_Estresse$Mora_pais <- ifelse(Questionario_Estresse$Mora_pais==1, "Sim", "Não")
Desse modo, seguindo as informações apresentadas, queremos descobrir, através do cruzamento das variáveis mora_pais e desempenho, as seguintes hipóteses:
Diante das hipóteses levantadas, foi desenvolvido um sumário com as informações das variáveis, onde é observada a mediana, média, mínimo, máximo e desvio padrão.
library(dplyr)
library(flextable)
Questionario_Estresse %>% select(Desempenho,Mora_pais) %>% group_by(Mora_pais) %>%
summarise(Mediana=median(Desempenho),
Mínimo=min(Desempenho),
Máximo=max(Desempenho),
Média=mean(Desempenho),
Desvio_padrão=round(sd(Desempenho),2)) %>% flextable() %>% theme_zebra()
Mora_pais | Mediana | Mínimo | Máximo | Média | Desvio_padrão |
Não | 8.80 | 5.90 | 9.5 | 8.674902 | 0.61 |
Sim | 8.65 | 5.82 | 9.7 | 8.499773 | 0.93 |
boxplot(Questionario_Estresse$Desempenho ~ Questionario_Estresse$Mora_pais,
data=Questionario_Estresse, col=c("pink","blue"),
main="Gráfico - Boxplot",
xlab="Mora Com os Pais",
ylab="Desempenho")
A partir do desenvolvimento do gráfico boxplot, percebe-se que ambos são assimétricos e que cada um possui outlier. Além disso, não há dispersão dos dados, uma vez que, a diferença entre os grupos que moram e não moram com os pais são pequenas, sendo esses dados homogêneos.
Por fim, pode-se afirmar que, depois de analisar todas as informações apresentadas, os alunos que não moram com os pais possuem um desempenho maior, invalidando a primeira hipótese pensada.
Em seguida, podemos afirmar também que, a segunda hipótese está inválida, uma vez que, o desvio padrão de ambos, possuem pouca diferença.