–> Fase 1 - Carregar a base de dados e códigos

Para começar, foi realizado o upload da base de dados e da instalação dos pacotes dplyr e flextable

library(readxl)
estresse <- read_excel("C:/Users/02aci/Desktop/estastistica/Base_de_dados-master/Questionario_Estresse.xls")
head(estresse)
## # A tibble: 6 × 10
##   Aluno Turma Mora_pais    RJ Namorado_a Trabalha Desempenho Estresse Créditos
##   <dbl> <dbl>     <dbl> <dbl>      <dbl>    <dbl>      <dbl>    <dbl>    <dbl>
## 1     1     1         2     2          2        2       8.89       23       27
## 2     2     1         1     1          2        2       8.8        24       28
## 3     3     1         2     2          2        2       8          25       25
## 4     4     1         2     2          1        1       8.8        38       21
## 5     5     1         2     2          2        1       8.9        41       18
## 6     6     1         2     2          1        1       8.1        25       29
## # … with 1 more variable: Horas_estudo <dbl>
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(flextable)

–> Fase 2 - Tranformações das variáveis

O segundo passo era transformar uma variável quantitativa em qualitativa, para se fazer o estudo e o cruzamento de forma correta

estresse$Mora_pais <- ifelse(estresse$Mora_pais==1, "Sim","Não")

–> O que será abordado?

Será feito o estudo das variáveis mora_pais e Desempenho a fim de identificar se há uma discrepância entre os alunos que moram e não moram com os pais, será utilizado tabelas de números absolutos, médias, medianas, mínimos, máximos e gráficos para se obter um resultado preciso.

–> Hipóteses

  • Alunos que moram com os pais possuem um desempenho maior!
  • A diferença entre alunos que moram com os pais e alunos que não moram são grandes!
  • O desvio padrão é alto!

–> Fase 3 - Média,Mediana e desvio padrão

Ao contrário do previsto, alunos que não moram com os pais possuem uma média maior, sendo 8,67 para NÃO e 8,49 para SIM. Esse resultado, apesar de mostrar a diferença, nos evidencia que a diferença entre ambos grupos são pequenas, com o desvio padrão próximo de 0, fica ainda mais claro que todos os dados como mínimo, máximo e mediana são homogêneos, ou seja, possuem pouca diferença.

estresse %>% select(Desempenho,Mora_pais) %>% group_by(Mora_pais) %>%  summarise(Mediana=median(Desempenho), Minimo=min(Desempenho), Maximo=max(Desempenho), Média=mean(Desempenho),  desvio_padrao=round(sd(Desempenho),2))%>% flextable() %>% theme_zebra()

–> Fase 4 - Boxplot

  • há outliers
  • Não há disperção de dados
  • Ambos são assimétricos
boxplot(estresse$Desempenho ~ estresse$Mora_pais, data=estresse, col=c ("darkblue","royalblue"), main = "gráfico 1 - boxplot", "xlab = Mora_pais","ylab = Desempenho")

–> Conclusões

  • o R é demais!!
  • o Desempenho dos alunos que não moram com os pais é melhor
  • a diferença entre os números são pequenas
  • o desvio padrão é baixo