Para começar, foi realizado o upload da base de dados e da instalação dos pacotes dplyr e flextable
library(readxl)
estresse <- read_excel("C:/Users/02aci/Desktop/estastistica/Base_de_dados-master/Questionario_Estresse.xls")
head(estresse)
## # A tibble: 6 × 10
## Aluno Turma Mora_pais RJ Namorado_a Trabalha Desempenho Estresse Créditos
## <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 1 1 2 2 2 2 8.89 23 27
## 2 2 1 1 1 2 2 8.8 24 28
## 3 3 1 2 2 2 2 8 25 25
## 4 4 1 2 2 1 1 8.8 38 21
## 5 5 1 2 2 2 1 8.9 41 18
## 6 6 1 2 2 1 1 8.1 25 29
## # … with 1 more variable: Horas_estudo <dbl>
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(flextable)
O segundo passo era transformar uma variável quantitativa em qualitativa, para se fazer o estudo e o cruzamento de forma correta
estresse$Mora_pais <- ifelse(estresse$Mora_pais==1, "Sim","Não")
Será feito o estudo das variáveis mora_pais e Desempenho a fim de identificar se há uma discrepância entre os alunos que moram e não moram com os pais, será utilizado tabelas de números absolutos, médias, medianas, mínimos, máximos e gráficos para se obter um resultado preciso.
- Alunos que moram com os pais possuem um desempenho maior!
- A diferença entre alunos que moram com os pais e alunos que não moram são grandes!
- O desvio padrão é alto!
Ao contrário do previsto, alunos que não moram com os pais possuem uma média maior, sendo 8,67 para NÃO e 8,49 para SIM. Esse resultado, apesar de mostrar a diferença, nos evidencia que a diferença entre ambos grupos são pequenas, com o desvio padrão próximo de 0, fica ainda mais claro que todos os dados como mínimo, máximo e mediana são homogêneos, ou seja, possuem pouca diferença.
estresse %>% select(Desempenho,Mora_pais) %>% group_by(Mora_pais) %>% summarise(Mediana=median(Desempenho), Minimo=min(Desempenho), Maximo=max(Desempenho), Média=mean(Desempenho), desvio_padrao=round(sd(Desempenho),2))%>% flextable() %>% theme_zebra()
Mora_pais | Mediana | Minimo | Maximo | Média | desvio_padrao |
Não | 8.80 | 5.90 | 9.5 | 8.674902 | 0.61 |
Sim | 8.65 | 5.82 | 9.7 | 8.499773 | 0.93 |
- há outliers
- Não há disperção de dados
- Ambos são assimétricos
boxplot(estresse$Desempenho ~ estresse$Mora_pais, data=estresse, col=c ("darkblue","royalblue"), main = "gráfico 1 - boxplot", "xlab = Mora_pais","ylab = Desempenho")
- o R é demais!!
- o Desempenho dos alunos que não moram com os pais é melhor
- a diferença entre os números são pequenas
- o desvio padrão é baixo