Atividade 5
………………………………..
Cruzamento de variável qualitativa e variável quantitativa
………………………………..
library(readxl)
library(dplyr)##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(reactable)
library(ggplot2)
library(ggthemes)
library(grid)
library(kableExtra)##
## Attaching package: 'kableExtra'
## The following object is masked from 'package:dplyr':
##
## group_rows
1. Carregar base de dados
Quest_Estresse <- read_excel("C:/Users/Kelly Grigorio/Desktop/Base_de_dados-master/Questionario_Estresse.xls")2. Correção de dados
Quest_Estresse$Turma <- ifelse(Quest_Estresse$Turma==1,"2007_2",
ifelse(Quest_Estresse$Turma==2,"2008_1","2008_2"))
Quest_Estresse$RJ <- ifelse(Quest_Estresse$RJ==1,"Nat RJ","Outra cidade")
Quest_Estresse$Namorado_a <- ifelse(Quest_Estresse$Namorado_a==1,"sim","não")
Quest_Estresse$Mora_pais <- ifelse(Quest_Estresse$Mora_pais==1,"sim","não")
Quest_Estresse$Trabalha <- ifelse(Quest_Estresse$Trabalha==1,"sim","não")3. Minímo, Média, Mediana, Desvio-Padrão e Máximo
Quest_Estresse %>% select(Horas_estudo,Turma) %>%
group_by(Turma) %>%
summarise(
Minimo=min(Horas_estudo),
Mediana=median(Horas_estudo),
Media=round(mean(Horas_estudo),1),
Desvio_Padrao=round(sd(Horas_estudo),1),
Maximo=max(Horas_estudo)) %>%
kable(booktabs = TRUE) %>%
kable_styling(font_size = 15)| Turma | Minimo | Mediana | Media | Desvio_Padrao | Maximo |
|---|---|---|---|---|---|
| 2007_2 | 20 | 30 | 31.8 | 9.7 | 60 |
| 2008_1 | 26 | 33 | 33.8 | 4.8 | 44 |
| 2008_2 | 19 | 26 | 27.0 | 5.2 | 36 |
4. Boxplot
teste = ggplot(data = Quest_Estresse, aes(y = Horas_estudo, x = Turma, colors = Turma))+ geom_boxplot()
teste1 = ggplot(Quest_Estresse, aes(y = Horas_estudo, x = Turma))+ geom_boxplot(aes(fill=Turma))
ggplot(data = Quest_Estresse, aes(y = Horas_estudo, x = Turma))+
geom_boxplot(aes(fill = Turma))+
theme_stata()+
scale_colour_stata()5. Relatório
O intuito do presente trabalho é avaliar as horas de estudo dedicadas de 3 turmas, sendo elas, 2007_2, 2008_1 e 2008_2. Pelo boxplot, conseguimos perceber que cada uma das três turmas tem um comportamento distinto.
O boxplot da turma 2007_2 mostra dois outliers indicando que dois alunos estão bem distante do padrão da turma e gerando um desvio padrão alto, mesmo com a média e a mediana sendo próxima das outras turmas.
O boxplot da turma 2008_1 está um pouco mais alto que os outros, se eliminarmos os outliers é possível afirmar que esta turma tem maior mínimo, mediana, média e máximo de horas estudadas, com um desvio padrão baixo.
O boxplot da turma 2008_2 é mais achatado, indicando uma baixa variabilidade. Ele está posicionado na parte inferior do gráfico, ou seja, possui valores baixos.
Sendo assim, a turma 2008_1 é a que possui maior média de horas de estudos.