Introdução

Análise de duas variáveis, uma quantitavita: “Horas_estudo” por grupos de uma variável qualitativa:“Trabalha”, na base de dados “Questionario_Estresse.xls”.

Carregando a base da dados, e tratamento dos dados:

library(readxl)

QEstresse <- read_excel("C:/Users/Ronaldo/Desktop/Base_de_dados-master/Questionario_Estresse.xls")

QEstresse$Mora_pais <- ifelse(QEstresse$Mora_pais==1, "Mora com os pais","Não mora com os pais")
QEstresse$RJ <- ifelse(QEstresse$RJ==1, "É do RJ","Não é do RJ")
QEstresse$Namorado_a <- ifelse(QEstresse$Namorado_a==1, "Namora","Não_Namora")
QEstresse$Trabalha <- ifelse(QEstresse$Trabalha==1, "Trabalha","Não Trabalha")

Média, Mediana e Desvio-Padrão:

library(flextable) 
library(dplyr)
QEstresse %>% select(Horas_estudo,Trabalha) %>% 
  group_by(Trabalha) %>% 
  summarise(Média=mean(Horas_estudo),
            Mediana=median(Horas_estudo),
            Desvio_Padrão=round(sd(Horas_estudo),2)) %>%
  flextable() %>% theme_tron_legacy()

Box-plot:

boxplot(Horas_estudo ~ Trabalha, data=QEstresse,
        col=c("#c25706", "#c9c904"),
        main="Boxplot: Horas de Estudo X Trabalha",
        ylab="Horas da Estudo")

Conclusão

Observamos através da tabela que, dentro do banco de dados, quem não trabalha tem em média mais horas de estudo se comparado com quem não trabalha, porém essa diferença não é consideravel. Observamos também que nesse banco de dados, têm a mesma mediana entre os que trabalham e os que não trabalham. 

Apesar do grupo dos que trabalham ter uma menor média de horas de estudo, possui um maior desvio padrão. Isso significa que,os dados são menos concentrados em torno da média.

No gráfico box-plot observamos que a distribuição é assimétrica e ao mesmo tempo mais dispersa do grupo dos que não tarbalham. Observamos também que o grupo dos que trabalham posuem menos horas de estudo, porém não tanto menos, como se poderia supor. Vemos que a distribuição dos dois grupos possuem outliers, e distribuição dos que trabalham é mais simétrica.