Para o EP2 usaremos como fonte de dados o dataset “sleep”disponível no pacote datasets em R.Esse dataset é resultado de um trabalho de pesquisa com pacientes que possuemdificuldades para dormir. Os pacientes foram separados em 2 grupos e cada grupo recebeu um medicamento diferente para tratar distúrbios no sono e ajudar a aumentar o tempo dormindo. O dataset possui 3 variáveis:
Como temos duas amostras (dois grupos), podemos aplicar o Teste t para responder àpergunta. Mas para aplicar o Teste t, primeiro precisamos validar suas suposições (explicadas no item anterior) e para isso precisamos do Teste de Shapiro-Wilke do
Teste F.Definimos assim as hipóteses para nosso teste:
A interpretação do resultado do Teste t ajudará a definir se devemos ou não rejeitar a H0e responder a pergunta de negócio deste estudo de caso.
Tudo será mostrado em detalhes.
Vamos responder as seguintes perguntas
Existe diferença significativas na média de sono dos 2 grupos de pacientes, ou seja, há diferenças significativas entre os dois medicamentos que ajuda, no disturbio do sono?
1- Os dados são aleatórios e representativos da população. 2- A variável dependente é contínua. 3- Ambos os grupos são independentes (ou seja, grupos exaustivos e excludentes). 4- Os resíduos do modelo são normalmente distribuídos. 5- A variância residual é homogênea (princípio da homocedasticidade).
Para o nosso exemplo neste estudo de caso, iremos considerar como verdadeiras as suposições de 1 a 3 e validaremos as suposições 4 e 5. Para a suposição 4 usaremos o Teste de Shapiro-Wilk e para a suposição 5 usaremos o Teste F.
grupo_dois <- sleep$group == 2
grupo_dois
## [1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE TRUE TRUE
## [13] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
?qqPlot
## starting httpd help server ... done
qqPlot(sleep$extra[grupo_dois])
## [1] 7 5
Os pontos estão dentro do gráfico , então é uma distribuição normal.
qqPlot(sleep$extra[! grupo_dois])
## [1] 7 6
Agora vamos pegar a negação com os dados do grupo 1. Temos que os dados estão dentro da parte sombreada do gráfico. Então temos uma distribuição normal.
?shapiro
## No documentation for 'shapiro' in specified packages and libraries:
## you could try '??shapiro'
shapiro.test(sleep$extra[grupo_dois])# valor-p = 0.3511 >0.05
##
## Shapiro-Wilk normality test
##
## data: sleep$extra[grupo_dois]
## W = 0.9193, p-value = 0.3511
shapiro.test(sleep$extra[! grupo_dois])#valor-p = 0.4079 > 0.05
##
## Shapiro-Wilk normality test
##
## data: sleep$extra[!grupo_dois]
## W = 0.92581, p-value = 0.4079
O valor-p do teste de cada grupo é maior que 0.05 e então falhamos em rejeitar a H0. Podemos assumir que os dados seguem uma distribuição normal.
Validando a Suposição 5 com Teste F.
colSums(is.na(sleep))
## extra group ID
## 0 0 0
sleep %>% group_by(group) %>%
summarise(
count = n(),
mean = mean(extra, na.rm = TRUE),
sd = sd(extra, na.rm = TRUE))
## # A tibble: 2 x 4
## group count mean sd
## <fct> <int> <dbl> <dbl>
## 1 1 10 0.75 1.79
## 2 2 10 2.33 2.00
Temos 10 registro para cada grupo 0.75 para o grupo 1 e 2.33 parao grupo 2. O desvião padrão que mostra como os dados estão dispersos da média 1.789010 para o grupo 1 e para o grupo 2 nós temos 2.002249.
?var.test
resultado_teste_f <- var.test(extra ~ group, data = sleep)
resultado_teste_f
##
## F test to compare two variances
##
## data: extra by group
## F = 0.79834, num df = 9, denom df = 9, p-value = 0.7427
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.198297 3.214123
## sample estimates:
## ratio of variances
## 0.7983426
O valor-p é de 0.7427, logo, maior que 0.05. Falhamos em rejeitar a H0. Não há diferença significativa enre as variâncias dos 2 grupos.
Suposições validadas. Agora sim podemos aplicar o Teste t.
O Teste T serve para compara a média de dois grupos.
Aplicamos o Teste t para responder a questão: H0 (Hipótese Nula) – Não há diferença significativa entre as médias dos 2 grupos
resultad_teste_t <- t.test(extra ~ group, data = sleep, var.equal = TRUE)
resultad_teste_t
##
## Two Sample t-test
##
## data: extra by group
## t = -1.8608, df = 18, p-value = 0.07919
## alternative hypothesis: true difference in means between group 1 and group 2 is not equal to 0
## 95 percent confidence interval:
## -3.363874 0.203874
## sample estimates:
## mean in group 1 mean in group 2
## 0.75 2.33
O valor-p do teste é 0.07919, logo, maior que 0.05. Falhamos em rejeitar a H0. Podemos concluir que os 2 grupos não tem diferença significativa. Não há diferença significativa entre os medicamentos aplicados para tratar distúrbios do sono.
Resumindo, como base nos estudo feito pelos teste estatísticos o remédio não é eficaz para o tratamento do distúrbio do sono. Novos teste deverão ser feito com o remédio dentro da indústria farmacêutica.