Para o EP2 usaremos como fonte de dados o dataset “sleep”disponível no pacote datasets em R.Esse dataset é resultado de um trabalho de pesquisa com pacientes que possuemdificuldades para dormir. Os pacientes foram separados em 2 grupos e cada grupo recebeu um medicamento diferente para tratar distúrbios no sono e ajudar a aumentar o tempo dormindo. O dataset possui 3 variáveis:

Como temos duas amostras (dois grupos), podemos aplicar o Teste t para responder àpergunta. Mas para aplicar o Teste t, primeiro precisamos validar suas suposições (explicadas no item anterior) e para isso precisamos do Teste de Shapiro-Wilke do

Teste F.Definimos assim as hipóteses para nosso teste:

-
Há (Hipótese Alternativa) = Há diferença significativa entre as médias dos 2 grupos.

A interpretação do resultado do Teste t ajudará a definir se devemos ou não rejeitar a H0e responder a pergunta de negócio deste estudo de caso.

Tudo será mostrado em detalhes.

Vamos responder as seguintes perguntas

Existe diferença significativas na média de sono dos 2 grupos de pacientes, ou seja, há diferenças significativas entre os dois medicamentos que ajuda, no disturbio do sono?

Para aplicar o Teste t primeiro precisamos validar as 5 suposições do Teste.

1- Os dados são aleatórios e representativos da população. 2- A variável dependente é contínua. 3- Ambos os grupos são independentes (ou seja, grupos exaustivos e excludentes). 4- Os resíduos do modelo são normalmente distribuídos. 5- A variância residual é homogênea (princípio da homocedasticidade).

Para o nosso exemplo neste estudo de caso, iremos considerar como verdadeiras as suposições de 1 a 3 e validaremos as suposições 4 e 5. Para a suposição 4 usaremos o Teste de Shapiro-Wilk e para a suposição 5 usaremos o Teste F.

Vamos extrair dados de um dos grupos.
grupo_dois <- sleep$group == 2
grupo_dois
##  [1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE  TRUE  TRUE
## [13]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE

Validando a Suposição 4 com qqPlot

?qqPlot
## starting httpd help server ... done
qqPlot(sleep$extra[grupo_dois])

## [1] 7 5

Os pontos estão dentro do gráfico , então é uma distribuição normal.

qqPlot(sleep$extra[! grupo_dois])

## [1] 7 6

Agora vamos pegar a negação com os dados do grupo 1. Temos que os dados estão dentro da parte sombreada do gráfico. Então temos uma distribuição normal.

?shapiro
## No documentation for 'shapiro' in specified packages and libraries:
## you could try '??shapiro'
shapiro.test(sleep$extra[grupo_dois])# valor-p = 0.3511 >0.05
## 
##  Shapiro-Wilk normality test
## 
## data:  sleep$extra[grupo_dois]
## W = 0.9193, p-value = 0.3511
Não a significancia estatística para rejeitar o H0, ou seja falhamos em rejeitar o H0
shapiro.test(sleep$extra[! grupo_dois])#valor-p = 0.4079 > 0.05
## 
##  Shapiro-Wilk normality test
## 
## data:  sleep$extra[!grupo_dois]
## W = 0.92581, p-value = 0.4079

O valor-p do teste de cada grupo é maior que 0.05 e então falhamos em rejeitar a H0. Podemos assumir que os dados seguem uma distribuição normal.

Validando a Suposição 5 com Teste F.

Primeiro checamos se há valores ausentes

colSums(is.na(sleep))
## extra group    ID 
##     0     0     0

Vamos ver o resumo estatítisco do dataset

sleep %>% group_by(group) %>%
  summarise(
    count = n(),
    mean = mean(extra, na.rm = TRUE),
    sd = sd(extra, na.rm = TRUE))
## # A tibble: 2 x 4
##   group count  mean    sd
##   <fct> <int> <dbl> <dbl>
## 1 1        10  0.75  1.79
## 2 2        10  2.33  2.00

Temos 10 registro para cada grupo 0.75 para o grupo 1 e 2.33 parao grupo 2. O desvião padrão que mostra como os dados estão dispersos da média 1.789010 para o grupo 1 e para o grupo 2 nós temos 2.002249.

Teste F

Para rejeitar a hipótese nula de que as médias do grupo são iguais, precisamos de um valor F alto. H0 = As médias de dados extraídos de uma população normalmente distribuída tem a mesma variância.
?var.test
resultado_teste_f <- var.test(extra ~ group, data = sleep)
resultado_teste_f 
## 
##  F test to compare two variances
## 
## data:  extra by group
## F = 0.79834, num df = 9, denom df = 9, p-value = 0.7427
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.198297 3.214123
## sample estimates:
## ratio of variances 
##          0.7983426

O valor-p é de 0.7427, logo, maior que 0.05. Falhamos em rejeitar a H0. Não há diferença significativa enre as variâncias dos 2 grupos.

Suposições validadas. Agora sim podemos aplicar o Teste t.

Teste T

O Teste T serve para compara a média de dois grupos.

Aplicamos o Teste t para responder a questão: H0 (Hipótese Nula) – Não há diferença significativa entre as médias dos 2 grupos

resultad_teste_t <- t.test(extra ~ group, data = sleep, var.equal = TRUE)
resultad_teste_t
## 
##  Two Sample t-test
## 
## data:  extra by group
## t = -1.8608, df = 18, p-value = 0.07919
## alternative hypothesis: true difference in means between group 1 and group 2 is not equal to 0
## 95 percent confidence interval:
##  -3.363874  0.203874
## sample estimates:
## mean in group 1 mean in group 2 
##            0.75            2.33

Análise Final:

O valor-p do teste é 0.07919, logo, maior que 0.05. Falhamos em rejeitar a H0. Podemos concluir que os 2 grupos não tem diferença significativa. Não há diferença significativa entre os medicamentos aplicados para tratar distúrbios do sono.

Resumindo, como base nos estudo feito pelos teste estatísticos o remédio não é eficaz para o tratamento do distúrbio do sono. Novos teste deverão ser feito com o remédio dentro da indústria farmacêutica.