O primeiro test t na literatura foi o que Student publicou em seu trabalho original “The Probable Error of a Mean” de 1908, quando desenvolveu esse teste.
Student. Probable error of a mean
Para exemplificar o uso do teste Student (na verdade William Gosset) utilizou os dados de Cushny, A.R. and Peebles, A.R. de um artigo de 1905, entitulado “The action of optical isomers: II hyoscines” publicado no “The Journal of Physiology 1905, 32, 501-510”.
Cushny & Peebles. The Action of Optical Isomers
Cushny e Peebles testaram em 1905 o efeito hipnótico das drogas L-Hyoscyamina (o isomero L da atropina) e dois isômeros da droga Hyoscina (R-Hyoscine e L-Hyoscine), conhecida usualmente como escopolamina.
Tanto a atropina quanto a escopolamina são antagonista dos receptores colinérgicos muscarínicos, ou seja, são drogas anticolinérgicas.
Cushny e Peebles relataram um estudo feito com esses medicamentos realizado no Michigam Asylum for the insane (Asilo de Michigam para doentes mentais). Esses dois autores contam que testarem em si mesmo primeiramente uma dose de 0.6mg de cada uma das drogas para avaliaram a segurança das drogas!! Depois então administraram 0.6mg dessas drogas em 10 pacientes toda noite por cerca de 7 a 9 dias, e mensuraram o tempo médio de sono obtido.
Curiosamente, Student se confundiu com as tabelas do artigo de Cushny e Peebles. Student confundiu os nomes das drogas ao invés de comparar os efeitos dos dois isomeros da Hyoscinamina (R-Hyoscyamina e L-Hyoscyamina), na verdade comparou L-Hyoscyamina com a L-hyoscina.
Student. Quadro do artigo de Student
Os dados dessa pesquisa histórica estão disponíveis em dois conjuntos de datasets do R, no dataset com o nome sleep, que é parte do R.
data(sleep) # carrega o dataset sleep que já vem incluido no R
str(sleep) # Verifica a estrutura do dataset "sleep", as variáveis e suas respectivas classes
## 'data.frame': 20 obs. of 3 variables:
## $ extra: num 0.7 -1.6 -0.2 -1.2 -0.1 3.4 3.7 0.8 0 2 ...
## $ group: Factor w/ 2 levels "1","2": 1 1 1 1 1 1 1 1 1 1 ...
## $ ID : Factor w/ 10 levels "1","2","3","4",..: 1 2 3 4 5 6 7 8 9 10 ...
Você pode visualizar o dataset clicando no respectivo nome na aba “Enviroment” no painel superior direito do RStudio.
Como podemos ver esse dataset contém 3 variáveis:
| variável | descrição | classe |
|---|---|---|
| extra | aumento no número de horas dormidas | numérica |
| group | droga usada | categórica nominal (factor) |
| ID | identificação do paciente | categórica nominal (factor) |
A questão é:
O aumento no número de horas dormidas no grupo que usou a droga 1 grupo é diferente do aumento no grupo que tomou a droga 2?
O teste adequado a se fazer para comparmos as médias de dois grupos é o teste t de Student.
O dataset sleep incluido no R está num formato conhecido como long. Para realizar esse teste no R com um dataset organizado como esse, precisamos pedir ao R para comparar as médias da variável extra de acordo com o group o que é feito através de uma fórmula com o operador ~ da seguinte forma: extra~group, que se traduz por:
R, por favor, analise os dados da variável extra separando de acordo com as categoria da variável group.
Além disso, devemos indicar ao R que o test a ser realizado deverá ser um teste t pareado, pois cada grupo contém mesmos sujeitos da pesquisa.
t.test(extra~group, sleep, paired=TRUE) # test t pareado no R
##
## Paired t-test
##
## data: extra by group
## t = -4.0621, df = 9, p-value = 0.002833
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -2.4598858 -0.7001142
## sample estimates:
## mean of the differences
## -1.58
Tarefa: Interprete o resultado acima e responda se as duas drogas tem ou não alguma diferença estatisticamente significativa no que se refere ao aumento do tempo de sono.
Os dados da pesquisa de Cushny & Peebles estão também disponíveis no pacote psych, no datset cushny.
Esse dataset está no formato mais usual conhecido como wide ou tidy, onde cada coluna corresponde a uma variável e cada linha a um paciente e portanto é um dataset mais fácil de ser visualizado e compreendido.
# Carregando o pacote psych
# necessário para usar o data set original de Cushny and Peebles (1905), que foi usado por Student em 1908
library(psych)
Definição das variáveis do dataset
Control: duração do sono dos pacientes sem medicação
drug1 : duração do sono dos pacientes em uso de L-Hyoscyamina (o isomero L da atropina) drug2L : duração do sono dos pacientes em uso de L-Hyoscyna (isomero L da escopolamina) drug2R : duração do sono dos pacientes em uso de R-Hyoscyna (isomero L da escopolamina)
delta1 : aumento do sono provocado pelo uso de L-Hyoscyamina (o isomero L da atropina) delta2L: aumento do sono provocado pelo uso de L-Hyoscyna (isomero L da escopolamina) delta2R: aumento do sono provocado pelo uso de R-Hyoscyna (isomero L da escopolamina)
data(cushny) # carrega o dataset cushny
str(cushny) # Verifica a estrutura do dataset cushny, as variáveis e suas respectivas classes
## 'data.frame': 10 obs. of 7 variables:
## $ Control: num 0.6 3 4.7 5.5 6.2 3.2 2.5 2.8 1.1 2.9
## $ drug1 : num 1.3 1.4 4.5 4.3 6.1 6.6 6.2 3.6 1.1 4.9
## $ drug2L : num 2.5 3.8 5.8 5.6 6.1 7.6 8 4.4 5.7 6.3
## $ drug2R : num 2.1 4.4 4.7 4.8 6.7 8.3 8.2 4.3 5.8 6.4
## $ delta1 : num 0.7 -1.6 -0.2 -1.2 -0.1 3.4 3.7 0.8 0 2
## $ delta2L: num 1.9 0.8 1.1 0.1 -0.1 4.4 5.5 1.6 4.6 3.4
## $ delta2R: num 1.5 1.4 0 -0.7 0.5 5.1 5.7 1.5 4.7 3.5
Você pode visualizar o dataset clicando no respectivo nome na aba “Enviroment” no painel superior direito do RStudio.
Em seu artigo “On” teste realizado por Student, Gosset queria comparar a diferença do efeito dos dois isomeros da Hyoscinamina (R-Hyoscyamina e L-Hyoscyamina), entretanto confundiu as tabelas e na verdade comparou comparou as diferenças entre o aumento do sono provocado pela L-Hyoscyamina (delta2L) e pela L-Hyoscina (delta1).
Para replicar o teste t realizado por Student, devemos então comparar as médias do aumento do sono etre os grupos delta2L e delta1.
# delta1 : aumento do sono dos pacientes em uso de L-Hyoscyamina (o isômero L da atropina)
# delta2L : aumento do sono dos pacientes em uso de L-Hyoscyna (isômero L da escopolamina)
t.test(cushny$delta1, cushny$delta2L, paired=TRUE)
##
## Paired t-test
##
## data: cushny$delta1 and cushny$delta2L
## t = -4.0621, df = 9, p-value = 0.002833
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -2.4598858 -0.7001142
## sample estimates:
## mean of the differences
## -1.58
A conclusão então é que foi encontrada uma diferença estatisticamente significativa entre o sono provocado por essas drogas. Para saber qual delas produz mais sono basta ver as médias de sono de cada uma:
mean(cushny$delta1) # aumento do sono dos pacientes em uso de L-Hyoscyamina (o isômero L da atropina)
## [1] 0.75
mean(cushny$delta2L) # aumento do sono dos pacientes em uso de L-Hyoscyna (isômero L da escopolamina)
## [1] 2.33
Interprete os testes abaixo e decida se houve ou não alguma diferença estatísticamente significativa entre o sono provocvado pelas drogas usadas
t.test(cushny$Control, cushny$drug1, paired=TRUE)
##
## Paired t-test
##
## data: cushny$Control and cushny$drug1
## t = -1.3257, df = 9, p-value = 0.2176
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -2.0297804 0.5297804
## sample estimates:
## mean of the differences
## -0.75
t.test(cushny$Control, cushny$drug2L, paired=TRUE)
##
## Paired t-test
##
## data: cushny$Control and cushny$drug2L
## t = -3.6799, df = 9, p-value = 0.005076
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -3.7623225 -0.8976775
## sample estimates:
## mean of the differences
## -2.33
t.test(cushny$Control, cushny$drug2R, paired=TRUE)
##
## Paired t-test
##
## data: cushny$Control and cushny$drug2R
## t = -3.2375, df = 9, p-value = 0.0102
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -3.9410548 -0.6989452
## sample estimates:
## mean of the differences
## -2.32
t.test(cushny$delta2L, cushny$delta2R, paired=TRUE)
##
## Paired t-test
##
## data: cushny$delta2L and cushny$delta2R
## t = 0.052311, df = 9, p-value = 0.9594
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -0.4224476 0.4424476
## sample estimates:
## mean of the differences
## 0.01