En conjunto con el Teorema del Limite Central y la prueba de t, podemos obtener los p-valores.
library(dplyr)
data<-read.csv("femaleMiceWeights.csv")
control<-data$Bodyweight[data$Diet=="chow"]
tratamiento<-data$Bodyweight[data$Diet=="hf"]
obs<-mean(tratamiento)-mean(control)Para construir el estadístico t, se necesita estimar el error estandar.
\[ SE_{(\overline{X} - \overline{Y})}= \sqrt{ \frac{ \sigma^2_{Y} }{ N_{1}} +\frac{ \sigma^2_{X} }{ N_{2}} } \]
N<-length(tratamiento)
SE<-sqrt(var(tratamiento)/N + var(control)/N)Para Calcular el estadistico t, es deividir la diferencia observada, vector obs por error estandar estimada.
testadis<-obs/SE
testadis## [1] 2.055174
Si los datos se aproximan a una distribución normal, entonces no necesitamos acceso a todos los datos de la población. Entonces podemos calcular el p-valor, para el estadístico t que calculamos, pnorm() calcula la proporción de valores de los datos data por el estadistico t, pero si restamos calcula el p-valor. Para una cola es este el resultado, pero si es de dos este valor se multiplica por 2.
pnorm(testadis)## [1] 0.9800689
1-pnorm(testadis)## [1] 0.0199311
2*(1-pnorm(testadis))## [1] 0.0398622
par(mfrow=c(1,2))
qqnorm(control,main="Control")
qqline(control,lwd=2,col=2)
qqnorm(tratamiento,main="Tratamiento")
qqline(tratamiento,lwd=2,col=2)\(\overline{X}\) sigue una distribución normal con una media \(\mu _{X}\) y una desviación estandar \(\frac{\sigma _{X}}{\sqrt{12}}\) donde \(\sigma _{X}\) es la desviación estandar de la población
Si utilizamos esta aproximación, entonces la teoría estadística nos dice que la distribución de la variable aleatoria testadis sigue una distribución t. Esta es una distribución mucho más complicado que el normal. La distribución t tiene un parámetro de localización como la normal y otro parámetro llamado grados de libertad.
Ahy una función que se utiliza que calcula el estadistico t, el p-valor y los intervalos de confianza.
t.test(tratamiento,control)##
## Welch Two Sample t-test
##
## data: tratamiento and control
## t = 2.0552, df = 20.236, p-value = 0.053
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -0.04296563 6.08463229
## sample estimates:
## mean of x mean of y
## 26.83417 23.81333
El p-valor es ligeramente más grande. Esto es de esperar porque nuestra aproximación TLC considera el denominador de testadis prácticamente fijo (con muestras grandes prácticamente lo es), mientras que la aproximación distribución t tiene en cuenta que el denominador (el error estándar de la diferencia) es una variable aleatoria. Cuanto menor sea el tamaño de la muestra, el denominador varía más.
Es más probable que la prueba basada en la aproximación TLC rechace incorrectamente la hipótesis nula (un falso positivo), mientras que la distribución t es más probable que acepten incorrectamente la hipótesis nula (falso negativo).
Si nosotros aplicamos el TLC, la distribución del estadístico t es Normal con una media de 0 y una desviación estandar de 1