A continuación, se analizará el Teorema del límite central (TLC) y la distribución t, los cuales ayudan a realizar cálculos importantes relacionados con las probabilidades. Ambos se utilizan con frecuencia en ciencia para probar hipótesis estadísticas. Para usarlos, se hacen supuestos diferentes de los del CLT y la distribución t. Sin embargo, si las suposiciones son ciertas, entonces se pueden calcular las probabilidades exactas de los eventos mediante el uso de fórmulas matemáticas.

El Teorema del límite central (TLC) es uno de los resultados matemáticos más utilizados en ciencia. Dice que cuando el tamaño de la muestra es grande, el promedio \(\bar{Y}\) de muestras aleatorias sigue una distribución normal centrada en el promedio \(\mu_Y\) de la población y con una desviación estándar igual a la desviación estándar de la población \(\sigma_Y\), dividida por la raíz cuadrada del tamaño de la muestra N.

A la desviación estándar de la distribución de una variable aleatoria se le conoce como el error estándar de la variable aleatoria.

Si se resta una constante de una variable aleatoria, la media de la nueva variable aleatoria cambia por esa constante. Matemáticamente, si \(X\) es una variable aleatoria con media \(\bar{X}\) y \(a\) es una constante, la media de \(X-a\) es \(\bar{X}−a\). Esto es válido para la multiplicación y la desviación estándar. Si \(X\) es una variable aleatoria con media \(\bar{X}\) y desviación estándar \(\sigma_X\), y \(a\) es una constante, entonces la media y la deviación estándar de \(a\cdot{X}\) son \(a\cdot\bar{X}\) y \(\left|a\right|\cdot{\sigma_{X}}\) respectivamente.

Para ver qué tan intuitivo es esto, imagine que restamos 10 gramos de cada uno de los pesos de los ratones. El peso promedio también debería caer esos 10 gramos. De manera similar, si cambiamos las unidades de gramos a miligramos multiplicando por 1000, entonces la dispersión de los números aumenta.

Esto implica que si se toman muchas muestras de tamaño \(M\), entonces la variable \[ \dfrac{\bar{X}-\mu_x}{\sigma_{X}/\sqrt{M}} \] sigue una distribución normal estándar, esto es distribución normal con centro en \(0\) y desviación estándar \(1\).

Cuando se trabaja con la diferencia entre dos promedios muestrales, de nuevo ayuda un resultado matemático. Si se tienen dos variables aleatorias \(X\) y \(Y\) con medias \(\mu_X\), \(\mu_Y\) y varianza \(\sigma_X^2\) y \(\sigma_Y^2\) respectivamente, entonces se tiene el siguiente resultado: la media de la suma \(Y + X\) es la suma de las medias \(\mu_Y+\mu_X\). Usando uno de los hechos que se mencionó anteriormente, esto implica que la media de \(Y - X\) es igual a la media de \(Y + a\cdot{X}\) con \(a = −1\), lo que lleva a que la media de \(Y - X\) es \(\mu_Y−\mu_X\).

Lo expresado en el párrafo anterior es intuitivo. Sin embargo, el siguiente resultado quizás no sea tan intuitivo. Si \(X\) y \(Y\) son independientes entre sí, como lo son en el ejemplo de ratones, entonces la varianza (desviación estándar al cuadrado) de \(Y + X\) es la suma de las varianzas \(\sigma_Y^2 + \sigma_X^2\). Esto implica que la varianza de la diferencia \(Y - X\) es la varianza de \(Y + a\cdot{X}\) con \(a = −1\), que es \(\sigma_Y^2+a^2\cdot\sigma_X^2=\sigma_Y^2-\sigma_X^2\). Entonces, la varianza de la diferencia es también la suma de las varianzas.

Si esto parece un resultado contrario a la intuición, hay que recordar que si \(X\) y \(Y\) son independientes entre sí, el signo realmente no importa. Puede considerarse aleatorio: si \(X\) es normal con cierta varianza, por ejemplo, también lo es \(−X\). Finalmente, otro resultado útil es que la suma de las variables normales tambien es normal.

Toda esta matemática es muy útil para los propósitos del estudio del peso de los ratones porque se tienen dos promedios de muestra y hay interés en la diferencia. Debido a que ambos son normales, la diferencia también es normal y la varianza (la desviación estándar al cuadrado) es la suma de las dos varianzas. Bajo la hipótesis nula de que no hay diferencia entre los promedios poblacionales, la diferencia entre los promedios muestrales \(\bar{Y}-\bar{X}\), con \(\bar{X}\) y \(\bar{Y}\) como las medias muestrales para las dos dietas respectivamente, se aproxima por una distribución normal centrada en 0 (no hay diferencia) y con desviación estándar \(\sqrt{\sigma_X^2+\sigma_Y^2}/\sqrt{N}\).

Esto sugiere que la variable \[ \dfrac{\bar{Y}-\bar{X}}{\sqrt{\dfrac{\sigma_X^2}{M}+\dfrac{\sigma_Y^2}{N}}}\sim{N(0, 1)} \] esto es, sigue una distribución normal estándar, centrada en \(0\) y con una desviación estándar \(1\). El uso de esta aproximación simplifica el cálculo de los valores p porque se puede hallar la proporción de la distribución bajo cualquier valor.

Si se usan los datos de la población de ratones macho control se obtienen los siguientes resultados:

Con 1 desviación estándar se tiene el 70,98%.

mean(ym >= mean(ym) - popsd(ym) & ym <= mean(ym) + popsd(ym)) # [1] 0.7098446 (Cercano a 0.6826895)

Con 2 desviaciones estándar se tiene el 93,78%.

mean(ym >= mean(ym) - 2 * popsd(ym) & ym <= mean(ym) + 2 * popsd(ym)) # [1] 0.9378238 (Cercano a 0.9544997)

Con 3 desviaciones estándar se tiene el 99,48%.

mean(ym >= mean(ym) - 3 * popsd(ym) & ym <= mean(ym) + 3 * popsd(ym)) # [1] 0.9948187 (Cercano a 0.9973002)

Con 6 desviaciones estándar se tiene el 99,9999%.

mean(ym >= mean(ym) - 6 * popsd(ym) & ym <= mean(ym) + 6 * popsd(ym)) # [1] 1 (Cercano a 1)

Con qqnorm se puede comparar la distribución de los datos con la distribución normal.

qqnorm(ym)
qqline(ym)

La interpretación de esta gráfica es que entre más cerca estén los puntos a la línea teórica, más cerca está la distribución de los datos a la distribución normal.

mypar(2,2)
qqnorm(ym, main="Machos tratamiento")
qqline(ym)
qqnorm(xm, main="Machos control")
qqline(xm)
qqnorm(yh, main="Hembras tratamiento")
qqline(yh)
qqnorm(xh, main="Hembras control")
qqline(xh)

Con esto se sigue que en una investigación no es necesario obtener la información de toda la población, se pueden usar muestras; sin embargo todavía se tiene el inconveniente de que no se conocen las desviaciones estándar de las poblaciones, pero esto se puede solucionar usando las desviaciones estándar de las muestras, llamadas \(s_X\) y \(s_Y\).

Así que se puede redefinir la razón como \[ \sqrt{M}\cdot\dfrac{\bar{Y}-\bar{X}}{\sqrt{s_X^2+s_Y^2}}\sim{N(0, 1)} \] cuando \(M = N\), o en general, \[ \dfrac{\bar{Y}-\bar{X}}{\sqrt{\dfrac{s_X^2}{M}+\dfrac{s_Y^2}{N}}}\sim{N(0, 1)} \] El teorema del límite central nos dice que cuando \(M\) y \(N\) son grandes, esta variable aleatoria sigue una distribución normal estándar, con media 0 y desviación estándar 1. Así que se se pueden calcular los valores p usando la función pnorm.

Si la distribución de una lista de números es aproximadamente normal, entonces al tomar una muestra al azar de esta distribución, se siguen una distribución normal. Por ejemplo:

mediasXm <- replicate(10000, {mean( sample(xm, 25))})
mypar(1,2)
hist(mediasXm)
qqnorm(mediasXm)
qqline(mediasXm)

Ejercicios de poblaciones y muestras Capítulo de inferencia Distribución t