El TLC se basa en muestras grandes, que se conocen como resultados asintóticos. Cuando el TLC no se aplica, hay otra opción que no se basa en resultados asintóticos. Cuando la población original de la cual se muestrea una variable aleatoria, digamos \(Y\), se distribuye normalmente con media 0, entonces se puede calcular la distribución de:

\(\sqrt{N} \dfrac{\bar{Y}}{s_Y}\) que equivale a \(\dfrac{\bar{Y}}{s_Y/\sqrt{N}}\)

Esta es la razón de dos variables aleatorias, por lo que no es necesariamente normal. El hecho de que el denominador pueda ser pequeño al azar aumenta la probabilidad de observar valores grandes. William Sealy Gosset, un empleado de la empresa cervecera Guinness, descifró la distribución de esta variable aleatoria y publicó un artículo bajo el seudónimo de “Student”. Por lo tanto, la distribución se denomina distribución t de Student. Más adelante se aprenderá más sobre cómo se usa este resultado.

Aquí se usarán los datos del fenotipo de los ratones como ejemplo. Se crean dos vectores, uno para la población de control y otro para la población de dieta alta en grasas:

library(dplyr)
dir <- system.file(package = "dagdata")
filename <- file.path(dir,"extdata/mice_pheno.csv") 
datos <- read.csv(filename) %>% na.omit
poblacionControl <- filter(datos,Sex == "F" & Diet == "chow") %>%select(Bodyweight) %>% unlist
poblacionTratamiento <- datos$Bodyweight[datos$Sex == "F" & datos$Diet == "hf"]

Es importante tener en cuenta que se asume que la distribución de $y_1, y_2, , y_n $ es normal, no la variable aleatoria ${Y} $. Aunque no se puede hacer esto en la práctica, en este ejemplo ilustrativo, se puede ver esta distribución tanto para controles como para ratones de dieta alta en grasas:

library(rafalib)
mypar(1,2)
hist(poblacionTratamiento)
hist(poblacionControl)
Histograms of all weights for both populations.

Histograms of all weights for both populations.

Se puede usar qq-plots para confirmar que las distribuciones están relativamente cerca de estar distribuidas de manera normal. Se explorarán estos gráficos con más profundidad en una sección posterior, pero lo importante que hay que saber es que compara los datos (en el eje y) con una distribución teórica (en el eje x). Si los puntos caen en la línea de identidad, entonces los datos están cerca de la distribución teórica.

mypar(1,2)
qqnorm(poblacionTratamiento)
qqline(poblacionTratamiento)
qqnorm(poblacionControl)
qqline(poblacionControl)
Quantile-quantile plots of all weights for both populations.

Quantile-quantile plots of all weights for both populations.

Cuanto mayor sea la muestra, más tolerante será el resultado con la debilidad de esta aproximación. En la siguiente sección, se verá que para este conjunto de datos en particular, la distribución t funciona bien incluso para tamaños de muestra tan pequeños como 3.

Teorema del límite central Capítulo de inferencia Ejercicios de TLC y distribución t