El teorema del límite central (TLC) nos dice que si una muestra es lo bastante grande (generalmente cuando el tamaño muestral (n) supera los 30), sea cual sea la distribución de la media muestral, seguirá aproximadamente una distribución normal. A través de la simulación para medias muestrales que tengan una distribución Chi Cuadrado y Fisher se hará la demostración de este teorema.

Función para normalizar

En primer lugar, se realiza una función para normalizar las distribuciones, encontrando el valor del estadístico z de una muestra de media muestral donde centramos por la media de la población y escalamos por la desviación estándar de la población.

Z <- function(x, media, desviacion) {
  (mean(x) - media) / (desviacion/sqrt(length(x)))
}

Simulación del TLC con distribución Chi Cuadrado

Para la simulación de la distribución Chi Cuadrado, tenemos en cuenta las siguientes fórmulas:

\[μ = gl\]

\[σ^2 = (2gl)\]

Donde, gl hace referencia a los grados de libertad.

En primer lugar, se realizarán 2000 replicas de la simulación para una muestra de tamaño 10 (n=10), las observaciones serán para una distribución Chi-Cuadrado con \(gl=1\)

M1 <- 2000
n <- 10
gl <- 1
media <- gl 
desviacion <- sqrt(2*gl)
replicas <- replicate(M1, {
  x1 <- rchisq(n, gl)
  Z(x1, media, desviacion)
})

La función replicate es la encargada de realizar las 2000 réplicas, para las n observaciones aleatorias de una distribución Chi- Cuadrado generadas con la función rchisq. A su vez esas observaciones son normalizadas con la función Z creada previamente.

#Graficas
par(mfrow=c(1,2))
hist(replicas, main=paste("Dist. Chi Cuadrado: n =", n), col = "mediumspringgreen", ylab ="Frecuencia", xlab = "Replicas Chi Cuadrado")
qqnorm(replicas, main=paste("Dist. Chi Cuadrado: n =", n), col = "mediumspringgreen")
qqline(replicas)
grid(lwd = 2)

En el histograma anterior podemos observar que los datos presentan asimetría, además de esto en la Q-Qplot se observa que hay una gran cantidad de datos por encima de la línea, por lo cual para una muestra de tamaño \(n = 10\) los datos no siguen una distribución aproximadamente normal. Ahora, se realizará la prueba para un tamaño de muestra de 600.

n1 <- 900
replicas1 <- replicate(M1, {
  x2 <- rchisq(n1, gl)
  Z(x2, media, desviacion)
})
#Graficas 
par(mfrow=c(1,2))
hist(replicas1, main=paste("Dist. Chi Cuadrado: n =", n1), col = "mediumturquoise",  ylab ="Frecuencia", xlab = "Replicas Chi Cuadrado")
qqnorm(replicas1, main=paste("Dist. Chi Cuadrado; n =", n1), col = "mediumturquoise")
qqline(replicas1)
grid(lwd = 2)

Así, en los gráficos anteriores se puede observar que los datos se encuentran más simetricos y que además de esto la mayoría de las observaciones se encuentran sobre la línea, lo cual indica que distribución muestral es ahora aproximadamente normal, comprobando lo dicho en el teorema

Simulación del TLC con distribución Fisher

Para la simulación de la distribución Fisher, tenemos en cuenta las siguientes fórmulas:

\[μ = \frac{gln}{gln-2}\]

\[σ^2 = \frac {2gln^2(gln+gld-2)}{gld(gln-2)^2(gln-4)}\]

Donde, gln hace referencia a los grados de libertad del numerador y gln a los del denominador.

En primer lugar, se realizarán 20000 replicas de la simulación para una muestra de tamaño 25 (n=25), las observaciones serán para una distribución Fisher con \(gln=10\) y \(gld=5\)

M2 <- 20000
n2 <- 50
gln <- 10
gld <- 5
media1<- gln/(gln-2)
Varianza <- (2*gln^2*(gln+gld-2))/(gld*((gln-2)^2)*(gln-4))
desviacion1 <- sqrt(Varianza)
replicas2 <- replicate(M2, {
  x3 <- rf(n2, gln, gld)
  Z(x3, media1, desviacion1)
})

Las n observaciones aleatorias de una distribución Fisher son generadas con la función rf. A su vez esas observaciones son normalizadas con la función Z creada previamente.

#Gráficas
par(mfrow=c(1,2))
hist(replicas2, main=paste("Dist. Fisher: n =", n2), col = "lightsalmon1",ylab ="Frecuencia", xlab = "Replicas Fisher")
qqnorm(replicas2, main=paste("Dist. Fisher; n =", n2), col = "lightsalmon1")
qqline(replicas2)
grid(lwd = 2)

En el histograma anterior podemos observar que los datos presentan asimetría, además de esto en la Q-Qplot se observa que hay una gran cantidad de datos por encima de la línea, por lo cual para una muestra de tamaño \(n = 25\) los datos no siguen una distribución aproximadamente normal. Ahora, se realizará la prueba para un tamaño de muestra de .

n3 <- 10000
replicas4 <- replicate(M2, {
  x4 <- rf(n3, gln, gld)
  Z(x4, media1, desviacion1)
})
#Graficas 
par(mfrow=c(1,2))
hist(replicas4, main=paste("Dist. Fisher: M =", M2, "; n =", n3), col = "lightpink4", ylab ="Frecuencia", xlab = "Replicas Fisher")
qqnorm(replicas4, main=paste("Dist. Fisher; n =", n3), col = "lightpink4")
qqline(replicas4)
grid(lwd = 2)

En la gráfica anterior se puede observar que una gran cantidad de observaciones se encuentran en la línea, y es que a medida que se aumenta el tamaño de muestra, las observaciones se van ubicando sobre la línea, lo cual indica que distribución muestral se está aproximando a la distribución normal, comprobando lo dicho en el teorema. Seguramente para una muestra más grande se va a encontrar una aproximación mucho mejor a la normal