Teorema del Límite Central

Introducción

El Teorema del Límite Central (TLC) es un principio fundamental en estadística que afirma que la distribución de la media muestral de una variable aleatoria se aproxima a una distribución normal a medida que el tamaño de la muestra aumenta, independientemente de la distribución original de la variable aleatoria.

Definición Formal

Para una población con media \(\mu\) y desviación estándar \(\sigma\), el TLC establece que la distribución de la media muestral \(\overline{X}\) para una muestra de tamaño nn se aproxima a una distribución normal con media \(\mu\) y desviación estándar \(\frac{\sigma}{\sqrt{n}}\) cuando nn es suficientemente grande

\[ \overline{X}{\sim}N\left(\mu,\frac{\sigma^2}{n}\right) \]

Ejemplos

Ejemplo 1: Distribución Uniforme

Supongamos que tenemos una población con una distribución uniforme en el intervalo \([0, 1]\). Queremos ver cómo la media muestral se comporta al aumentar el tamaño de la muestra.

set.seed(123)

# Función para calcular la media muestral
calcular_media_muestral <- function(n, num_simulaciones = 1000) {
  replicate(num_simulaciones, mean(runif(n, min = 0, max = 1)))
}

# Simulaciones con diferentes tamaños de muestra
medias_n10 <- calcular_media_muestral(10)
medias_n30 <- calcular_media_muestral(30)
medias_n100 <- calcular_media_muestral(100)

# Crear data frames para graficar
df_n10 <- data.frame(Media = medias_n10, Tamaño = "n = 10")
df_n30 <- data.frame(Media = medias_n30, Tamaño = "n = 30")
df_n100 <- data.frame(Media = medias_n100, Tamaño = "n = 100")

# Combinar los data frames
df_tlc_uniforme <- bind_rows(df_n10, df_n30, df_n100)

# Graficar
ggplot(df_tlc_uniforme, aes(x = Media, fill = Tamaño)) +
  geom_histogram(bins = 30, alpha = 0.7, position = "identity") +
  facet_wrap(~ Tamaño, scales = "free_y") +
  labs(title = "Distribución de Medias Muestrales (Distribución Uniforme)",
       x = "Media Muestral", y = "Frecuencia") +
  theme_minimal()

Ejemplo 2: Distribución Exponencial

Ahora consideremos una población que sigue una distribución exponencial con tasa \(\lambda=1\). Observaremos cómo el TLC se aplica a esta distribución sesgada.

set.seed(123)

# Función para calcular la media muestral
calcular_media_muestral_exp <- function(n, num_simulaciones = 1000) {
  replicate(num_simulaciones, mean(rexp(n, rate = 1)))
}

# Simulaciones con diferentes tamaños de muestra
medias_exp_n10 <- calcular_media_muestral_exp(10)
medias_exp_n30 <- calcular_media_muestral_exp(30)
medias_exp_n100 <- calcular_media_muestral_exp(100)

# Crear data frames para graficar
df_exp_n10 <- data.frame(Media = medias_exp_n10, Tamaño = "n = 10")
df_exp_n30 <- data.frame(Media = medias_exp_n30, Tamaño = "n = 30")
df_exp_n100 <- data.frame(Media = medias_exp_n100, Tamaño = "n = 100")

# Combinar los data frames
df_tlc_exponencial <- bind_rows(df_exp_n10, df_exp_n30, df_exp_n100)

# Graficar
ggplot(df_tlc_exponencial, aes(x = Media, fill = Tamaño)) +
  geom_histogram(bins = 30, alpha = 0.7, position = "identity") +
  facet_wrap(~ Tamaño, scales = "free_y") +
  labs(title = "Distribución de Medias Muestrales (Distribución Exponencial)",
       x = "Media Muestral", y = "Frecuencia") +
  theme_minimal()

Ejercicio Resuelto

Realizaremos un ejercicio donde aplicamos el TLC usando una distribución Poisson.

Ejercicio: Distribución Poisson

Queremos verificar el TLC usando una distribución Poisson con \(\lambda=3\).

set.seed(123)

# Función para calcular la media muestral
calcular_media_muestral_pois <- function(n, num_simulaciones = 1000) {
  replicate(num_simulaciones, mean(rpois(n, lambda = 3)))
}

# Simulaciones con diferentes tamaños de muestra
medias_pois_n10 <- calcular_media_muestral_pois(10)
medias_pois_n30 <- calcular_media_muestral_pois(30)
medias_pois_n100 <- calcular_media_muestral_pois(100)

# Crear data frames para graficar
df_pois_n10 <- data.frame(Media = medias_pois_n10, Tamaño = "n = 10")
df_pois_n30 <- data.frame(Media = medias_pois_n30, Tamaño = "n = 30")
df_pois_n100 <- data.frame(Media = medias_pois_n100, Tamaño = "n = 100")

# Combinar los data frames
df_tlc_poisson <- bind_rows(df_pois_n10, df_pois_n30, df_pois_n100)

# Graficar
ggplot(df_tlc_poisson, aes(x = Media, fill = Tamaño)) +
  geom_histogram(bins = 30, alpha = 0.7, position = "identity") +
  facet_wrap(~ Tamaño, scales = "free_y") +
  labs(title = "Distribución de Medias Muestrales (Distribución Poisson)",
       x = "Media Muestral", y = "Frecuencia") +
  theme_minimal()

Conclusiones

El Teorema del Límite Central es una herramienta poderosa que permite utilizar la distribución normal para hacer inferencias sobre las medias muestrales, incluso cuando la población original no es normal. A través de los ejemplos, observamos cómo las distribuciones de las medias muestrales se aproximan a una normal al aumentar el tamaño de la muestra, ilustrando la robustez del TLC en diferentes contextos de distribución.