Distribuciones de la media

Introducción a las Distribuciones de la Media

La distribución de la media muestral es un concepto clave en estadística inferencial. Se refiere a la distribución de las medias de todas las muestras posibles de un tamaño fijo \(n\) extraídas de una población. El Teorema del Límite Central nos dice que, a medida que el tamaño de la muestra aumenta \(n{\rightarrow}\infty\), la distribución de la media muestral se aproxima a una distribución normal, independientemente de la forma de la distribución original de la población.

Propiedades de la Distribución de la Media

Media de la Distribución de la Media Muestral \(\left({\mu}_{\overline{X}}\right)\):

La media de la distribución de la media muestral es igual a la media de la población:

\[ {\mu}_{\overline{X}}=\mu \]

Desviación Estándar de la Distribución de la Media Muestral \(\left({\sigma}_{\overline{X}}\right)\):

La desviación estándar de la media muestral, también llamada error estándar, es igual a la desviación estándar de la población dividida por la raíz cuadrada del tamaño de la muestra:

\[ {\sigma}_{\overline{X}}=\frac{\sigma}{\sqrt{n}} \]

Cuando la desviación estándar poblacional es desconocida, usamos la desviación estándar muestral \((S)\) y la distribución t de Student para estimar la media poblacional:

\[ {\sigma}_{\overline{X}}=\frac{S}{\sqrt{n}} \]

Forma de la Distribución:

Para tamaños de muestra suficientemente grandes, la distribución de la media muestral se aproxima a una distribución normal, incluso si la población original no es normal.
Para muestras pequeñas y desviación estándar desconocida, la distribución t de Student es más adecuada.

Ejemplos

Ejemplo 1: Distribución Normal

Consideremos una población que sigue una distribución normal con media \(\mu=50\) y desviación estándar \(\sigma=10\). Analizaremos cómo se comporta la distribución de la media muestral para diferentes tamaños de muestra.

set.seed(123)

# Función para calcular la media muestral
calcular_media_muestral_normal <- function(n, num_simulaciones = 1000) {
  replicate(num_simulaciones, mean(rnorm(n, mean = 50, sd = 10)))
}

# Simulaciones con diferentes tamaños de muestra
medias_normal_n5 <- calcular_media_muestral_normal(5)
medias_normal_n30 <- calcular_media_muestral_normal(30)
medias_normal_n100 <- calcular_media_muestral_normal(100)

# Crear data frames para graficar
df_normal_n5 <- data.frame(Media = medias_normal_n5, Tamaño = "n = 5")
df_normal_n30 <- data.frame(Media = medias_normal_n30, Tamaño = "n = 30")
df_normal_n100 <- data.frame(Media = medias_normal_n100, Tamaño = "n = 100")

# Combinar los data frames
df_distribucion_normal <- bind_rows(df_normal_n5, df_normal_n30, df_normal_n100)

# Graficar
ggplot(df_distribucion_normal, aes(x = Media, fill = Tamaño)) +
  geom_histogram(bins = 30, alpha = 0.7, position = "identity") +
  facet_wrap(~ Tamaño, scales = "free_y") +
  labs(title = "Distribución de Medias Muestrales (Distribución Normal)",
       x = "Media Muestral", y = "Frecuencia") +
  theme_minimal()

Ejemplo 2: Distribución Sesgada

Ahora consideremos una población que sigue una distribución sesgada, como la distribución exponencial. Queremos ver cómo la distribución de la media muestral se comporta a medida que el tamaño de la muestra aumenta.

set.seed(123)

# Función para calcular la media muestral
calcular_media_muestral_exp <- function(n, num_simulaciones = 1000) {
  replicate(num_simulaciones, mean(rexp(n, rate = 1)))
}

# Simulaciones con diferentes tamaños de muestra
medias_exp_n5 <- calcular_media_muestral_exp(5)
medias_exp_n30 <- calcular_media_muestral_exp(30)
medias_exp_n100 <- calcular_media_muestral_exp(100)

# Crear data frames para graficar
df_exp_n5 <- data.frame(Media = medias_exp_n5, Tamaño = "n = 5")
df_exp_n30 <- data.frame(Media = medias_exp_n30, Tamaño = "n = 30")
df_exp_n100 <- data.frame(Media = medias_exp_n100, Tamaño = "n = 100")

# Combinar los data frames
df_distribucion_exp <- bind_rows(df_exp_n5, df_exp_n30, df_exp_n100)

# Graficar
ggplot(df_distribucion_exp, aes(x = Media, fill = Tamaño)) +
  geom_histogram(bins = 30, alpha = 0.7, position = "identity") +
  facet_wrap(~ Tamaño, scales = "free_y") +
  labs(title = "Distribución de Medias Muestrales (Distribución Exponencial)",
       x = "Media Muestral", y = "Frecuencia") +
  theme_minimal()

Ejemplo 3: Desviación Estándar Desconocida

Consideremos una población normal, pero ahora asumamos que no conocemos la desviación estándar poblacional. Utilizaremos la distribución t de Student para la inferencia.

set.seed(123)

# Función para calcular la media muestral con la distribución t
calcular_media_muestral_t <- function(n, num_simulaciones = 1000) {
  replicate(num_simulaciones, {
    muestra <- rnorm(n, mean = 50, sd = 10)
    media <- mean(muestra)
    error_est <- sd(muestra) / sqrt(n)
    media + qt(c(0.025, 0.975), df = n-1) * error_est
  })
}

# Simulaciones con diferentes tamaños de muestra
medias_t_n5 <- calcular_media_muestral_t(5)
medias_t_n30 <- calcular_media_muestral_t(30)
medias_t_n100 <- calcular_media_muestral_t(100)

# Crear data frames para graficar
df_t_n5 <- data.frame(Media = apply(medias_t_n5, 2, mean), Tamaño = "n = 5")
df_t_n30 <- data.frame(Media = apply(medias_t_n30, 2, mean), Tamaño = "n = 30")
df_t_n100 <- data.frame(Media = apply(medias_t_n100, 2, mean), Tamaño = "n = 100")

# Combinar los data frames
df_distribucion_t <- bind_rows(df_t_n5, df_t_n30, df_t_n100)

# Graficar
ggplot(df_distribucion_t, aes(x = Media, fill = Tamaño)) +
  geom_histogram(bins = 30, alpha = 0.7, position = "identity") +
  facet_wrap(~ Tamaño, scales = "free_y") +
  labs(title = "Distribución de Medias Muestrales (Distribución t de Student)",
       x = "Media Muestral", y = "Frecuencia") +
  theme_minimal()

Ejercicios Resueltos

Ejercicio: Distribución Uniforme

Analizaremos la distribución de la media muestral de una distribución uniforme entre \([0, 1]\).

set.seed(123)

# Función para calcular la media muestral
calcular_media_muestral_uniforme <- function(n, num_simulaciones = 1000) {
  replicate(num_simulaciones, mean(runif(n, min = 0, max = 1)))
}

# Simulaciones con diferentes tamaños de muestra
medias_unif_n5 <- calcular_media_muestral_uniforme(5)
medias_unif_n30 <- calcular_media_muestral_uniforme(30)
medias_unif_n100 <- calcular_media_muestral_uniforme(100)

# Crear data frames para graficar
df_unif_n5 <- data.frame(Media = medias_unif_n5, Tamaño = "n = 5")
df_unif_n30 <- data.frame(Media = medias_unif_n30, Tamaño = "n = 30")
df_unif_n100 <- data.frame(Media = medias_unif_n100, Tamaño = "n = 100")

# Combinar los data frames
df_distribucion_unif <- bind_rows(df_unif_n5, df_unif_n30, df_unif_n100)

# Graficar
ggplot(df_distribucion_unif, aes(x = Media, fill = Tamaño)) +
  geom_histogram(bins = 30, alpha = 0.7, position = "identity") +
  facet_wrap(~ Tamaño, scales = "free_y") +
  labs(title = "Distribución de Medias Muestrales (Distribución Uniforme)",
       x = "Media Muestral", y = "Frecuencia") +
  theme_minimal()

Ejercicio: Media Muestral con Desviación Estándar Desconocida

En este ejercicio, calcularemos intervalos de confianza para la media de una población normal utilizando muestras aleatorias y aplicando la distribución t de Student debido a la desconocida desviación estándar poblacional.

set.seed(123)

# Función para calcular la media muestral utilizando la distribución t
calcular_media_muestral_t <- function(n, num_simulaciones = 1000) {
  replicate(num_simulaciones, {
    muestra <- rnorm(n, mean = 100, sd = 15)  # Población normal con media 100 y sd desconocida
    mean(muestra)
  })
}

# Simulaciones con diferentes tamaños de muestra
medias_t_n5 <- calcular_media_muestral_t(5)
medias_t_n30 <- calcular_media_muestral_t(30)
medias_t_n100 <- calcular_media_muestral_t(100)

# Crear data frames para graficar
df_t_n5 <- data.frame(Media = medias_t_n5, Tamaño = "n = 5")
df_t_n30 <- data.frame(Media = medias_t_n30, Tamaño = "n = 30")
df_t_n100 <- data.frame(Media = medias_t_n100, Tamaño = "n = 100")

# Combinar los data frames
df_distribucion_t <- bind_rows(df_t_n5, df_t_n30, df_t_n100)

# Graficar
ggplot(df_distribucion_t, aes(x = Media, fill = Tamaño)) +
  geom_histogram(bins = 30, alpha = 0.7, position = "identity") +
  facet_wrap(~ Tamaño, scales = "free_y") +
  labs(title = "Distribución de Medias Muestrales (Desviación Estándar Desconocida)",
       x = "Media Muestral", y = "Frecuencia") +
  theme_minimal()

Conclusiones

La distribución de la media muestral es una herramienta fundamental en estadística inferencial, ya que nos permite hacer estimaciones y pruebas de hipótesis sobre la media poblacional a partir de muestras. Las simulaciones y ejercicios en este documento han mostrado varios aspectos clave:

Teorema del Límite Central:

medida que el tamaño de la muestra aumenta, la distribución de la media muestral se aproxima a una distribución normal, independientemente de la forma de la distribución de la población original. Esto es particularmente evidente en los ejemplos de distribuciones normales, sesgadas y uniformes.

Desviación Estándar Desconocida:

Cuando la desviación estándar poblacional es desconocida, utilizamos la desviación estándar muestral como un estimador, lo que requiere el uso de la distribución t de Student para muestras pequeñas. Esto ajusta la incertidumbre adicional en la estimación del error estándar.
Las simulaciones demuestran cómo las medias muestrales, incluso con una desviación estándar desconocida, se concentran en torno a la media verdadera a medida que aumenta el tamaño de muestra, disminuyendo la varianza de las medias muestrales.

Tamaño de la Muestra:

Las simulaciones con diferentes tamaños de muestra (n = 5, 30, 100) ilustran cómo el aumento del tamaño de la muestra reduce la variabilidad en las medias muestrales y hace que la distribución sea más estrecha y simétrica.
Para muestras pequeñas, la variabilidad es mayor, pero se estabiliza conforme aumentan las observaciones, proporcionando inferencias más confiables.

Aplicación Práctica:

Estos conceptos son críticos para la planificación y análisis de experimentos y estudios. Con una comprensión sólida de cómo la media muestral se comporta, los investigadores pueden diseñar estudios con tamaños de muestra adecuados para garantizar resultados significativos y precisos.

Ejercicios Resueltos:

Los ejercicios resueltos demuestran el uso de simulaciones para comprender cómo la media muestral y los intervalos de confianza se comportan en situaciones prácticas, ofreciendo una herramienta visual y práctica para aprender y enseñar estadísticas.

En resumen, las distribuciones muestrales de la media, junto con las herramientas como la distribución t, forman el núcleo del análisis estadístico inferencial. Nos permiten extrapolar conclusiones sobre una población completa basándonos en la observación de muestras, lo cual es vital para la toma de decisiones basada en datos.