Introducción a las Distribuciones de la Media

La distribución de la media muestral es un concepto clave en estadística inferencial. Se refiere a la distribución de las medias de todas las muestras posibles de un tamaño fijo \(n\) extraídas de una población. El Teorema del Límite Central nos dice que, a medida que el tamaño de la muestra aumenta \(n{\rightarrow}\infty\), la distribución de la media muestral se aproxima a una distribución normal, independientemente de la forma de la distribución original de la población.

Propiedades de la Distribución de la Media

  1. Media de la Distribución de la Media Muestral \(\left({\mu}_{\overline{X}}\right)\):
  • La media de la distribución de la media muestral es igual a la media de la población:

\[ {\mu}_{\overline{X}}=\mu \]

  1. Desviación Estándar de la Distribución de la Media Muestral \(\left({\sigma}_{\overline{X}}\right)\):
  • La desviación estándar de la media muestral, también llamada error estándar, es igual a la desviación estándar de la población dividida por la raíz cuadrada del tamaño de la muestra:

\[ {\sigma}_{\overline{X}}=\frac{\sigma}{\sqrt{n}} \]

  • Cuando la desviación estándar poblacional es desconocida, usamos la desviación estándar muestral \((S)\) y la distribución t de Student para estimar la media poblacional:

\[ {\sigma}_{\overline{X}}=\frac{S}{\sqrt{n}} \]

  1. Forma de la Distribución:
  • Para tamaños de muestra suficientemente grandes, la distribución de la media muestral se aproxima a una distribución normal, incluso si la población original no es normal.

  • Para muestras pequeñas y desviación estándar desconocida, la distribución t de Student es más adecuada.

Ejemplos

Ejemplo 1: Distribución Normal

Consideremos una población que sigue una distribución normal con media \(\mu=50\) y desviación estándar \(\sigma=10\). Analizaremos cómo se comporta la distribución de la media muestral para diferentes tamaños de muestra.

set.seed(123)

# Función para calcular la media muestral
calcular_media_muestral_normal <- function(n, num_simulaciones = 1000) {
  replicate(num_simulaciones, mean(rnorm(n, mean = 50, sd = 10)))
}

# Simulaciones con diferentes tamaños de muestra
medias_normal_n5 <- calcular_media_muestral_normal(5)
medias_normal_n30 <- calcular_media_muestral_normal(30)
medias_normal_n100 <- calcular_media_muestral_normal(100)

# Crear data frames para graficar
df_normal_n5 <- data.frame(Media = medias_normal_n5, Tamaño = "n = 5")
df_normal_n30 <- data.frame(Media = medias_normal_n30, Tamaño = "n = 30")
df_normal_n100 <- data.frame(Media = medias_normal_n100, Tamaño = "n = 100")

# Combinar los data frames
df_distribucion_normal <- bind_rows(df_normal_n5, df_normal_n30, df_normal_n100)

# Graficar
ggplot(df_distribucion_normal, aes(x = Media, fill = Tamaño)) +
  geom_histogram(bins = 30, alpha = 0.7, position = "identity") +
  facet_wrap(~ Tamaño, scales = "free_y") +
  labs(title = "Distribución de Medias Muestrales (Distribución Normal)",
       x = "Media Muestral", y = "Frecuencia") +
  theme_minimal()

Ejemplo 2: Distribución Sesgada

Ahora consideremos una población que sigue una distribución sesgada, como la distribución exponencial. Queremos ver cómo la distribución de la media muestral se comporta a medida que el tamaño de la muestra aumenta.

set.seed(123)

# Función para calcular la media muestral
calcular_media_muestral_exp <- function(n, num_simulaciones = 1000) {
  replicate(num_simulaciones, mean(rexp(n, rate = 1)))
}

# Simulaciones con diferentes tamaños de muestra
medias_exp_n5 <- calcular_media_muestral_exp(5)
medias_exp_n30 <- calcular_media_muestral_exp(30)
medias_exp_n100 <- calcular_media_muestral_exp(100)

# Crear data frames para graficar
df_exp_n5 <- data.frame(Media = medias_exp_n5, Tamaño = "n = 5")
df_exp_n30 <- data.frame(Media = medias_exp_n30, Tamaño = "n = 30")
df_exp_n100 <- data.frame(Media = medias_exp_n100, Tamaño = "n = 100")

# Combinar los data frames
df_distribucion_exp <- bind_rows(df_exp_n5, df_exp_n30, df_exp_n100)

# Graficar
ggplot(df_distribucion_exp, aes(x = Media, fill = Tamaño)) +
  geom_histogram(bins = 30, alpha = 0.7, position = "identity") +
  facet_wrap(~ Tamaño, scales = "free_y") +
  labs(title = "Distribución de Medias Muestrales (Distribución Exponencial)",
       x = "Media Muestral", y = "Frecuencia") +
  theme_minimal()

Ejemplo 3: Desviación Estándar Desconocida

Consideremos una población normal, pero ahora asumamos que no conocemos la desviación estándar poblacional. Utilizaremos la distribución t de Student para la inferencia.

set.seed(123)

# Función para calcular la media muestral con la distribución t
calcular_media_muestral_t <- function(n, num_simulaciones = 1000) {
  replicate(num_simulaciones, {
    muestra <- rnorm(n, mean = 50, sd = 10)
    media <- mean(muestra)
    error_est <- sd(muestra) / sqrt(n)
    media + qt(c(0.025, 0.975), df = n-1) * error_est
  })
}

# Simulaciones con diferentes tamaños de muestra
medias_t_n5 <- calcular_media_muestral_t(5)
medias_t_n30 <- calcular_media_muestral_t(30)
medias_t_n100 <- calcular_media_muestral_t(100)

# Crear data frames para graficar
df_t_n5 <- data.frame(Media = apply(medias_t_n5, 2, mean), Tamaño = "n = 5")
df_t_n30 <- data.frame(Media = apply(medias_t_n30, 2, mean), Tamaño = "n = 30")
df_t_n100 <- data.frame(Media = apply(medias_t_n100, 2, mean), Tamaño = "n = 100")

# Combinar los data frames
df_distribucion_t <- bind_rows(df_t_n5, df_t_n30, df_t_n100)

# Graficar
ggplot(df_distribucion_t, aes(x = Media, fill = Tamaño)) +
  geom_histogram(bins = 30, alpha = 0.7, position = "identity") +
  facet_wrap(~ Tamaño, scales = "free_y") +
  labs(title = "Distribución de Medias Muestrales (Distribución t de Student)",
       x = "Media Muestral", y = "Frecuencia") +
  theme_minimal()

Ejercicios Resueltos

Ejercicio: Distribución Uniforme

Analizaremos la distribución de la media muestral de una distribución uniforme entre \([0, 1]\).

set.seed(123)

# Función para calcular la media muestral
calcular_media_muestral_uniforme <- function(n, num_simulaciones = 1000) {
  replicate(num_simulaciones, mean(runif(n, min = 0, max = 1)))
}

# Simulaciones con diferentes tamaños de muestra
medias_unif_n5 <- calcular_media_muestral_uniforme(5)
medias_unif_n30 <- calcular_media_muestral_uniforme(30)
medias_unif_n100 <- calcular_media_muestral_uniforme(100)

# Crear data frames para graficar
df_unif_n5 <- data.frame(Media = medias_unif_n5, Tamaño = "n = 5")
df_unif_n30 <- data.frame(Media = medias_unif_n30, Tamaño = "n = 30")
df_unif_n100 <- data.frame(Media = medias_unif_n100, Tamaño = "n = 100")

# Combinar los data frames
df_distribucion_unif <- bind_rows(df_unif_n5, df_unif_n30, df_unif_n100)

# Graficar
ggplot(df_distribucion_unif, aes(x = Media, fill = Tamaño)) +
  geom_histogram(bins = 30, alpha = 0.7, position = "identity") +
  facet_wrap(~ Tamaño, scales = "free_y") +
  labs(title = "Distribución de Medias Muestrales (Distribución Uniforme)",
       x = "Media Muestral", y = "Frecuencia") +
  theme_minimal()

Ejercicio: Media Muestral con Desviación Estándar Desconocida

En este ejercicio, calcularemos intervalos de confianza para la media de una población normal utilizando muestras aleatorias y aplicando la distribución t de Student debido a la desconocida desviación estándar poblacional.

set.seed(123)

# Función para calcular la media muestral utilizando la distribución t
calcular_media_muestral_t <- function(n, num_simulaciones = 1000) {
  replicate(num_simulaciones, {
    muestra <- rnorm(n, mean = 100, sd = 15)  # Población normal con media 100 y sd desconocida
    mean(muestra)
  })
}

# Simulaciones con diferentes tamaños de muestra
medias_t_n5 <- calcular_media_muestral_t(5)
medias_t_n30 <- calcular_media_muestral_t(30)
medias_t_n100 <- calcular_media_muestral_t(100)

# Crear data frames para graficar
df_t_n5 <- data.frame(Media = medias_t_n5, Tamaño = "n = 5")
df_t_n30 <- data.frame(Media = medias_t_n30, Tamaño = "n = 30")
df_t_n100 <- data.frame(Media = medias_t_n100, Tamaño = "n = 100")

# Combinar los data frames
df_distribucion_t <- bind_rows(df_t_n5, df_t_n30, df_t_n100)

# Graficar
ggplot(df_distribucion_t, aes(x = Media, fill = Tamaño)) +
  geom_histogram(bins = 30, alpha = 0.7, position = "identity") +
  facet_wrap(~ Tamaño, scales = "free_y") +
  labs(title = "Distribución de Medias Muestrales (Desviación Estándar Desconocida)",
       x = "Media Muestral", y = "Frecuencia") +
  theme_minimal()

Conclusiones

La distribución de la media muestral es una herramienta fundamental en estadística inferencial, ya que nos permite hacer estimaciones y pruebas de hipótesis sobre la media poblacional a partir de muestras. Las simulaciones y ejercicios en este documento han mostrado varios aspectos clave:

  1. Teorema del Límite Central:
  1. Desviación Estándar Desconocida:
  1. Tamaño de la Muestra:
  1. Aplicación Práctica:
  1. Ejercicios Resueltos:

En resumen, las distribuciones muestrales de la media, junto con las herramientas como la distribución t, forman el núcleo del análisis estadístico inferencial. Nos permiten extrapolar conclusiones sobre una población completa basándonos en la observación de muestras, lo cual es vital para la toma de decisiones basada en datos.