La distribución de la media muestral es un concepto clave en estadística inferencial. Se refiere a la distribución de las medias de todas las muestras posibles de un tamaño fijo \(n\) extraídas de una población. El Teorema del Límite Central nos dice que, a medida que el tamaño de la muestra aumenta \(n{\rightarrow}\infty\), la distribución de la media muestral se aproxima a una distribución normal, independientemente de la forma de la distribución original de la población.
\[ {\mu}_{\overline{X}}=\mu \]
\[ {\sigma}_{\overline{X}}=\frac{\sigma}{\sqrt{n}} \]
\[ {\sigma}_{\overline{X}}=\frac{S}{\sqrt{n}} \]
Para tamaños de muestra suficientemente grandes, la distribución de la media muestral se aproxima a una distribución normal, incluso si la población original no es normal.
Para muestras pequeñas y desviación estándar desconocida, la distribución t de Student es más adecuada.
Consideremos una población que sigue una distribución normal con media \(\mu=50\) y desviación estándar \(\sigma=10\). Analizaremos cómo se comporta la distribución de la media muestral para diferentes tamaños de muestra.
set.seed(123)
# Función para calcular la media muestral
calcular_media_muestral_normal <- function(n, num_simulaciones = 1000) {
replicate(num_simulaciones, mean(rnorm(n, mean = 50, sd = 10)))
}
# Simulaciones con diferentes tamaños de muestra
medias_normal_n5 <- calcular_media_muestral_normal(5)
medias_normal_n30 <- calcular_media_muestral_normal(30)
medias_normal_n100 <- calcular_media_muestral_normal(100)
# Crear data frames para graficar
df_normal_n5 <- data.frame(Media = medias_normal_n5, Tamaño = "n = 5")
df_normal_n30 <- data.frame(Media = medias_normal_n30, Tamaño = "n = 30")
df_normal_n100 <- data.frame(Media = medias_normal_n100, Tamaño = "n = 100")
# Combinar los data frames
df_distribucion_normal <- bind_rows(df_normal_n5, df_normal_n30, df_normal_n100)
# Graficar
ggplot(df_distribucion_normal, aes(x = Media, fill = Tamaño)) +
geom_histogram(bins = 30, alpha = 0.7, position = "identity") +
facet_wrap(~ Tamaño, scales = "free_y") +
labs(title = "Distribución de Medias Muestrales (Distribución Normal)",
x = "Media Muestral", y = "Frecuencia") +
theme_minimal()
Ahora consideremos una población que sigue una distribución sesgada, como la distribución exponencial. Queremos ver cómo la distribución de la media muestral se comporta a medida que el tamaño de la muestra aumenta.
set.seed(123)
# Función para calcular la media muestral
calcular_media_muestral_exp <- function(n, num_simulaciones = 1000) {
replicate(num_simulaciones, mean(rexp(n, rate = 1)))
}
# Simulaciones con diferentes tamaños de muestra
medias_exp_n5 <- calcular_media_muestral_exp(5)
medias_exp_n30 <- calcular_media_muestral_exp(30)
medias_exp_n100 <- calcular_media_muestral_exp(100)
# Crear data frames para graficar
df_exp_n5 <- data.frame(Media = medias_exp_n5, Tamaño = "n = 5")
df_exp_n30 <- data.frame(Media = medias_exp_n30, Tamaño = "n = 30")
df_exp_n100 <- data.frame(Media = medias_exp_n100, Tamaño = "n = 100")
# Combinar los data frames
df_distribucion_exp <- bind_rows(df_exp_n5, df_exp_n30, df_exp_n100)
# Graficar
ggplot(df_distribucion_exp, aes(x = Media, fill = Tamaño)) +
geom_histogram(bins = 30, alpha = 0.7, position = "identity") +
facet_wrap(~ Tamaño, scales = "free_y") +
labs(title = "Distribución de Medias Muestrales (Distribución Exponencial)",
x = "Media Muestral", y = "Frecuencia") +
theme_minimal()
Consideremos una población normal, pero ahora asumamos que no conocemos la desviación estándar poblacional. Utilizaremos la distribución t de Student para la inferencia.
set.seed(123)
# Función para calcular la media muestral con la distribución t
calcular_media_muestral_t <- function(n, num_simulaciones = 1000) {
replicate(num_simulaciones, {
muestra <- rnorm(n, mean = 50, sd = 10)
media <- mean(muestra)
error_est <- sd(muestra) / sqrt(n)
media + qt(c(0.025, 0.975), df = n-1) * error_est
})
}
# Simulaciones con diferentes tamaños de muestra
medias_t_n5 <- calcular_media_muestral_t(5)
medias_t_n30 <- calcular_media_muestral_t(30)
medias_t_n100 <- calcular_media_muestral_t(100)
# Crear data frames para graficar
df_t_n5 <- data.frame(Media = apply(medias_t_n5, 2, mean), Tamaño = "n = 5")
df_t_n30 <- data.frame(Media = apply(medias_t_n30, 2, mean), Tamaño = "n = 30")
df_t_n100 <- data.frame(Media = apply(medias_t_n100, 2, mean), Tamaño = "n = 100")
# Combinar los data frames
df_distribucion_t <- bind_rows(df_t_n5, df_t_n30, df_t_n100)
# Graficar
ggplot(df_distribucion_t, aes(x = Media, fill = Tamaño)) +
geom_histogram(bins = 30, alpha = 0.7, position = "identity") +
facet_wrap(~ Tamaño, scales = "free_y") +
labs(title = "Distribución de Medias Muestrales (Distribución t de Student)",
x = "Media Muestral", y = "Frecuencia") +
theme_minimal()
Analizaremos la distribución de la media muestral de una distribución uniforme entre \([0, 1]\).
set.seed(123)
# Función para calcular la media muestral
calcular_media_muestral_uniforme <- function(n, num_simulaciones = 1000) {
replicate(num_simulaciones, mean(runif(n, min = 0, max = 1)))
}
# Simulaciones con diferentes tamaños de muestra
medias_unif_n5 <- calcular_media_muestral_uniforme(5)
medias_unif_n30 <- calcular_media_muestral_uniforme(30)
medias_unif_n100 <- calcular_media_muestral_uniforme(100)
# Crear data frames para graficar
df_unif_n5 <- data.frame(Media = medias_unif_n5, Tamaño = "n = 5")
df_unif_n30 <- data.frame(Media = medias_unif_n30, Tamaño = "n = 30")
df_unif_n100 <- data.frame(Media = medias_unif_n100, Tamaño = "n = 100")
# Combinar los data frames
df_distribucion_unif <- bind_rows(df_unif_n5, df_unif_n30, df_unif_n100)
# Graficar
ggplot(df_distribucion_unif, aes(x = Media, fill = Tamaño)) +
geom_histogram(bins = 30, alpha = 0.7, position = "identity") +
facet_wrap(~ Tamaño, scales = "free_y") +
labs(title = "Distribución de Medias Muestrales (Distribución Uniforme)",
x = "Media Muestral", y = "Frecuencia") +
theme_minimal()
En este ejercicio, calcularemos intervalos de confianza para la media de una población normal utilizando muestras aleatorias y aplicando la distribución t de Student debido a la desconocida desviación estándar poblacional.
set.seed(123)
# Función para calcular la media muestral utilizando la distribución t
calcular_media_muestral_t <- function(n, num_simulaciones = 1000) {
replicate(num_simulaciones, {
muestra <- rnorm(n, mean = 100, sd = 15) # Población normal con media 100 y sd desconocida
mean(muestra)
})
}
# Simulaciones con diferentes tamaños de muestra
medias_t_n5 <- calcular_media_muestral_t(5)
medias_t_n30 <- calcular_media_muestral_t(30)
medias_t_n100 <- calcular_media_muestral_t(100)
# Crear data frames para graficar
df_t_n5 <- data.frame(Media = medias_t_n5, Tamaño = "n = 5")
df_t_n30 <- data.frame(Media = medias_t_n30, Tamaño = "n = 30")
df_t_n100 <- data.frame(Media = medias_t_n100, Tamaño = "n = 100")
# Combinar los data frames
df_distribucion_t <- bind_rows(df_t_n5, df_t_n30, df_t_n100)
# Graficar
ggplot(df_distribucion_t, aes(x = Media, fill = Tamaño)) +
geom_histogram(bins = 30, alpha = 0.7, position = "identity") +
facet_wrap(~ Tamaño, scales = "free_y") +
labs(title = "Distribución de Medias Muestrales (Desviación Estándar Desconocida)",
x = "Media Muestral", y = "Frecuencia") +
theme_minimal()
La distribución de la media muestral es una herramienta fundamental en estadística inferencial, ya que nos permite hacer estimaciones y pruebas de hipótesis sobre la media poblacional a partir de muestras. Las simulaciones y ejercicios en este documento han mostrado varios aspectos clave:
Cuando la desviación estándar poblacional es desconocida, utilizamos la desviación estándar muestral como un estimador, lo que requiere el uso de la distribución t de Student para muestras pequeñas. Esto ajusta la incertidumbre adicional en la estimación del error estándar.
Las simulaciones demuestran cómo las medias muestrales, incluso con una desviación estándar desconocida, se concentran en torno a la media verdadera a medida que aumenta el tamaño de muestra, disminuyendo la varianza de las medias muestrales.
Las simulaciones con diferentes tamaños de muestra (n = 5, 30, 100) ilustran cómo el aumento del tamaño de la muestra reduce la variabilidad en las medias muestrales y hace que la distribución sea más estrecha y simétrica.
Para muestras pequeñas, la variabilidad es mayor, pero se estabiliza conforme aumentan las observaciones, proporcionando inferencias más confiables.
En resumen, las distribuciones muestrales de la media, junto con las herramientas como la distribución t, forman el núcleo del análisis estadístico inferencial. Nos permiten extrapolar conclusiones sobre una población completa basándonos en la observación de muestras, lo cual es vital para la toma de decisiones basada en datos.