Estadística Inferencial

Distribución de la media muestral

Msc. Roberto Trespalacios

Universidad Tecnológica de Bolivar

2024-01-29

Tabla de contenido

  • Distribución de la media muestral
    • Ejemplo ilustrativo
    • Distribución de la media muestral
    • Teorema del límite central
    • La distribución normal
    • Ejemplos

Distribución de la media muestral

En estadística, la distribución muestral es lo que resulta de considerar todas las muestras posibles que pueden ser tomadas de una población.

  • Su estudio permite calcular la probabilidad que se tiene, dada una sola muestra, de acercarse al parámetro de la población.
  • Mediante la distribución muestral se puede estimar el error para un tamaño de muestra dado.

Ejemplo Ilustrativo - muestra tamaño 1

Consideremos la variable aleatoria \(\Rightarrow\) \(X\): edad de hermanos de una familia, en años y además, sean:

  1. Tamaño de la población: \(\Rightarrow\) \(N = 4\).
  2. Espacio muestral \(\Rightarrow\) \(E_X = \{2, 4, 6, 8\}\).
  3. Muestreo \(\Rightarrow\) aleatorio simple con reemplazo.

Tabla de la distribución de la población(muestra)

library(gtools)

x= c(2,4,6,8)
muestra1 = permutations(4, 1, x, repeats.allowed = TRUE)
n = nrow(muestra1)
px = rep(1/n, 4)
df1 <- data.frame(x = factor(x), px)

names(df1) <- c("$x_1$","$p(x)$")
knitr::kable(df1, "pipe")

Los parámetros: media \(\mu\) y varianza \(\sigma^2\) son respectivamente.

mean(muestra1)
sum((x-mean(x))^2*c(0.25,0.25,0.25,0.25))
  • Esperanza: \(\mu_x = 5\)
  • Varianza: \(\sigma_x^2 =5\)
library(ggplot2)

ggplot(data = df1, aes(x = x, y = px)) +
  geom_bar(stat="identity", color ="black", fill="lightblue") +
  labs(title = "Gráfico de barras", 
       x = "Edad", 
       y = "Probabilidad") +
  theme(plot.title = element_text(hjust = 0.5), 
        legend.position = "none")

Ejemplo Ilustrativo - muestra tamaño 2

Ahora, tomemos muestras de tamaño 2, con reposición. Es decir,

  • Cada muestra es de la forma \((x_1 , x_2)\), donde: \(x_i\) es el \(i\)-ésimo elemento de la muestra.

Consideremos la variable aleatoria \(\Rightarrow\) \(X\): edad de cada hermanos de una familia, en años y además, sean:

  1. Tamaño de la población: \(\Rightarrow\) \(N = 4\).
  2. Espacio muestral \(\Rightarrow\) \(E_X = \{2, 3, 4, 5, 6, 7, 8\}\).
  3. Muestreo \(\Rightarrow\) aleatorio simple con reemplazo.

Sea \(\bar{x}\) el promedio y \(s^2\) la varianza de la muestra por fila.

muestra2 = permutations(4, 2, x, repeats.allowed = TRUE)
n = nrow(muestra2)
df2 = data.frame(x1 = muestra2[,1], x2 = muestra2[,2], xbar = rowMeans(muestra2))
dfm2 = df2
names(dfm2) <- c("$x_1$","$x_2$","$\\bar{x}$")
knitr::kable(dfm2, "pipe")

Distribución de la media muestral (\(n=2\))

Consideramos ahora una nueva variable aleatoria \(\bar{x}\): edad promedio de 2 hermanos elegidos al azar de entre los 4, con reposición.

  • Con dos muestras, la nueva variable \(\bar{x}\), tiene los siguientes elementos:
  1. Tamaño de la población: \(\Rightarrow\) \(N = 4\).
  2. Espacio muestral \(\Rightarrow\) \(E_X = \{2, 3, 4, 5, 6, 7, 8\}\).
  3. Muestreo \(\Rightarrow\) aleatorio simple con reemplazo. (M.a.s.r)

Tabla de distribución (\(n=2\))

dfp2 = data.frame(table(df2$xbar))
dfp2 = data.frame(x = round(as.numeric(levels(dfp2$Var1)),4), p = dfp2$Freq/n) 
dfp2t = dfp2
names(dfp2) <- c("$\\bar{x}$", "$p(x)$")
knitr::kable(dfp2, "pipe")

Esperanza y varianza de la distribución de \(\bar{x}\) para \(n=2\)

sum((dfp2t$x-mean(dfp2t$x))^2*dfp2t$p)
  • Esperanza: \(\mu_{x_i} = 5\)
  • Varianza: \(\sigma_{x_i}^2 =2.5\)

Gráfico de la distribución (\(n=2\))

library(ggplot2)

ggplot(data = dfp2t, aes(x = x, y = p)) +
  geom_bar(stat="identity", color ="black", fill="lightblue") +
  labs(title = "Gráfico de barras", 
       x = "Promedio de edad", 
       y = "Probabilidad") +
  theme(plot.title = element_text(hjust = 0.5), 
        legend.position = "none")

Ejemplo Ilustrativo - muestra tamaño 3

Ahora, tomemos muestras de tamaño 3 con reposición. Es decir, cada muestra (\(n=3\)), es de la forma \((x_1 , x_2, x_3)\), donde: \(x_i\) es el \(i\)-ésimo elemento de la muestra. tenemos:

  1. Tamaño de la población: \(\Rightarrow\) \(N = 4\).
  2. Espacio muestral \(\Rightarrow\) \(E_X = \{2, 3, 4, 5, 6, 7, 8\}\).
  3. Muestreo \(\Rightarrow\) aleatorio simple con reemplazo.

Obtenemos las distribuciones de los promedios que mostramos a continuación, acompañadas de las gráficas respectivas:

muestra3 = permutations(4, 3, x, repeats.allowed = TRUE)
n = nrow(muestra3)
df3 = data.frame(x1 = muestra3[,1], x2 = muestra3[,2], x3 = muestra3[,3], xbar = rowMeans(muestra3))
dfp3 = data.frame(table(df3$xbar))
dfp3 = data.frame(x = round(as.numeric(levels(dfp3$Var1)),4), p = round(dfp3$Freq/n,4))
dfp3t = dfp3
names(dfp3) <- c("$\\bar{x}$", "$p(x)$")
knitr::kable(dfp3, "pipe")

Esperanza y varianza de la distribución (\(n=3\))

mean(dfp3t$x)
sum((dfp3t$x-mean(dfp3t$x))^2*dfp3t$p)
  • Esperanza: \(\mu_{x_i} = 5\)
  • Varianza: \(\sigma_{x_i}^2 =1.66\)

Nota: Notemos que el promedio muestral es también una variable aleatoria.

Gráfico de la distribución (\(n=3\))

library(ggplot2)

ggplot(data = dfp3t, aes(x = factor(x), y = p)) +
  geom_bar(stat="identity", color ="black", fill="lightblue") +
  labs(title = "Gráfico de barras", 
       x = "Promedio de edad", 
       y = "Probabilidad") +
  theme(plot.title = element_text(hjust = 0.5), 
        legend.position = "none")

Ejemplo Ilustrativo - muestra tamaño 4

Ahora, tomemos muestras de tamaño 4 con reposición. Es decir, cada muestra (\(n=4\)), es de la forma \((x_1 , x_2, x_3, x_4)\), donde: \(x_i\) es el \(i\)-ésimo elemento de la muestra. Tenemos:

  1. Tamaño de la población: \(\Rightarrow\) \(N = 4\).
  2. Espacio muestral \(\Rightarrow\) \(\small E_X=\{2, 2.5,3, 3.5, 4,4.5, 5, 5.5,6,6.5,7,7.5, 8\}\)
  3. Muestreo \(\Rightarrow\) aleatorio simple con reemplazo.

La distribución de medias es:

muestra4 = permutations(4, 4, x, repeats.allowed = TRUE)
n = nrow(muestra4)
df4 = data.frame(x1 = muestra4[,1], x2 = muestra4[,2], x3 = muestra4[,3], x4 = muestra4[,4], xbar = rowMeans(muestra4))
dfp4 = data.frame(table(df4$xbar))
dfp4 = data.frame(x = round(as.numeric(levels(dfp4$Var1)),4), p = round(dfp4$Freq/n,4))
dfp4t = dfp4
names(dfp4) <- c("$\\bar{x}$", "$p(x)$")
knitr::kable(dfp4, "pipe")

Esperanza y varianza de la distribución (\(n=4\))

mean(dfp4t$x)
sum((dfp4t$x-mean(dfp4t$x))^2*dfp4t$p)
  • Esperanza: \(\mu_{x_i} = 5\)
  • Varianza: \(\sigma_{x_i}^2 =1.25\)

Nota: Notemos que el promedio muestral es también una variable aleatoria.

Gráfico de la distribución (\(n=4\))

library(ggplot2)

ggplot(data = dfp4t, aes(x = factor(x), y = p)) +
  geom_bar(stat="identity", color ="black", fill="lightblue") +
  labs(title = "Gráfico de barras", 
       x = "Promedio de edad", 
       y = "Probabilidad") +
  theme(plot.title = element_text(hjust = 0.5), 
        legend.position = "none")

Ejemplo Ilustrativo - muestra tamaño 5

Ahora, tomemos muestras de tamaño 5 con reposición. Es decir, cada muestra (\(n=5\)), es de la forma \((x_1 , x_2, x_3, x_4, x_5)\), donde: \(x_i\) es el \(i\)-ésimo elemento de la muestra. Tenemos:

  1. Tamaño de la población: \(\Rightarrow\) \(N = 4\).
  2. Espacio muestral \(\Rightarrow\) \(\tiny E_X=\{2.0,2.4,2.8,3.2,3.6,4.0,4.4,4.8,5.2,5.6,6.0,6.4,6.8,7.2,7.6,8.0\}\)
  3. Muestreo \(\Rightarrow\) aleatorio simple con reemplazo.

La distribución de medias es:

muestra5 = permutations(4, 5, x, repeats.allowed = TRUE)
n = nrow(muestra5)
df5 = data.frame(x1 = muestra5[,1], x2 = muestra5[,2], x3 = muestra5[,3], 
                 x4 = muestra5[,4], x5 = muestra5[,5], xbar = rowMeans(muestra5))
dfp5 = data.frame(table(df5$xbar))
dfp5 = data.frame(x = round(as.numeric(levels(dfp5$Var1)),4), p = round(dfp5$Freq/n,4))
dfp5t = dfp5
names(dfp5) <- c("$\\bar{x}$", "$p(x)$")
knitr::kable(dfp5, "pipe")

Esperanza y varianza de la distribución (\(n=4\))

mean(dfp5t$x)
sum((dfp5t$x-mean(dfp5t$x))^2*dfp5t$p)
  • Esperanza: \(\mu_{x_i} = 5\)
  • Varianza: \(\sigma_{x_i}^2 =1.00032\)

Nota: Notemos que el promedio muestral es también una variable aleatoria.

Gráfico de la distribución (\(n=5\))

library(ggplot2)

ggplot(data = dfp5t, aes(x = factor(x), y = p)) +
  geom_bar(stat="identity", color ="black", fill="lightblue") +
  labs(title = "Gráfico de barras", 
       x = "Promedio de edad", 
       y = "Probabilidad") +
  theme(plot.title = element_text(hjust = 0.5), 
        legend.position = "none")

Distribución de la media muestral - conclusiones

Vemos que las medias poblacionales se mantienen iguales a 5 (la esperanza matemática de las edades de los 4 hermanos), mientras que las varianzas poblacionales disminuyen su valor a medida que aumenta el tamaño de la muestra.

Media Varianza
Población \(\mu_x=5\) \(\sigma^2_x=5\)
Tamaño de muesta \(\mu_{\bar{x}}\) \(\sigma^2_{\bar{x}} = \frac{\sigma^2_x}{n}\)
2 5 2.5
3 5 1.667
4 5 1.25
5 5 1
Al considerar la distribución de los valores tomados por el estadístico \(X\) en todas las muestras de un mismo tamaño n de la misma población, obtenemos la distribución muestral de \(\bar{X}\).

La media muestral y su distribución

Teorema

Sea \(X_1,\dots, X_n\) una m.a.s. de una población con media poblacional \(\mu_x\) y varianza poblacional \(\sigma^2_x\). Se define la media muestral como el estadístico:

\[ \bar{X} = \frac{1}{n}\sum_{i=1}^n X_i \]

entonces, la distribución de la media muestral \(\bar{X}\), tiene

\[\begin{align*} \text{Media: } E[\bar{X}]&=\mu_{\bar{x}} =\mu_x, \\ \text{Varianza: } Var[\bar{X}]&=\sigma^2_{\bar{x}} =\frac{\sigma^2_x}{n} \end{align*}\]

Teorema del límite central

Teorema del límite central

Dada una muestra aleatoria simple \(x_1,x_2,\dots, x_n\) de tamaño \(n\) obtenida de una variable aleatoria \(X\) con media \(\mu\) y varianza \(\sigma^2\), se cumple que

\[ Z = \frac{\bar{X}-\mu}{\frac{\sigma}{\sqrt{n}}} \sim N(0,1), \qquad \text{ cuando } n \rightarrow \infty \]

Observación

En la práctica, para aplicar el teorema del límite central, debe estandarizarse la variable \(\bar{X}\); es decir, si \(X\) tiene media poblacional \(\mu_x\) y varianza poblacional \(\sigma^2_x\), entonces

\[ Z = \frac{\bar{X}-\mu_{\bar{x}}}{\frac{\sigma_{\bar{x}}}{\sqrt{n}}}= \frac{\bar{X}-\mu_x}{\frac{\sigma_x}{\sqrt{n}}} \sim N(0,1) \]

Media muestral: Distrubución normal

Distribución de la media muestral

Ejemplo 1

Considérese una población en la que se estudia la variable \(X\): “peso de los niños de 2 años en una ciudad de Colombia”. Se sabe el peso sigue una distribución normal de media \(\mu=12\) y varianza \(\sigma^2=16\). Se pide:

  1. Probabilidad de que un niño de esa población, elegido al azar, tenga un peso superior a 14.
  2. Considérese una muestra aleatoria de tamaño \(n = 9\). ¿Cuál es la probabilidad de que la media muestral \(X\) tenga un valor superior a 14?

Ejemplo 2

En un servicio de atención al cliente, el tiempo de espera hasta recibir atención es una variable normal de media 10 minutos y desviación típica 2 minutos. Se toman muestras aleatorias del tiempo de espera de los clientes que llegan un día concreto. Se pide:

  1. ¿Cuál es la probabilidad de que el tiempo medio de espera de una muestra de 25 clientes no supere los 9 minutos?
  2. ¿Cuál es la distribución de la media muestral, si se toman muestras aleatorias de 64 clientes? Especificar sus parámetros.
  3. ¿Cuál es la probabilidad de que la tiempo medio de espera de una muestra de 16 clientes, esté comprendida entre 8 y 13 minutos?.

Ejemplo 3

Se supone que los resultados de un examen siguen una distribución normal con media 78 y desviación típica 36. Se pide:

  1. ¿Cuál es la probabilidad de que una persona que se presenta el examen obtenga una calificación superior a 72?
  2. Calcular la proporción de estudiantes que tienen puntuaciones que exceden por lo menos en cinco puntos de la puntuación que marca la frontera entre el Apto y el No-Apto (son declarados No-Aptos el 25% de los estudiantes que obtuvieron las puntuaciones más bajas)
  3. Si se sabe que la calificación de un estudiante es mayor que 72, ¿cuál es la probabilidad de que su calificación sea, de hecho, superior a 84?