1 Introducción y Objetivo

El presente informe tiene como propósito demostrar empíricamente la Ley de los Grandes Números (LGN) mediante la simulación de muestras aleatorias en R. Se evalúa cómo el promedio muestral \(\bar{X}_n\) converge hacia la esperanza teórica \(E[X] = \mu\) a medida que el tamaño de muestra \(n\) crece desde una pequeña decena (\(n=10\)) hasta una decena de millar (\(n=10\,000\)).

Se trabajan dos fenómenos aleatorios extraídos de contextos reales documentados en la literatura:

Variable	Naturaleza	Distribución	Parámetros	Contexto aplicado
X₁	Discreta	Poisson	\(\lambda = 4.3\)	Admisiones hospitalarias por hora
X₂	Continua	Gamma	\(\alpha=3,\;\beta=0.5\)	Tiempo de respuesta logístico (días)

Fuente de parametrización: - X₁ — Poisson: Parámetro \(\lambda = 4.3\) admisiones/hora adaptado de los datos de urgencias reportados en: Asplin, B. R. et al. (2003). “A conceptual model of emergency department crowding.” Annals of Emergency Medicine, 42(2), 173-180. - X₂ — Gamma: Parámetros \(\alpha=3, \beta=0.5\) (media = 6 días) calibrados a partir de: Sheffi, Y. (2005). “The Resilient Enterprise.” MIT Press — modelos de tiempo de recuperación logística ante disrupciones.

2 Marco Teórico

2.1 Ley de los Grandes Números (LGN)

Sea \(X_1, X_2, \ldots, X_n\) una muestra aleatoria i.i.d. con \(E[X] = \mu\).

LGN Débil: Para cualquier \(\varepsilon > 0\): \[\lim_{n \to \infty} P\left(|\bar{X}_n - \mu| > \varepsilon\right) = 0\]

LGN Fuerte: \[P\!\left(\lim_{n \to \infty} \bar{X}_n = \mu\right) = 1\]

El gráfico de convergencia es la representación empírica de este principio: la trayectoria del promedio acumulado \(\bar{X}_n = \frac{1}{n}\sum_{i=1}^{n} X_i\) debe aplanarse sobre \(\mu\) a medida que \(n\) crece.

2.2 Teorema del Límite Central (TLC)

El TLC garantiza que, para \(n\) suficientemente grande: \[\bar{X}_n \xrightarrow{d} N\!\left(\mu,\; \frac{\sigma}{\sqrt{n}}\right)\]

Esto explica por qué el histograma de las medias muestrales adquiere forma de campana de Gauss a pesar de que la distribución original sea asimétrica.

3 Justificación de la Simulación

3.1 ¿Por qué simular en lugar de muestrear directamente?

En la práctica profesional, recolectar muestras reales de los fenómenos descritos presenta restricciones severas:

Para X₁ (Admisiones hospitalarias):

El registro de flujo real en urgencias requiere acceso institucional restringido (privacidad de datos de pacientes — normativa HIPAA/GDPR).
Las tasas de llegada varían estacionalmente; asumir un \(\lambda\) estable solo es válido en ventanas temporales acotadas.
No es posible “escalar” el experimento: si el investigador necesita \(n = 10\,000\) horas de observación, eso equivale a más de un año continuo de recopilación de datos.

Para X₂ (Tiempo de respuesta logístico):

Los tiempos de recuperación ante disrupciones son eventos raros; la muestra empírica disponible es naturalmente pequeña.
La distribución Gamma con parámetros extremos exhibe alta asimetría positiva, haciendo que el TLC converja lentamente sin un \(n\) grande.
Construir un piloto con \(n = 10\) observaciones reales podría tardar años y costar millones.

La simulación por Montecarlo resuelve estas restricciones generando una “infraestructura de datos sintéticos” que replica fielmente la distribución teórica, permitiendo explorar el comportamiento del estimador para cualquier \(n\) de forma instantánea y reproducible.

4 Variable Discreta: Poisson (\(\lambda = 4.3\))

4.1 Definición

\[X_1 \sim \text{Poisson}(\lambda = 4.3) \qquad P(X=k) = \frac{e^{-\lambda}\lambda^k}{k!}, \quad k = 0,1,2,\ldots\]

\[E[X_1] = \lambda = 4.3 \qquad \text{Var}(X_1) = \lambda = 4.3\]

4.2 Gráficos Integrados por Tamaño de Muestra

Cada panel muestra simultáneamente: el histograma (frecuencia relativa), la FMP teórica (puntos rojos) y la línea de referencia \(E[X] = 4.3\) (línea verde).

set.seed(2026)
lambda_p  <- 4.3
mu_p      <- lambda_p
tamanios  <- c(10, 50, 100, 1000, 10000)
etiquetas <- c("n = 10", "n = 50", "n = 100", "n = 1 000", "n = 10 000")

par(mfrow = c(3, 2), mar = c(4.5, 4.5, 3.5, 1.5), oma = c(0, 0, 3, 0))

for (i in seq_along(tamanios)) {
  n   <- tamanios[i]
  obs <- rpois(n, lambda = lambda_p)
  
  # Histograma de frecuencias relativas
  h <- hist(obs, breaks = seq(-0.5, max(obs) + 0.5, by = 1),
            freq   = FALSE,
            col    = "#B0C4DE",
            border = "white",
            main   = etiquetas[i],
            xlab   = "Número de admisiones (k)",
            ylab   = "Probabilidad / Densidad",
            las    = 1,
            cex.main = 1.15,
            ylim   = c(0, max(dpois(0:max(obs), lambda_p)) * 1.35))
  
  # FMP teórica superpuesta
  x_teorico <- 0:max(obs)
  points(x_teorico, dpois(x_teorico, lambda_p),
         pch = 19, col = "firebrick", cex = 1.2)
  lines(x_teorico, dpois(x_teorico, lambda_p),
        col = "firebrick", lwd = 1.5, lty = 2)
  
  # Línea de referencia E[X]
  abline(v = mu_p, col = "darkgreen", lwd = 2.5, lty = 1)
  
  # Media muestral observada
  abline(v = mean(obs), col = "darkorange", lwd = 2, lty = 2)
  
  # Leyenda
  legend("topright",
         legend = c("FMP Teórica", paste0("E[X] = ", mu_p),
                    paste0("X̄ = ", round(mean(obs), 3))),
         col    = c("firebrick", "darkgreen", "darkorange"),
         lty    = c(2, 1, 2), pch = c(19, NA, NA),
         lwd    = 2, cex = 0.82, bg = "white")
}

# Panel vacío + título general
plot.new()
mtext("Poisson(λ = 4.3) — Convergencia del histograma muestral a la FMP teórica",
      outer = TRUE, cex = 1.1, font = 2, col = "#2c3e50")

4.3 Gráfico de Convergencia Estocástica (LGN)

set.seed(2026)
N_max   <- 10000
muestra_grande <- rpois(N_max, lambda = lambda_p)
prom_acum      <- cumsum(muestra_grande) / seq_along(muestra_grande)

par(mar = c(5, 5, 4, 2))
plot(prom_acum, type = "l", col = "#1a5276", lwd = 1.8,
     log  = "x",
     main = "Convergencia Estocástica — Poisson(λ = 4.3)\nDemostración empírica de la LGN",
     xlab = "Tamaño de muestra acumulado (n) — escala log",
     ylab = expression(bar(X)[n] ~ "(Promedio acumulado)"),
     las  = 1, cex.main = 1.1)

# Línea teórica E[X]
abline(h   = mu_p, col = "firebrick", lwd = 2.2, lty = 2)

# Bandas de referencia ±0.1
abline(h = mu_p + 0.2, col = "gray60", lwd = 1, lty = 3)
abline(h = mu_p - 0.2, col = "gray60", lwd = 1, lty = 3)

# Marcadores de los cortes de n
cortes_n <- c(10, 50, 100, 1000, 10000)
for (nc in cortes_n) {
  abline(v = nc, col = "#aab7b8", lwd = 1, lty = 3)
  text(nc, max(prom_acum) * 0.985, labels = paste0("n=", nc),
       col = "#555555", srt = 90, adj = 1, cex = 0.75)
}

legend("topright",
       legend = c(expression(bar(X)[n] ~ "simulado"),
                  expression(E*"[X] = " * lambda == 4.3),
                  "Banda ±0.2"),
       col  = c("#1a5276", "firebrick", "gray60"),
       lwd  = c(1.8, 2.2, 1),
       lty  = c(1, 2, 3),
       cex  = 0.9, bg = "white")

4.4 Análisis de Convergencia — Variable Discreta

Tabla 1. Convergencia de la media muestral Poisson hacia E[X] = 4.3
n	Media.Muestral	E.X..Teórico	Error.Absoluto
10	3.8000	4.3	0.4000
50	3.7800	4.3	0.0800
100	4.0700	4.3	0.4600
1000	4.3540	4.3	0.0350
10000	4.2922	4.3	0.0113

Interpretación técnica:

La tabla y los gráficos evidencian la LGN en el dominio discreto. Con \(n=10\), el promedio muestral puede desviarse considerablemente de \(\mu = 4.3\) debido a la alta varianza relativa del estimador (\(\text{SE} = \sqrt{\lambda/n} \approx 0.655\)). A medida que \(n\) crece, el error estándar decrece proporcionalmente a \(1/\sqrt{n}\), de modo que con \(n=1\,000\) la desviación esperada es inferior a \(0.066\) unidades.

El punto de estabilización visual en el gráfico de convergencia se produce aproximadamente en \(n \approx 500\text{–}800\) iteraciones, donde la línea del promedio acumulado deja de oscilar significativamente alrededor de \(\lambda = 4.3\). Este umbral tiene implicación práctica directa: cualquier estimación de la tasa media de admisiones hospitalarias que se base en menos de 500 horas de registro producirá un estimador inestable, poco confiable para la planificación de recursos hospitalarios.

5 Variable Continua: Gamma (\(\alpha = 3,\; \beta = 0.5\))

5.1 Definición

\[X_2 \sim \text{Gamma}(\alpha = 3,\; \beta = 0.5) \qquad f(x) = \frac{\beta^\alpha}{\Gamma(\alpha)}\, x^{\alpha-1} e^{-\beta x}, \quad x > 0\]

\[E[X_2] = \frac{\alpha}{\beta} = \frac{3}{0.5} = 6 \text{ días} \qquad \text{Var}(X_2) = \frac{\alpha}{\beta^2} = \frac{3}{0.25} = 12\]

5.2 Gráficos Integrados por Tamaño de Muestra

Cada panel muestra: el histograma de densidad, la FDP teórica (curva azul) y la línea de referencia \(E[X] = 6\) días (verde).

set.seed(5313)
alpha_g <- 3
beta_g  <- 0.5
mu_g    <- alpha_g / beta_g   # = 6

par(mfrow = c(3, 2), mar = c(4.5, 4.5, 3.5, 1.5), oma = c(0, 0, 3, 0))

for (i in seq_along(tamanios)) {
  n   <- tamanios[i]
  obs <- rgamma(n, shape = alpha_g, rate = beta_g)
  
  x_lim <- c(0, qgamma(0.995, shape = alpha_g, rate = beta_g))
  
  # Histograma de densidad
  h <- hist(obs, breaks = max(10, round(n / 10)),
            freq   = FALSE,
            col    = "#C8E6C9",
            border = "white",
            main   = etiquetas[i],
            xlab   = "Tiempo de respuesta logístico (días)",
            ylab   = "Densidad",
            las    = 1,
            cex.main = 1.15,
            xlim   = x_lim)
  
  # FDP teórica
  curve(dgamma(x, shape = alpha_g, rate = beta_g),
        from = 0.01, to = x_lim[2],
        add  = TRUE, col = "#1565C0", lwd = 2.2)
  
  # Media muestral observada
  abline(v = mean(obs), col = "darkorange", lwd = 2, lty = 2)
  
  # Línea de referencia E[X]
  abline(v = mu_g, col = "darkgreen", lwd = 2.5, lty = 1)
  
  legend("topright",
         legend = c("FDP Teórica",
                    paste0("E[X] = ", mu_g, " días"),
                    paste0("X̄ = ", round(mean(obs), 3))),
         col  = c("#1565C0", "darkgreen", "darkorange"),
         lty  = c(1, 1, 2),
         lwd  = 2, cex = 0.82, bg = "white")
}

plot.new()
mtext("Gamma(α = 3, β = 0.5) — Convergencia del histograma muestral a la FDP teórica",
      outer = TRUE, cex = 1.1, font = 2, col = "#2c3e50")

5.3 Gráfico de Convergencia Estocástica (LGN)

set.seed(5313)
N_max_g        <- 10000
muestra_gamma  <- rgamma(N_max_g, shape = alpha_g, rate = beta_g)
prom_acum_g    <- cumsum(muestra_gamma) / seq_along(muestra_gamma)

par(mar = c(5, 5, 4, 2))
plot(prom_acum_g, type = "l", col = "#1b5e20", lwd = 1.8,
     log  = "x",
     main = "Convergencia Estocástica — Gamma(α=3, β=0.5)\nDemostración empírica de la LGN",
     xlab = "Tamaño de muestra acumulado (n) — escala log",
     ylab = expression(bar(X)[n] ~ "(días acumulados promedio)"),
     las  = 1, cex.main = 1.1)

abline(h   = mu_g, col = "firebrick", lwd = 2.2, lty = 2)
abline(h   = mu_g + 0.5, col = "gray60", lwd = 1, lty = 3)
abline(h   = mu_g - 0.5, col = "gray60", lwd = 1, lty = 3)

for (nc in cortes_n) {
  abline(v = nc, col = "#aab7b8", lwd = 1, lty = 3)
  text(nc, max(prom_acum_g) * 0.985, labels = paste0("n=", nc),
       col = "#555555", srt = 90, adj = 1, cex = 0.75)
}

legend("topright",
       legend = c(expression(bar(X)[n] ~ "simulado"),
                  "E[X] = 6 días",
                  "Banda ±0.5"),
       col  = c("#1b5e20", "firebrick", "gray60"),
       lwd  = c(1.8, 2.2, 1),
       lty  = c(1, 2, 3),
       cex  = 0.9, bg = "white")

5.4 Análisis de Convergencia — Variable Continua

Tabla 2. Convergencia de la media muestral Gamma hacia E[X] = 6 días
n	Media.Muestral	E.X..Teórico	Error.Absoluto
10	7.3907	6	0.7025
50	6.2120	6	0.2090
100	6.3251	6	0.1213
1000	6.0610	6	0.0074
10000	5.9698	6	0.0053

Interpretación técnica:

La distribución Gamma con \(\alpha=3\) exhibe asimetría positiva (\(\text{sesgo} = 2/\sqrt{\alpha} \approx 1.15\)), lo que hace que el TLC converja más lentamente que en distribuciones simétricas. Esto explica la mayor volatilidad del promedio acumulado en las primeras iteraciones. Con \(n=10\), el error estándar teórico es \(\sigma/\sqrt{n} = \sqrt{12}/\sqrt{10} \approx 1.10\) días — un margen inaceptable para la planificación operativa.

El punto de estabilización visual se produce alrededor de \(n \approx 700\text{–}1\,000\), donde la trayectoria se aplana definitivamente sobre \(\mu = 6\) días. En el contexto logístico, esto implica que un gerente de cadena de suministro necesita al menos 1,000 registros históricos de disrupciones para obtener una estimación robusta del tiempo medio de recuperación. Con muestras menores, las decisiones de política de inventario estarían basadas en ruido estocástico.

6 Comparación entre Variables y Síntesis

set.seed(999)
N <- 10000

# Trayectorias de convergencia normalizadas
pois_norm  <- cumsum(rpois(N, lambda_p)) / seq_len(N) / mu_p
gamma_norm <- cumsum(rgamma(N, shape=alpha_g, rate=beta_g)) / seq_len(N) / mu_g

par(mar = c(5, 5.5, 4, 2))
plot(pois_norm, type = "l", col = "#1a5276", lwd = 1.6,
     log  = "x",
     ylim = range(c(pois_norm, gamma_norm)),
     main = "Convergencia comparada: Poisson vs. Gamma\n(Promedio acumulado normalizado respecto a E[X])",
     xlab = "Tamaño de muestra acumulado (n) — escala log",
     ylab = expression(bar(X)[n] / E*"[X]"),
     las  = 1)
lines(gamma_norm, col = "#1b5e20", lwd = 1.6)
abline(h = 1, col = "firebrick", lwd = 2, lty = 2)
abline(h = c(0.95, 1.05), col = "gray70", lty = 3, lwd = 1)

legend("bottomright",
       legend = c("Poisson(λ=4.3)", "Gamma(α=3, β=0.5)", "Convergencia teórica (= 1)"),
       col  = c("#1a5276", "#1b5e20", "firebrick"),
       lwd  = c(1.6, 1.6, 2),
       lty  = c(1, 1, 2), cex = 0.88, bg = "white")

El gráfico normalizado permite comparar la velocidad de convergencia entre ambas distribuciones. Se observa que la variable Poisson converge ligeramente más rápido hacia la unidad que la Gamma, dado que la distribución de Poisson, siendo discreta y con varianza igual a la media, tiene una estructura menos dispersa en términos relativos para los parámetros utilizados. Ambas variables confirman que la LGN opera independientemente del tipo de distribución subyacente.

7 Conclusiones

Verificación empírica de la LGN: En ambas variables, el promedio acumulado \(\bar{X}_n\) converge casi seguramente a \(\mu\) a medida que \(n \to \infty\), validando tanto la forma débil como la fuerte de la LGN.
Punto de estabilización: Para los parámetros estudiados, la estabilización visual robusta se logra aproximadamente en:
- Poisson: \(n \approx 500\text{–}800\)
- Gamma: \(n \approx 700\text{–}1\,000\)
Por debajo de estos umbrales, el estimador es vulnerable a la volatilidad del generador de números pseudoaleatorios.
Rol del TLC: La superposición de la FMP/FDP teórica sobre los histogramas muestrales confirma que, a partir de \(n=100\), la distribución empírica aproxima adecuadamente la distribución teórica. Este es el “suavizamiento” garantizado por el TLC.
Restricciones del muestreo real vs. simulación: Las restricciones de tiempo, costo, acceso y escala hacen que la simulación por Montecarlo sea la única herramienta práctica para alcanzar los tamaños muestrales necesarios para invocar la LGN en contextos de epidemiología hospitalaria y logística empresarial.
Implicación metodológica: La simulación no reemplaza el dato real, sino que actúa como validador previo del diseño estadístico, garantizando que el tamaño de muestra propuesto producirá estimaciones con la precisión requerida para la toma de decisiones.

Demostración Empírica de la Ley de los Grandes Números

Simulación de Muestras Aleatorias en entornos Discreto y Continuo

Estadística — UPEC Posgrado

07 de mayo de 2026