1 Introducción

La Ley de los Grandes Números (LGN) constituye uno de los pilares fundamentales de la teoría de probabilidad y de la inferencia estadística. Esta ley establece que, a medida que el tamaño de una muestra aumenta, la media muestral converge progresivamente hacia el valor esperado poblacional.

En el contexto del análisis deportivo moderno, particularmente en el fútbol profesional, la utilización de modelos probabilísticos permite comprender fenómenos asociados al rendimiento ofensivo, generación de oportunidades y comportamiento táctico de los equipos.

El presente trabajo desarrolla una simulación Monte Carlo aplicada al desempeño ofensivo del Manchester City, equipo reconocido por sus altos niveles de posesión, precisión táctica y volumen ofensivo. Para ello se utilizan dos modelos probabilísticos fundamentales:

La finalidad principal es comprobar empíricamente la Ley de los Grandes Números mediante simulaciones de distintos tamaños muestrales y analizar cómo las medias muestrales convergen hacia los parámetros teóricos conforme aumenta el número de observaciones.

2 Objetivos

2.1 Objetivo General

Comprobar empíricamente la Ley de los Grandes Números mediante simulaciones Monte Carlo aplicadas al rendimiento ofensivo del Manchester City.

2.2 Objetivos Específicos

  • Modelar variables aleatorias discretas y continuas relacionadas con el fútbol profesional.
  • Analizar la convergencia de las medias muestrales hacia los valores esperados teóricos.
  • Comparar el comportamiento probabilístico para distintos tamaños de muestra.
  • Interpretar los resultados desde una perspectiva estadística y deportiva.

3 Fundamentación Teórica

3.1 Ley de los Grandes Números

La Ley de los Grandes Números establece que:

\[ \bar{X}_n \rightarrow \mu \quad \text{cuando} \quad n \rightarrow \infty \]

donde:

  • \(\bar{X}_n\) representa la media muestral.
  • \(\mu\) representa la esperanza matemática o media poblacional.

Esto implica que, mientras mayor sea el número de observaciones, menor será la influencia del azar sobre la estimación de la media.

3.2 Simulación Monte Carlo

La simulación Monte Carlo consiste en generar observaciones aleatorias a partir de distribuciones probabilísticas conocidas para estudiar el comportamiento de sistemas complejos bajo incertidumbre.

En estadística aplicada y analítica deportiva, esta metodología permite:

  • Evaluar escenarios hipotéticos.
  • Analizar riesgos y variabilidad.
  • Aproximar distribuciones teóricas.
  • Estudiar fenómenos donde los datos reales son limitados.

4 Carga de Librerías

# Instalar paquetes solo si es necesario
# install.packages("ggplot2")
# install.packages("gridExtra")
# install.packages("dplyr")

library(ggplot2)
library(gridExtra)
library(dplyr)

5 Configuración Inicial

# Semilla para reproducibilidad
set.seed(5313)

# Tamaños muestrales
n_cortes <- c(10, 50, 100, 1000, 10000)

6 Modelado Probabilístico

7 Variable Aleatoria Discreta

7.1 Número de Disparos a Puerta

Para modelar el número de disparos efectivos realizados por el Manchester City durante un partido se emplea una distribución de Poisson.

7.2 Distribución

\[ X \sim Poisson(\lambda) \]

7.3 Parámetro

\[ \lambda = 7.5 \]

Este valor representa el promedio aproximado de disparos a puerta por partido en temporadas de alta dominancia ofensiva.

7.4 Espacio Muestral

\[ S = \{0,1,2,3,\ldots\} \]

7.5 Justificación del Modelo

La distribución de Poisson resulta adecuada porque:

  • Modela conteos de eventos discretos.
  • Los disparos ocurren en intervalos de tiempo definidos.
  • Representa eventos relativamente raros e independientes.

8 Variable Aleatoria Continua

8.1 Tiempo de Posesión Previo al Disparo

Se modela el tiempo de posesión previo a un remate mediante una distribución Gamma.

8.2 Distribución

\[ X \sim Gamma(\alpha,\beta) \]

8.3 Parámetros

\[ \alpha = 3 \]

\[ \beta = 0.15 \]

8.4 Esperanza Matemática

\[ E(X)=\frac{\alpha}{\beta}=20 \]

Por tanto, el tiempo promedio esperado de posesión ofensiva previo al disparo es de 20 segundos.

8.5 Espacio Muestral

\[ S = \{x \in \mathbb{R} \mid x>0\} \]

8.6 Justificación del Modelo

La distribución Gamma permite modelar tiempos positivos asociados a procesos de acumulación y preparación ofensiva, representando de mejor manera la construcción táctica previa al disparo.

9 Simulación de la Variable Discreta (Poisson)

# Parámetro poblacional
lambda_p <- 7.5

# Generación de gráficos
plots_poisson <- lapply(n_cortes, function(n) {

  # Simulación
  datos <- rpois(n, lambda = lambda_p)

  # Media muestral
  media_muestral <- mean(datos)

  # Data frame
  df <- data.frame(disparos = datos)

  # Histograma
  ggplot(df, aes(x = disparos)) +

    geom_histogram(
      aes(y = after_stat(density)),
      binwidth = 1,
      fill = "steelblue",
      color = "white"
    ) +

    geom_vline(
      xintercept = lambda_p,
      color = "red",
      linetype = "dashed",
      linewidth = 1.2
    ) +

    geom_vline(
      xintercept = media_muestral,
      color = "black",
      linewidth = 1
    ) +

    labs(
      title = paste("Distribución Poisson | n =", n),
      subtitle = paste("Media muestral =", round(media_muestral, 3)),
      x = "Número de disparos",
      y = "Densidad"
    ) +

    theme_minimal(base_size = 12)
})

# Organización de gráficos
grid.arrange(
  grobs = plots_poisson,
  ncol = 2,
  top = "Simulación Monte Carlo - Disparos a Puerta"
)

Los gráficos correspondientes a la distribución de Poisson permiten observar de manera clara el comportamiento de la convergencia estadística planteada por la Ley de los Grandes Números. En los tamaños muestrales pequeños (\(n=10\) y \(n=50\)), la dispersión de los datos es relativamente alta y la media muestral presenta diferencias visibles respecto al parámetro poblacional \(\lambda = 7.5\).

Este fenómeno evidencia la fuerte influencia del componente aleatorio cuando el número de observaciones es reducido. En términos estadísticos, la variabilidad relativa todavía es elevada y las estimaciones presentan menor estabilidad.

Conforme aumenta el tamaño de la muestra (\(n=1000\) y \(n=10000\)), los histogramas adquieren una forma más regular y consistente. La línea negra, correspondiente a la media muestral, converge progresivamente hacia la línea roja que representa el valor esperado teórico. Esta estabilización confirma empíricamente que el promedio de los datos simulados se aproxima al parámetro poblacional conforme crece el número de observaciones.

Desde una perspectiva de analítica deportiva, esto demuestra que evaluar el rendimiento ofensivo de un equipo utilizando pocos partidos puede conducir a interpretaciones sesgadas o poco representativas. El análisis sustentado en grandes volúmenes de datos permite identificar patrones ofensivos más robustos y confiables.

10 Simulación de la Variable Continua (Gamma)

# Parámetros Gamma
alpha_g <- 3
rate_g <- 0.15

# Esperanza teórica
esperanza_g <- alpha_g / rate_g

# Generación de gráficos
plots_gamma <- lapply(n_cortes, function(n) {

  # Simulación
  datos <- rgamma(
    n,
    shape = alpha_g,
    rate = rate_g
  )

  # Media muestral
  media_muestral <- mean(datos)

  # Data frame
  df <- data.frame(tiempo = datos)

  # Histograma
  ggplot(df, aes(x = tiempo)) +

    geom_histogram(
      aes(y = after_stat(density)),
      bins = 30,
      fill = "indianred3",
      color = "white",
      alpha = 0.75
    ) +

    stat_function(
      fun = dgamma,
      args = list(
        shape = alpha_g,
        rate = rate_g
      ),
      color = "blue",
      linewidth = 1.2
    ) +

    geom_vline(
      xintercept = esperanza_g,
      color = "red",
      linetype = "dashed",
      linewidth = 1.2
    ) +

    geom_vline(
      xintercept = media_muestral,
      color = "black",
      linewidth = 1
    ) +

    labs(
      title = paste("Distribución Gamma | n =", n),
      subtitle = paste("Media muestral =", round(media_muestral, 3)),
      x = "Tiempo de posesión (segundos)",
      y = "Densidad"
    ) +

    theme_minimal(base_size = 12)
})

# Organización de gráficos
grid.arrange(
  grobs = plots_gamma,
  ncol = 2,
  top = "Simulación Monte Carlo - Tiempo de Posesión"
)

En los gráficos asociados a la distribución Gamma se observa inicialmente una marcada asimetría positiva, característica típica de variables continuas relacionadas con tiempos de espera y procesos acumulativos. En muestras pequeñas, las medias muestrales fluctúan considerablemente debido a la sensibilidad del modelo frente a valores extremos y a la limitada cantidad de observaciones.

A medida que el tamaño muestral aumenta, la densidad empírica simulada comienza a aproximarse progresivamente a la función teórica Gamma. La media muestral converge hacia la esperanza matemática de 20 segundos, mientras que la forma general de la distribución se vuelve más estable y suave.

Este comportamiento representa de manera adecuada la dinámica ofensiva del Manchester City, caracterizada por secuencias de posesión elaboradas antes de finalizar una jugada. La simulación evidencia que las tendencias tácticas relacionadas con la posesión solo pueden analizarse de forma consistente cuando se dispone de una cantidad suficiente de eventos observados.

11 Interpretación Integral

De manera global, ambas simulaciones muestran cómo la variabilidad aleatoria disminuye conforme aumenta el tamaño de muestra. Los gráficos permiten visualizar empíricamente el proceso de convergencia estadística hacia los parámetros teóricos, validando así el comportamiento establecido por la Ley de los Grandes Números.

La simulación Monte Carlo demuestra además la importancia del tamaño muestral en estudios estadísticos aplicados al deporte profesional. En contextos de toma de decisiones tácticas, scouting y evaluación de rendimiento, trabajar con muestras amplias reduce el impacto del azar y mejora la confiabilidad de las conclusiones analíticas.

12 Tabla Comparativa de Convergencia

# Función para obtener medias muestrales
tabla_resultados <- data.frame(
  n = n_cortes,
  Media_Poisson = sapply(n_cortes, function(n) {
    mean(rpois(n, lambda_p))
  }),
  Media_Gamma = sapply(n_cortes, function(n) {
    mean(rgamma(n, shape = alpha_g, rate = rate_g))
  })
)

# Redondeo
tabla_resultados <- tabla_resultados %>%
  mutate(
    Media_Poisson = round(Media_Poisson, 3),
    Media_Gamma = round(Media_Gamma, 3)
  )

tabla_resultados

13 Interpretación de Resultados

13.1 Variable Discreta

Los resultados muestran que:

  • En muestras pequeñas (\(n=10\) y \(n=50\)), las medias muestrales presentan fluctuaciones importantes respecto al parámetro poblacional.
  • Conforme aumenta el tamaño de muestra, la distribución adquiere una forma más estable.
  • En tamaños grandes (\(n=1000\) y \(n=10000\)), la media converge claramente hacia \(\lambda = 7.5\).

Esto confirma empíricamente la Ley de los Grandes Números para la distribución de Poisson.

13.2 Variable Continua

En la distribución Gamma se observa un comportamiento similar:

  • Las primeras simulaciones presentan elevada variabilidad.
  • A medida que aumenta el número de observaciones, la media muestral se aproxima progresivamente a la esperanza teórica de 20 segundos.
  • La densidad simulada se ajusta cada vez más a la distribución teórica.

13.3 Interpretación Deportiva

Desde una perspectiva de analítica deportiva:

  • Las estadísticas obtenidas en pocos partidos pueden resultar engañosas debido al azar.
  • El análisis basado en muestras grandes permite identificar patrones tácticos más confiables.
  • La simulación Monte Carlo constituye una herramienta útil para la evaluación estratégica del rendimiento ofensivo.

14 Conclusiones

15 Referencias