Различия между ЦПТ и Законом больших чисел

Ключевые различия

Закон больших чисел (ЗБЧ) Центральная предельная теорема (ЦПТ)
Что описывает Поведение среднего значения выборки Форму распределения среднего значения выборки
Основной вывод Среднее выборки сходится к математическому ожиданию Среднее выборки имеет нормальное распределение
Фокус Точечная сходимость Распределение
Применение Предсказание долгосрочных средних результатов Построение доверительных интервалов и проверка гипотез

Закон больших чисел (ЗБЧ)

Суть: При увеличении размера выборки, выборочное среднее стремится к теоретическому математическому ожиданию (сходится по вероятности).

Формально: Для последовательности независимых и одинаково распределенных случайных величин \(X_1, X_2, \ldots, X_n\) с математическим ожиданием \(\mu\), выборочное среднее \(\bar{X}_n = \frac{1}{n}\sum_{i=1}^{n}X_i\) сходится по вероятности к \(\mu\) при \(n \to \infty\):

\[\lim_{n \to \infty} P(|\bar{X}_n - \mu| < \varepsilon) = 1 \text{ для любого } \varepsilon > 0\]

Ключевой момент: ЗБЧ говорит только о том, что среднее значение в конечном итоге “успокоится” около истинного значения, но не о скорости или форме этой сходимости.

Центральная предельная теорема (ЦПТ)

Суть: При увеличении размера выборки, распределение выборочного среднего стремится к нормальному распределению, независимо от формы исходного распределения.

Формально: Для последовательности независимых и одинаково распределенных случайных величин \(X_1, X_2, \ldots, X_n\) с математическим ожиданием \(\mu\) и конечной дисперсией \(\sigma^2\), стандартизированное выборочное среднее сходится по распределению к стандартному нормальному распределению при \(n \to \infty\):

\[\sqrt{n}\frac{\bar{X}_n - \mu}{\sigma} \xrightarrow{d} N(0,1)\]

Ключевой момент: ЦПТ дает нам информацию о форме распределения средних и позволяет делать вероятностные выводы.

Визуальная демонстрация

Давайте смоделируем эти теоремы на примере имитации бросания игральной кости.

# Функция для генерации среднего значения выборки
generate_sample_means <- function(dist_type, sample_size, num_samples) {
  if (dist_type == "dice") {
    # Моделирование бросков игральной кости (равномерное от 1 до 6)
    samples <- matrix(sample(1:6, sample_size * num_samples, replace = TRUE), 
                     nrow = num_samples, ncol = sample_size)
  } else if (dist_type == "exponential") {
    # Экспоненциальное распределение со средним = 1
    samples <- matrix(rexp(sample_size * num_samples, rate = 1), 
                     nrow = num_samples, ncol = sample_size)
  } else if (dist_type == "bimodal") {
    # Бимодальное распределение (смесь двух нормальных)
    samples <- matrix(ifelse(runif(sample_size * num_samples) > 0.5, 
                            rnorm(sample_size * num_samples, mean = -2, sd = 1),
                            rnorm(sample_size * num_samples, mean = 2, sd = 1)),
                     nrow = num_samples, ncol = sample_size)
  }
  
  # Вычисление среднего для каждой выборки
  sample_means <- rowMeans(samples)
  
  return(sample_means)
}

# Сгенерируем данные для разных размеров выборки
sample_sizes <- c(1, 2, 5, 10, 30, 100)
num_samples <- 1000

# Демонстрация для бросков игральной кости
dice_results <- lapply(sample_sizes, function(n) {
  sample_means <- generate_sample_means("dice", n, num_samples)
  data.frame(sample_size = n, mean = sample_means)
})

dice_df <- do.call(rbind, dice_results)
dice_df$sample_size <- factor(dice_df$sample_size, levels = sample_sizes)

# Создание графиков для ЗБЧ
set.seed(456)
n_throws <- 500
cumulative_means <- cumsum(sample(1:6, n_throws, replace = TRUE)) / (1:n_throws)
lln_df <- data.frame(
  throw = 1:n_throws,
  mean = cumulative_means,
  theoretical_mean = 3.5
)

# Графики для ЦПТ
p1 <- ggplot(dice_df, aes(x = mean)) +
  geom_histogram(aes(y = ..density..), bins = 30, fill = "skyblue", color = "black", alpha = 0.7) +
  geom_density(color = "red", size = 1) +
  facet_wrap(~sample_size, scales = "free_y", 
             labeller = labeller(sample_size = function(x) paste("n =", x))) +
  labs(title = "Центральная предельная теорема: распределение средних",
       subtitle = "Распределение выборочных средних стремится к нормальному при увеличении n",
       x = "Среднее значение выборки", y = "Плотность") +
  theme_minimal(base_size = 12) +
  theme(plot.title = element_text(hjust = 0.5),
        plot.subtitle = element_text(hjust = 0.5))

# График для ЗБЧ
p2 <- ggplot(lln_df, aes(x = throw, y = mean)) +
  geom_line(size = 1, color = "darkblue") +
  geom_hline(aes(yintercept = theoretical_mean), color = "red", linetype = "dashed", size = 1) +
  annotate("text", x = n_throws*0.8, y = 3.4, label = "μ = 3.5", color = "red", size = 5) +
  labs(title = "Закон больших чисел: сходимость среднего",
       subtitle = "Выборочное среднее сходится к теоретическому при увеличении размера выборки",
       x = "Количество бросков", y = "Накопленное среднее значение") +
  theme_minimal(base_size = 12) +
  theme(plot.title = element_text(hjust = 0.5),
        plot.subtitle = element_text(hjust = 0.5)) +
  ylim(1, 6)

# Вывод графиков
p2

p1

Демонстрация на разных распределениях

Давайте проверим ЦПТ на различных исходных распределениях:

# Функция для создания графиков демонстрации ЦПТ
plot_clt_demo <- function(dist_type, title) {
  sample_sizes <- c(1, 5, 30, 100)
  num_samples <- 2000
  
  results <- lapply(sample_sizes, function(n) {
    sample_means <- generate_sample_means(dist_type, n, num_samples)
    data.frame(sample_size = n, mean = sample_means)
  })
  
  df <- do.call(rbind, results)
  df$sample_size <- factor(df$sample_size, levels = sample_sizes)
  
  ggplot(df, aes(x = mean)) +
    geom_histogram(aes(y = ..density..), bins = 30, fill = "lightgreen", color = "black", alpha = 0.7) +
    geom_density(color = "darkgreen", size = 1) +
    facet_wrap(~sample_size, scales = "free", 
               labeller = labeller(sample_size = function(x) paste("n =", x))) +
    labs(title = title,
         x = "Среднее значение выборки", y = "Плотность") +
    theme_minimal() +
    theme(plot.title = element_text(hjust = 0.5))
}

# Построим графики для разных распределений
p3 <- plot_clt_demo("exponential", "ЦПТ: Экспоненциальное распределение")
p4 <- plot_clt_demo("bimodal", "ЦПТ: Бимодальное распределение")

p3

p4

Практические применения

Закон больших чисел:

  • Страхование: Предсказание общих страховых выплат при большом количестве полисов
  • Азартные игры: Объяснение почему казино всегда выигрывает в долгосрочной перспективе
  • Актуарные расчеты: Оценка долгосрочных рисков и распределения убытков

Центральная предельная теорема:

  • Статистические тесты: Основа для t-тестов и других параметрических методов
  • Доверительные интервалы: Построение интервальных оценок
  • Контроль качества: Оценка вероятности отклонений от стандартов
  • Оценка рисков: Определение вероятности экстремальных событий в финансах и актуарных расчетах

Заключение

Закон больших чисел говорит нам, что в долгосрочной перспективе среднее значение выборки приближается к истинному среднему популяции.

Центральная предельная теорема говорит о том, как распределены эти средние значения, а именно, что они приближаются к нормальному распределению независимо от исходного распределения.

Вместе эти теоремы формируют фундамент современной статистики и теории вероятностей, позволяя делать надежные статистические выводы даже при работе с данными из неизвестных распределений.