Закон больших чисел (ЗБЧ) | Центральная предельная теорема (ЦПТ) | |
---|---|---|
Что описывает | Поведение среднего значения выборки | Форму распределения среднего значения выборки |
Основной вывод | Среднее выборки сходится к математическому ожиданию | Среднее выборки имеет нормальное распределение |
Фокус | Точечная сходимость | Распределение |
Применение | Предсказание долгосрочных средних результатов | Построение доверительных интервалов и проверка гипотез |
Суть: При увеличении размера выборки, выборочное среднее стремится к теоретическому математическому ожиданию (сходится по вероятности).
Формально: Для последовательности независимых и одинаково распределенных случайных величин \(X_1, X_2, \ldots, X_n\) с математическим ожиданием \(\mu\), выборочное среднее \(\bar{X}_n = \frac{1}{n}\sum_{i=1}^{n}X_i\) сходится по вероятности к \(\mu\) при \(n \to \infty\):
\[\lim_{n \to \infty} P(|\bar{X}_n - \mu| < \varepsilon) = 1 \text{ для любого } \varepsilon > 0\]
Ключевой момент: ЗБЧ говорит только о том, что среднее значение в конечном итоге “успокоится” около истинного значения, но не о скорости или форме этой сходимости.
Суть: При увеличении размера выборки, распределение выборочного среднего стремится к нормальному распределению, независимо от формы исходного распределения.
Формально: Для последовательности независимых и одинаково распределенных случайных величин \(X_1, X_2, \ldots, X_n\) с математическим ожиданием \(\mu\) и конечной дисперсией \(\sigma^2\), стандартизированное выборочное среднее сходится по распределению к стандартному нормальному распределению при \(n \to \infty\):
\[\sqrt{n}\frac{\bar{X}_n - \mu}{\sigma} \xrightarrow{d} N(0,1)\]
Ключевой момент: ЦПТ дает нам информацию о форме распределения средних и позволяет делать вероятностные выводы.
Давайте смоделируем эти теоремы на примере имитации бросания игральной кости.
# Функция для генерации среднего значения выборки
generate_sample_means <- function(dist_type, sample_size, num_samples) {
if (dist_type == "dice") {
# Моделирование бросков игральной кости (равномерное от 1 до 6)
samples <- matrix(sample(1:6, sample_size * num_samples, replace = TRUE),
nrow = num_samples, ncol = sample_size)
} else if (dist_type == "exponential") {
# Экспоненциальное распределение со средним = 1
samples <- matrix(rexp(sample_size * num_samples, rate = 1),
nrow = num_samples, ncol = sample_size)
} else if (dist_type == "bimodal") {
# Бимодальное распределение (смесь двух нормальных)
samples <- matrix(ifelse(runif(sample_size * num_samples) > 0.5,
rnorm(sample_size * num_samples, mean = -2, sd = 1),
rnorm(sample_size * num_samples, mean = 2, sd = 1)),
nrow = num_samples, ncol = sample_size)
}
# Вычисление среднего для каждой выборки
sample_means <- rowMeans(samples)
return(sample_means)
}
# Сгенерируем данные для разных размеров выборки
sample_sizes <- c(1, 2, 5, 10, 30, 100)
num_samples <- 1000
# Демонстрация для бросков игральной кости
dice_results <- lapply(sample_sizes, function(n) {
sample_means <- generate_sample_means("dice", n, num_samples)
data.frame(sample_size = n, mean = sample_means)
})
dice_df <- do.call(rbind, dice_results)
dice_df$sample_size <- factor(dice_df$sample_size, levels = sample_sizes)
# Создание графиков для ЗБЧ
set.seed(456)
n_throws <- 500
cumulative_means <- cumsum(sample(1:6, n_throws, replace = TRUE)) / (1:n_throws)
lln_df <- data.frame(
throw = 1:n_throws,
mean = cumulative_means,
theoretical_mean = 3.5
)
# Графики для ЦПТ
p1 <- ggplot(dice_df, aes(x = mean)) +
geom_histogram(aes(y = ..density..), bins = 30, fill = "skyblue", color = "black", alpha = 0.7) +
geom_density(color = "red", size = 1) +
facet_wrap(~sample_size, scales = "free_y",
labeller = labeller(sample_size = function(x) paste("n =", x))) +
labs(title = "Центральная предельная теорема: распределение средних",
subtitle = "Распределение выборочных средних стремится к нормальному при увеличении n",
x = "Среднее значение выборки", y = "Плотность") +
theme_minimal(base_size = 12) +
theme(plot.title = element_text(hjust = 0.5),
plot.subtitle = element_text(hjust = 0.5))
# График для ЗБЧ
p2 <- ggplot(lln_df, aes(x = throw, y = mean)) +
geom_line(size = 1, color = "darkblue") +
geom_hline(aes(yintercept = theoretical_mean), color = "red", linetype = "dashed", size = 1) +
annotate("text", x = n_throws*0.8, y = 3.4, label = "μ = 3.5", color = "red", size = 5) +
labs(title = "Закон больших чисел: сходимость среднего",
subtitle = "Выборочное среднее сходится к теоретическому при увеличении размера выборки",
x = "Количество бросков", y = "Накопленное среднее значение") +
theme_minimal(base_size = 12) +
theme(plot.title = element_text(hjust = 0.5),
plot.subtitle = element_text(hjust = 0.5)) +
ylim(1, 6)
# Вывод графиков
p2
Давайте проверим ЦПТ на различных исходных распределениях:
# Функция для создания графиков демонстрации ЦПТ
plot_clt_demo <- function(dist_type, title) {
sample_sizes <- c(1, 5, 30, 100)
num_samples <- 2000
results <- lapply(sample_sizes, function(n) {
sample_means <- generate_sample_means(dist_type, n, num_samples)
data.frame(sample_size = n, mean = sample_means)
})
df <- do.call(rbind, results)
df$sample_size <- factor(df$sample_size, levels = sample_sizes)
ggplot(df, aes(x = mean)) +
geom_histogram(aes(y = ..density..), bins = 30, fill = "lightgreen", color = "black", alpha = 0.7) +
geom_density(color = "darkgreen", size = 1) +
facet_wrap(~sample_size, scales = "free",
labeller = labeller(sample_size = function(x) paste("n =", x))) +
labs(title = title,
x = "Среднее значение выборки", y = "Плотность") +
theme_minimal() +
theme(plot.title = element_text(hjust = 0.5))
}
# Построим графики для разных распределений
p3 <- plot_clt_demo("exponential", "ЦПТ: Экспоненциальное распределение")
p4 <- plot_clt_demo("bimodal", "ЦПТ: Бимодальное распределение")
p3
Закон больших чисел говорит нам, что в долгосрочной перспективе среднее значение выборки приближается к истинному среднему популяции.
Центральная предельная теорема говорит о том, как распределены эти средние значения, а именно, что они приближаются к нормальному распределению независимо от исходного распределения.
Вместе эти теоремы формируют фундамент современной статистики и теории вероятностей, позволяя делать надежные статистические выводы даже при работе с данными из неизвестных распределений.