Закон больших чисел

Возьмём выборки разного размера из нормального распределения со средним значением 168 и стандартным отклонением 2 (можно считать, что мы извлекаем выборки из генеральной совокупности, которая представляет собой набор значений роста женщин в сантиметрах).

Начнём с небольшой выборки в 10 наблюдений. Для этого нам понадобится функция rnorm(), которая используется для генерации случайных (псевдослучайных) выборок из нормального распределения: r— от random, norm — от normal

# на первом месте число наблюдений, далее - параметры распределения
sample1 <- rnorm(10, mean = 168, sd = 2)
sample1
##  [1] 166.7238 170.2445 169.1134 167.7720 166.0348 167.6894 165.1281
##  [8] 171.5504 166.7081 165.2724

У всех выборки будут разные, это нормально, потому что значения выбираются случайно (мы никак не фиксировали стартовую точку алгоритма, чтобы можно было воспроизвести результаты). Построим гистограмму для полученной выборки:

hist(sample1, col = "tomato")

Распределение выборки, хотя она и взята из нормального распределения, на нормальное не похоже. Это обычная история: по маленьким выборкам сложно и даже невозможно определить, из какого распределения они взяты. Однако, чем больше выборка, тем больше она напоминает распределение, которое имеет генеральная совокупность. Проверим! Возьмём выборку объёма 100 и выбоку объёма 1600 из того же нормального распределения.

sample2 <- rnorm(100, mean = 168, sd = 2)
head(sample2)  # head - первые несколько значений
## [1] 170.3875 171.6139 170.9286 171.5948 167.4428 163.9407
hist(sample2, col = "tomato")

sample3 <- rnorm(1600, mean = 168, sd = 2)
head(sample3)
## [1] 164.5301 167.1427 163.5454 170.6361 164.0977 168.4016
hist(sample3, col = "tomato")

Что мы здесь видим? С увеличением размера выборки, её распределение становится более похожим на нормальное, то есть на то распределение, из которого она взята! Теперь посмотрим на выборочные средние:

mean(sample1)
## [1] 167.6237
mean(sample2)
## [1] 168.3621
mean(sample3)
## [1] 167.9752

Среднее самой большой выборки находится ближе других к среднему генеральной совокупности \(\mu = 168\). Это неслучайно. Этот пример — иллюстрация закона больших чисел.

Закон больших чисел

С увеличением размера выборки, среднее значение выборки становится ближе к среднему значению генеральной совокупности

Центральная предельная теорема

Сгенерируем генеральную совокупность, имеющую равномерное распределение, заданное на участке от 0 до 1. В R сгенерировать генеральную совокупность (случайную величину) явно не получится, поэтому просто возьмём выборку очень большого размера, в 10000 наблюдений.

# r - random, unif - uniform
pop <- runif(10000)
hist(pop, col = "tomato")