Лекция 4. Введение в Статистический Вывод
Дархан Медеуов
2023-03-09
Случайная переменная
- Пример: случайным образом выбираем одного студента и фиксируем его
GPA
- Случайная переменная - это случайный процесс с
неизвестным численным результатом
- Мы можем ввести понятие “события” \(\mathbf{X} = x\) or \(\mathbf{X} < 67\)
- И говорить о вероятности событий \(P(\mathbf{X} < 67) = value\)
Вероятностное распределение случайной переменной
- Вероятностное распределение позволяет присваивать вероятности
событиям
- Дискретная С.П.: Probability Mass Function (pmf), \(p_X(x) = P(X = x)\)
- Непрерывная: Probability Density Function (pdf), \(\int_{-\infty}^{\infty}f_X(x)dx = 1\)
- Для обоих: Cumulative Distribution Function (cdf), \(F_X(x) = P(X \leq x) =
\int_{-\infty}^{x}f_X(x)dx\) or \(=\sum_{i \leq x}p_X(i)\)
- Распределение С.П. может характеризоваться
- центром: среднее, медиана
- разбросом: стандартное отклонение, межквартильный размах (IQR)
- Нормальное распределение: \(N(\mu,
\sigma^2)\)
- Симметричное
- Юнимодальное (один пик)
- Много прочих хороших свойств

Параметры нормального распределения
- среднее, \(\mu\)
- дисперсия, \(\sigma^2\)

Правило 3 сигм

Правило 3-х сигм

Z-оценка
- Допустим у нас есть два экзамена
- SAT: \(\mu_{SAT} = 1100, \sigma_{SAT} =
200\)
- UNT: \(\mu_{ENT} = 70, \sigma_{ENT} =
10\)
- Допустим Кайрат набрало \(1300\) по
SAT, а Нуртас - \(100\) по UNT. У кого
лучше результаты?
Z-оценка: Идея

Z-оценка: Определение
Z-оценка: \[
Z = \frac{x - \mu}{\sigma}
\]
- Кайрат: \(\frac{1300 - 1100}{200} =
1\)
- Нуртас: \(\frac{100 - 70}{10} =
3\)
Графики

Стандартизация
- Z-оценка - это число стандартных отклонений от среднего
\[Z = \frac{obs - mean}{sd} = \frac{x -
\mu}{\sigma}\]
Персентили
- Z-оценка позволяет считать персентили
- Персентиль - это процент наблюдений меньше
определенного значения:
\[P(X < x) = \frac{\# observations <
x}{\#observations}\]
- Графический, персентиль соответствует площади под графиком плотности
слева от указанного значения
Как считать персентили в R
pnorm(-1, mean = 0, sd = 1)
## [1] 0.1586553
tibble(x = rnorm(10000, 0, 1)) %>%
ggplot(aes(x)) + geom_density() + geom_vline(xintercept = -1, colour = "red")

Интерпретация z-оценок и персентилей
- Какой процент сдававших опередил Кайрат? \(P(X < 1300) = ?\)
pnorm(1300, mean = 1100, sd = 200)
## [1] 0.8413447
- Какой процент сдававших опередил Нуртас? \(P(X < 100) = ?\)
pnorm(100, mean = 70, sd = 10)
## [1] 0.9986501
Пример
- Некто похвастался, что попал в топ-5% по SAT
- Сколько как минимум баллов он набрал?
\[Z = \frac{x - \mu}{\sigma}\]
## [1] 1428.971
Популяционное и выборочное распределение
- Каков средний рост мужчины в Астане?
- выбираем 100 случайных мужчин, считаем среднее, например: \(\overline{x} = 177.5\)
- берем других 100 случайных мужчин, : \(\overline{x} = 180.5\)
- повторяем несколько раз
- Популяционное распределение - распределение всех наблюдений
- Распределение выборки (sample distribution) - это распределение на
конкретной выборке
- Выборочное распределение (sampling distribution) -
это распределение статистики, посчитанной на выборке от выборке к
выборке
Популяция и выборка
- \(\mu = \frac{x_1 + x_2 + .. +
x_N}{N}\)
- \(\sigma = \frac{\sum(x_i -
\overline{x})^2}{N}\)
- Стандартная ошибка - это стандартное отклонение выборочного
распределения
Центральная Предельная Теорема
Центральная Предельная Теорема: Распределение
выборочных средних приближается к нормальному, с центром на среднем
значении популяции и со стандартным отклонением, равным стандартному
отклонению популяции, деленному на квадратный корень из размера
выборки.
\[
X \sim \textrm{ any distribution with mean and sd: } \mu, \sigma \\
\overline{X} = \frac{1}{n} \sum_{i=1}^{n}X_i \\
\overline{X} \sim N(mean = \mu, SE = \frac{\sigma}{\sqrt{n}})
\]
Пример
- Распределение веса людей в популяции: \(N(\mu = 70, sd = 10)\)
- \(95%\) весов лежит в этих пределах
\(70 \pm 1.96*10 = 70 \pm 19.6\)
- 95%-CI: \((50.4, 89.6)\)
- Берем случайную выборку размером 100, считаем среднее: \(\overline{s}_1 = 71.04\)
- Повторяем процесс: \(s_1 = 71.04, s_2 =
69.92, s_3 = 70.16, ..., s_N = 70.26\)
- Рассмотрим распределение выборочных средних: \(X \sim N(mean = \mu, SE = \frac{\sigma}{ \sqrt{n}
})\)
- \(95%\) выборочных средних лежит в
пределах \(70 \pm 1.96*\frac{10}{\sqrt{100}} =
70 \pm 1.96\)
- 95%-CI: \((68.04, 71.96)\)
Точечная и Интервальные оценки
- Точечная оценка - просто одно число
- \(\overline{x} = 67\). Насколько
вероятно, что это настоящее популяционное среднее?
- \(P(\overline{X} = \mu) = 0\)
- Интервальная оценка, как следует из названия, это интервал
- \(\overline{x} = 67 \pm
погрешность\)
Правило 3-сигм опять
\[\overline{X} \sim N(mean = \mu, SE =
\frac{\sigma}{\sqrt{n}})\]

Пример
В последние недели беременности и в течение первых 6 месяцев после
рождения у людей наблюдается предпочтение поворота головы вправо, а не
влево. Считается, что это влияет на последующее развитие перцептивных и
моторных предпочтений. Исследование 124 пар показало, что 64,5% из них
при поцелуе поворачивали голову вправо. Стандартная ошибка, связанная с
этой оценкой, составляет около 4%. Что из нижеперечисленного является
ложным?
При большем объеме выборки стандартная ошибка будет
меньше.
Погрешность 95%-ного доверительного интервала для процента
целующихся, которые поворачивают голову вправо, составляет примерно
8%.
95%-ный доверительного интервала для процента целующихся, которые
поворачивают голову вправо, составляет приблизительно 64,5% ±
4%.
99,7%-ый доверительный интервал для процента целующихся, которые
поворачивают голову направо, составляет приблизительно 64,5% ±
12%.
Доверительный интервал
- Доверительный интервал для среднего значения
популяции: среднее значение выборки плюс/минус погрешность. \[\bar{x} \pm z^*
\frac{\sigma}{\sqrt{n}}\]
Как считать погрешность
\[\bar{x} \pm z^*
\frac{\sigma}{\sqrt{n}}\]

qnorm(0.5, mean = 0, sd = 1)
## [1] 0
qnorm(0.975, mean = 0, sd = 1)
## [1] 1.959964
qnorm(0.025, mean = 0, sd = 1)
## [1] -1.959964
Доверительный уровень (Confidence Level)
- Предположим, мы взяли много выборок и построили доверительный
интервал по каждой выборке, используя уравнение
\[\bar{x}\pm
1.96*\frac{\sigma}{\sqrt{n}}\]
Мы знаем, что \(X \sim N(\mu,
\frac{\sigma}{\sqrt{n}})\)
Тогда около 95% интервалов построенных таким образом будут
содержать истинное среднее значение популяции \(\mu\)
На практике обычно используются следующие уровни уверенности:
90%, 95%, 98% и 99%.
Доверительный интервал
library(dplyr)
df <- tibble(weights = rnorm(5000, mean = 70, sd = 4))
samples <- lapply(1:1000, function(x) sample(df$weights, 100))
sample_means <- sapply(samples, mean)
temp <- (sample_means - 70) %>% abs()
qnorm(0.975, 0, 1)
## [1] 1.959964
temp2 <- temp > (1.96*4/(sqrt(100)))
table(temp2) %>% prop.table()
## temp2
## FALSE TRUE
## 0.945 0.055
Доверительный интервал
- Если мы хотим быть очень уверенными в том, что мы “захватываем”
параметр популяции, следует ли нам использовать более широкий или более
узкий интервал?

Пример
Общий социальный опрос (ОСС) - это социологический опрос,
используемый для сбора данных о демографических характеристиках и
взглядах жителей США. В 2010 году в ходе опроса были получены ответы от
1 154 жителей США. По результатам опроса 95% доверительный интервал для
среднего количества часов, которые американцы имеют для отдыха или
занятий, которые им нравятся, после среднего рабочего дня, составил от
3,53 до 3,83 часов. Определите, является ли каждое из следующих
утверждений истинным или ложным
- 95% американцев тратят от 3,53 до 3,83 часов на отдых после рабочего
дня.
- 95% случайных выборок из 1 154 американцев дадут доверительные
интервалы, содержащие истинное среднее количество часов, которые
американцы тратят на отдых после рабочего дня.
- 95% времени истинное среднее количество часов, которые американцы
тратят на отдых после рабочего дня, составляет от 3,53 до 3,83
часов.
- Мы на 95% уверены, что американцы в этой выборке тратят в среднем от
3,53 до 3,83 часов на отдых после рабочего дня.
Размер выборки и точность
\[ME = z* \frac{s}{\sqrt{n}} \rightarrow n
= (\frac{z*s}{ME})^2\]
Пример
Группа исследователей хочет проверить возможное влияние лекарства от
эпилепсии, принимаемого беременными матерями, на когнитивное развитие их
детей. В качестве доказательства они хотят оценить показатели IQ
трехлетних детей, родившихся у матерей, которые принимали это лекарство
во время беременности.
Предыдущие исследования показывают, что SD (\(\sigma\)) показателей IQ трехлетних детей
составляет 18 пунктов. Сколько таких детей должны взять в выборку
исследователи, чтобы получить 90% доверительный интервал с погрешностью
меньше или равной 4 пунктам?
\(ME < 4pts, CL = 90\%, z^{*} = 1.65,
\sigma = 18\)
\[ME = z* \frac{s}{\sqrt{n}} \rightarrow n
= (\frac{z^{*}s}{ME})^2 = (\frac{1.65*18}{4})^2 = 55.13\]
Пример
Мы выяснили, что для достижения максимальной погрешности в 4 балла
нам необходимо иметь в выборке не менее 56 детей. Как изменится
необходимый размер выборки, если мы хотим еще больше снизить погрешность
до 2 баллов?
\[
\frac{1}{2} ME = \frac{z^{*}s}{\sqrt{n}}\frac{1}{2} \\
\frac{1}{2} ME = \frac{z^{*}s}{\sqrt{4n}} \\
4n = 56*4 = 224
\]