Лекция 4. Введение в Статистический Вывод

Дархан Медеуов

2023-03-09

Случайная переменная

Вероятностное распределение случайной переменной

Параметры нормального распределения

Правило 3 сигм

Правило 3-х сигм

Z-оценка

Z-оценка: Идея

Z-оценка: Определение

Z-оценка: \[ Z = \frac{x - \mu}{\sigma} \]

Графики

Стандартизация

\[Z = \frac{obs - mean}{sd} = \frac{x - \mu}{\sigma}\]

Персентили

\[P(X < x) = \frac{\# observations < x}{\#observations}\]

Как считать персентили в R

pnorm(-1, mean = 0, sd = 1)
## [1] 0.1586553
tibble(x = rnorm(10000, 0, 1)) %>%
  ggplot(aes(x)) + geom_density() + geom_vline(xintercept = -1, colour = "red")

Есть готовые веб-приложения

https://istats.shinyapps.io/NormalDist/

Интерпретация z-оценок и персентилей

pnorm(1300, mean = 1100, sd = 200)
## [1] 0.8413447
pnorm(100, mean = 70, sd = 10)
## [1] 0.9986501

Пример

\[Z = \frac{x - \mu}{\sigma}\]

qnorm(0.95, 1100, 200)
## [1] 1428.971

Популяционное и выборочное распределение

Популяция и выборка

Play

https://gallery.shinyapps.io/CLT_mean/

https://istats.shinyapps.io/NormalDist/

Центральная Предельная Теорема

Центральная Предельная Теорема: Распределение выборочных средних приближается к нормальному, с центром на среднем значении популяции и со стандартным отклонением, равным стандартному отклонению популяции, деленному на квадратный корень из размера выборки.

\[ X \sim \textrm{ any distribution with mean and sd: } \mu, \sigma \\ \overline{X} = \frac{1}{n} \sum_{i=1}^{n}X_i \\ \overline{X} \sim N(mean = \mu, SE = \frac{\sigma}{\sqrt{n}}) \]

Пример

Точечная и Интервальные оценки

Правило 3-сигм опять

\[\overline{X} \sim N(mean = \mu, SE = \frac{\sigma}{\sqrt{n}})\]

Приложение

https://gallery.shinyapps.io/CLT_mean/

https://istats.shinyapps.io/NormalDist/

Пример

В последние недели беременности и в течение первых 6 месяцев после рождения у людей наблюдается предпочтение поворота головы вправо, а не влево. Считается, что это влияет на последующее развитие перцептивных и моторных предпочтений. Исследование 124 пар показало, что 64,5% из них при поцелуе поворачивали голову вправо. Стандартная ошибка, связанная с этой оценкой, составляет около 4%. Что из нижеперечисленного является ложным?

  1. При большем объеме выборки стандартная ошибка будет меньше.

  2. Погрешность 95%-ного доверительного интервала для процента целующихся, которые поворачивают голову вправо, составляет примерно 8%.

  3. 95%-ный доверительного интервала для процента целующихся, которые поворачивают голову вправо, составляет приблизительно 64,5% ± 4%.

  4. 99,7%-ый доверительный интервал для процента целующихся, которые поворачивают голову направо, составляет приблизительно 64,5% ± 12%.

Доверительный интервал

Как считать погрешность

\[\bar{x} \pm z^* \frac{\sigma}{\sqrt{n}}\]

qnorm(0.5, mean = 0, sd = 1)
## [1] 0
qnorm(0.975, mean = 0, sd = 1)
## [1] 1.959964
qnorm(0.025, mean = 0, sd = 1)
## [1] -1.959964

Доверительный уровень (Confidence Level)

\[\bar{x}\pm 1.96*\frac{\sigma}{\sqrt{n}}\]

Доверительный интервал

library(dplyr)
df <- tibble(weights = rnorm(5000, mean = 70, sd = 4))
samples <- lapply(1:1000, function(x) sample(df$weights, 100))
sample_means <- sapply(samples, mean)
temp <- (sample_means - 70) %>% abs()
qnorm(0.975, 0, 1)
## [1] 1.959964
temp2 <- temp > (1.96*4/(sqrt(100)))
table(temp2) %>% prop.table()
## temp2
## FALSE  TRUE 
## 0.945 0.055

Доверительный интервал

Пример

Общий социальный опрос (ОСС) - это социологический опрос, используемый для сбора данных о демографических характеристиках и взглядах жителей США. В 2010 году в ходе опроса были получены ответы от 1 154 жителей США. По результатам опроса 95% доверительный интервал для среднего количества часов, которые американцы имеют для отдыха или занятий, которые им нравятся, после среднего рабочего дня, составил от 3,53 до 3,83 часов. Определите, является ли каждое из следующих утверждений истинным или ложным

  1. 95% американцев тратят от 3,53 до 3,83 часов на отдых после рабочего дня.
  2. 95% случайных выборок из 1 154 американцев дадут доверительные интервалы, содержащие истинное среднее количество часов, которые американцы тратят на отдых после рабочего дня.
  3. 95% времени истинное среднее количество часов, которые американцы тратят на отдых после рабочего дня, составляет от 3,53 до 3,83 часов.
  4. Мы на 95% уверены, что американцы в этой выборке тратят в среднем от 3,53 до 3,83 часов на отдых после рабочего дня.

Размер выборки и точность

\[ME = z* \frac{s}{\sqrt{n}} \rightarrow n = (\frac{z*s}{ME})^2\]

Пример

Группа исследователей хочет проверить возможное влияние лекарства от эпилепсии, принимаемого беременными матерями, на когнитивное развитие их детей. В качестве доказательства они хотят оценить показатели IQ трехлетних детей, родившихся у матерей, которые принимали это лекарство во время беременности.

Предыдущие исследования показывают, что SD (\(\sigma\)) показателей IQ трехлетних детей составляет 18 пунктов. Сколько таких детей должны взять в выборку исследователи, чтобы получить 90% доверительный интервал с погрешностью меньше или равной 4 пунктам?

\(ME < 4pts, CL = 90\%, z^{*} = 1.65, \sigma = 18\)

\[ME = z* \frac{s}{\sqrt{n}} \rightarrow n = (\frac{z^{*}s}{ME})^2 = (\frac{1.65*18}{4})^2 = 55.13\]

Пример

Мы выяснили, что для достижения максимальной погрешности в 4 балла нам необходимо иметь в выборке не менее 56 детей. Как изменится необходимый размер выборки, если мы хотим еще больше снизить погрешность до 2 баллов?

\[ \frac{1}{2} ME = \frac{z^{*}s}{\sqrt{n}}\frac{1}{2} \\ \frac{1}{2} ME = \frac{z^{*}s}{\sqrt{4n}} \\ 4n = 56*4 = 224 \]