Летняя школа статистики 2019 :)

Светлана Суязова (Аксюк)
19 июля 2019

День 1:

Случайные величины и их характеристики

Светлана Андреевна Суязова (Аксюк)
s.a.aksuk@gmail.com

План занятия

- Зачем нам это?

  • Дискретные и непрерывные случайные величины
  • От вероятностей к обобщениям: связь тервера с матстатом
  • Через матстат к анализу данных
  • Практические вопросы с примерами в Excel и в Gretl

Null hypothesis

xkcd.com/892

Случайности не (совсем) случайны

  • любой показатель можно представить как результат взаимодействия влияющих факторов \( X \) и случайной составляющей \( \epsilon \):

\[ Y = f(X, \epsilon) \]

  • если мы знаем распределение \( \epsilon \) и форму взаимосвязи между \( X \) и \( Y \), можем сделать прогноз

  • если распределение остатков соответствует определённым требованиям, можем проверить гипотезы о значимости связи

Каких практических задач мы коснёмся?

  • типы показателей: какими бывают \( Y \) и \( X \) и почему это важно

  • описание формы распределения показателя: в цифрах и в графиках

  • оценка парной линейной взаимосвязи показателей

  • проверка простых гипотез о распределении и взаимосвязи

План занятия

  • Зачем нам это?

- Дискретные и непрерывные случайные величины

  • От вероятностей к обобщениям: связь тервера с матстатом
  • Через матстат к анализу данных
  • Практические вопросы с примерами в Excel и в Gretl

Базовые понятия на примерах

Пример с вишнёвыми деревьями: данные о 31 вишнёвом дереве (1976 год). По каждому дереву известны:

\( X1 \) – диаметр дерева в дюймах

\( X2 \) – высота дерева в дюймах

\( X3 \) – объём древесины в кубических футах

Выборка – объекты, попавшие под наблюдение.

Генеральная совокупность – вся совокупность объектов похожего вида.

Модель – формализация нашего представления о связях показателей.

\( X1 \), \( X2 \), \( X3 \) – реализации случайных величин

Базовые понятия на примерах

\( n \) – объём выборки

\( m \) – количество признаков

\( x_i \) – \( i \)-ое наблюдение за \( X \)

Генеральная совокупность Выборка
Характеристика Параметр:
\( \theta \)
Оценка (метрика):
\( \hat{\theta} \)
Центр распределения Математическое ожидание:
\( \mu_X \)
Среднее арифметическое*:
\( \bar{x} = \frac {\sum_{i=1}^n{x_i}} {n} \)
Разброс значений относительно центра Дисперсия:
\( \sigma^2_X \)
Несмещённая оценка дисперсии:
\( S_X = \frac {\sum_{i=1}^n{(x_i - \bar{x})^2}} {n-1} \)

* не единственный вариант оценки параметра

Пример с вишнёвыми деревьями

\( n = 31 \) – объём выборки

\( m = 3 \) – количество признаков

\( xj_i \) – \( i \)-ое наблюдение за \( j \)-м \( X \)

Параметр Оценка
\( X1 \) \( X2 \) \( X3 \)
Центр распределения \( \bar{x1} = 13.2 \) \( \bar{x2} = 76 \) \( \bar{x3} = 30.2 \)
Разброс относительно центра \( \hat{\sigma}^2_{x1} = 9.8 \) \( \hat{\sigma}^2_{x2} = 40.6 \) \( \hat{\sigma}^2_{x3} = 270.2 \)
  • единицы измерения?

  • минимум информации, не видна форма распределения

Базовые понятия на примерах

Случайное событие – это событие, которое при заданном комплексе условий может как произойти, так и не произойти.

Случайная величина – это числовая функция \( X(\omega) \), определённая на пространстве элементарных событий \( \Omega = \{ \omega_1, \omega_2, ... \} \).

Функция распределения вероятностей содержит в себе все сведения о случайной величине:
\[ F_X(x) = P \{ \omega:X(x) < x \}, \]

где \( F_X(x) \) – функция распределения случайной величины \( X \) от конкретного значения \( x \), \( P \{ \omega: ... \} \) – вероятность события \( \omega \), состоящего в том, что случайная величина примет значение меньше заданного \( x \).

Базовые понятия на примерах

Задача

Постройте график функции распределения случайной величины “число дней наугад взятого года”.
\[ F_X(x) = P \{ \omega:X(x) < x \} \]

Пример с числом дней в году: дискретная случайная величина


plot of chunk unnamed-chunk-1

Функция распределения


plot of chunk unnamed-chunk-2

Функция плотности вероятностей

Пример с вишнёвыми деревьями: непрерывная СВ


plot of chunk unnamed-chunk-3

Гистограмма


plot of chunk unnamed-chunk-4

Фактическая функция плотности веротностей

Почему так важен нормальный закон

Как оценить функцию распределения вероятностей?

Неравенство Чебышёва. Если случайная величина имеет математическое ожидание \( \mu \) и дисперсию \( \sigma^2 \), то для любого \( \varepsilon > 0 \): \( P \{ |X - \mu| \ge \varepsilon \} \le \frac {\sigma^2} {\varepsilon^2} \)

Неравенство Маркова. Для положительных случайных величин, имеющих математическое ожидание \( \mu \), справедливо неравенство: \( P \{ X < \varepsilon \} \ge 1 - \frac {\mu} {\varepsilon} \)

Почему так важен нормальный закон

Следствия из неравенств Чебышёва и Маркова

1. Центральная предельная теорема (ЦПТ): достаточно большая сумма сравнительно малых случайных величин ведёт себя приблизительно как нормальная случайная величина.

Условия:

  • конечность дисперсии отдельных СВ и “лёгкие хвосты” распределений (условие Линдеберга)

  • много наблюдений (\( n \gg 100 \)), и чем больше, тем достовернее будут выводы

2. Теорема Ляпунова: Функция распределения центрированной и нормированной суммы \( Z_n \) независимых случайных величин \( X_1 \), \( X_2 \), …, \( X_n \), удовлетворяющих условию Линдеберга, сходится к функции распределения стандартной нормальной случайной величины (\( Z_n \sim N(0, 1) \)).

plot of chunk unnamed-chunk-5

Дискретность, непрерывность и шкалы

Тип шкалы показателя Тип случайной величины Допустимые операции Использование в моделях
Количественные (интервальная, отношений) Непрерывная Сравнение равно-неравно, упорядочивание, любая арифметика Без дополнительных преобразований
Порядковая Дискретная Сравнение равно-неравно, упорядочивание Через фиктивные переменные (иногда можно без преобразований)
Номинальная Дискретная Сравнение равно-неравно Только через фиктивные переменные

План занятия

  • Зачем нам это?
  • Дискретные и непрерывные случайные величины

- От вероятностей к обобщениям: связь тервера с матстатом

  • Через матстат к анализу данных
  • Практические вопросы с примерами в Excel и в Gretl

Поле корреляции непрерывных СВ

Похоже, между показателями в выборке есть линейная взаимосвязь. Так ли это для всей ГС?

Парный линейный коэффициент корреляции Пирсона

\[ r_{XY} = \frac {\frac {1} {n - 1} \sum_{i=1}^n (x_i - \bar{x}) (y_i - \bar{y})} {\sigma_X \cdot \sigma_Y} \]

\[ \sigma_X = \sqrt{\frac {\sum_{i=1}^n (x_i - \bar{x})^2} {n - 1}} \]

  • \( r \in [-1, 1] \)

  • \( r \) ловит только линейную взаимосвязь

  • \( r \) не показывает причинно-следственную связь

  • \( r_{XY} \) – оценка на выборке, а \( \rho_{XY} \) – в генеральной совокупности

Проверка гипотезы о значимости коэффициента линейной корреляции

\( H_0: \rho_{XY} = 0 \), коэффициент корреляции незначим

\( H_1: \rho_{XY} \ne 0 \), коэффициент корреляции значим

Критерий:

\( t_{РАСЧ} = \frac {n - 2} {\sqrt(1 - r_{XY}^2)} \)           \( t_{КРИТ} \sim t(\alpha, \nu = n - 2) \)

Вывод:

\( |t_{РАСЧ}| > t_{КРИТ} \Rightarrow H_1 \)

\( |t_{РАСЧ}| < t_{КРИТ} \Rightarrow H_0 \)

\( P(-2.05 < t < 2.05) = 1 - \alpha \) – уровень доверия \( P(|t| > -2.05) = \alpha \) – уровень значимости

plot of chunk unnamed-chunk-8

corr(Height, Volume) = 0.59824965
Under the null hypothesis of no correlation:
 t(29) = 4.02051, with two-tailed p-value 0.0004

Другие полезные тесты

Параметрические:

  • t-тест на равенство среднего заданному значению

  • F-тест на равенство дисперсий (постоянство дисперсии)

  • тесты на соответствие распределения нормальному закону: Шапиро-Уилка, Андерсона-Дарлинга

  • тест Дарбина-Уотсона на автокорреляцию

Непараметрические:

  • критерии серий на случайность значений показателя: на основе медианы, знакопеременных серий

План занятия

  • Зачем нам это?
  • Дискретные и непрерывные случайные величины
  • От вероятностей к обобщениям: связь тервера с матстатом

- Через матстат к анализу данных

  • Практические вопросы с примерами в Excel и в Gretl

Чем отличается Data Science

Теория вероятностей + Большие выборки \( \rightarrow \) Математическая статистика

Математическая статистика + Огромные объёмы “ненормальных” данных \( \rightarrow \) Анализ данных

Анализ данных + Инструменты разработки \( \rightarrow \) Data Science

Null hypothesis

План занятия

  • Зачем нам это?
  • Дискретные и непрерывные случайные величины
  • От вероятностей к обобщениям: связь тервера с матстатом
  • Через матстат к анализу данных

- Практические вопросы с примерами в Excel и в Gretl

Источники

  • Колемаев В.А., Калинина В.Н. Теория вероятностей и математическая статистика: Учебник для вузов. – М.: ЮНИТИ-ДАНА, 2003. – 352 с.

  • Питер Брюс, Эндрю Брюс Практическая статистика для специалистов Data Science: Пер. с англ. – СПб.: БХВ-Петербург, 2019. – 304 с.