Светлана Суязова (Аксюк)
19 июля 2019
Светлана Андреевна Суязова (Аксюк) s.a.aksuk@gmail.com
\[ Y = f(X, \epsilon) \]
если мы знаем распределение \( \epsilon \) и форму взаимосвязи между \( X \) и \( Y \), можем сделать прогноз
если распределение остатков соответствует определённым требованиям, можем проверить гипотезы о значимости связи
типы показателей: какими бывают \( Y \) и \( X \) и почему это важно
описание формы распределения показателя: в цифрах и в графиках
оценка парной линейной взаимосвязи показателей
проверка простых гипотез о распределении и взаимосвязи
Пример с вишнёвыми деревьями: данные о 31 вишнёвом дереве (1976 год). По каждому дереву известны:
\( X1 \) – диаметр дерева в дюймах
\( X2 \) – высота дерева в дюймах
\( X3 \) – объём древесины в кубических футах
Выборка – объекты, попавшие под наблюдение.
Генеральная совокупность – вся совокупность объектов похожего вида.
Модель – формализация нашего представления о связях показателей.
\( X1 \), \( X2 \), \( X3 \) – реализации случайных величин
\( n \) – объём выборки
\( m \) – количество признаков
\( x_i \) – \( i \)-ое наблюдение за \( X \)
Генеральная совокупность | Выборка | |
Характеристика |
Параметр: |
Оценка (метрика): |
Центр распределения |
Математическое ожидание: |
Среднее арифметическое*: |
Разброс значений относительно центра |
Дисперсия: |
Несмещённая оценка дисперсии: |
* не единственный вариант оценки параметра
Пример с вишнёвыми деревьями
\( n = 31 \) – объём выборки
\( m = 3 \) – количество признаков
\( xj_i \) – \( i \)-ое наблюдение за \( j \)-м \( X \)
Параметр | Оценка | ||
\( X1 \) | \( X2 \) | \( X3 \) | |
Центр распределения | \( \bar{x1} = 13.2 \) | \( \bar{x2} = 76 \) | \( \bar{x3} = 30.2 \) |
Разброс относительно центра | \( \hat{\sigma}^2_{x1} = 9.8 \) | \( \hat{\sigma}^2_{x2} = 40.6 \) | \( \hat{\sigma}^2_{x3} = 270.2 \) |
единицы измерения?
минимум информации, не видна форма распределения
Случайное событие – это событие, которое при заданном комплексе условий может как произойти, так и не произойти.
Случайная величина – это числовая функция \( X(\omega) \), определённая на пространстве элементарных событий \( \Omega = \{ \omega_1, \omega_2, ... \} \).
Функция распределения вероятностей содержит в себе все сведения о случайной величине:
\[ F_X(x) = P \{ \omega:X(x) < x \}, \]
где \( F_X(x) \) – функция распределения случайной величины \( X \) от конкретного значения \( x \), \( P \{ \omega: ... \} \) – вероятность события \( \omega \), состоящего в том, что случайная величина примет значение меньше заданного \( x \).
Задача
Постройте график функции распределения случайной величины “число дней наугад взятого года”.
\[ F_X(x) = P \{ \omega:X(x) < x \} \]
Функция распределения
Функция плотности вероятностей
Гистограмма
Фактическая функция плотности веротностей
Неравенство Чебышёва. Если случайная величина имеет математическое ожидание \( \mu \) и дисперсию \( \sigma^2 \), то для любого \( \varepsilon > 0 \): \( P \{ |X - \mu| \ge \varepsilon \} \le \frac {\sigma^2} {\varepsilon^2} \)
Неравенство Маркова. Для положительных случайных величин, имеющих математическое ожидание \( \mu \), справедливо неравенство: \( P \{ X < \varepsilon \} \ge 1 - \frac {\mu} {\varepsilon} \)
1. Центральная предельная теорема (ЦПТ): достаточно большая сумма сравнительно малых случайных величин ведёт себя приблизительно как нормальная случайная величина.
Условия:
конечность дисперсии отдельных СВ и “лёгкие хвосты” распределений (условие Линдеберга)
много наблюдений (\( n \gg 100 \)), и чем больше, тем достовернее будут выводы
2. Теорема Ляпунова: Функция распределения центрированной и нормированной суммы \( Z_n \) независимых случайных величин \( X_1 \), \( X_2 \), …, \( X_n \), удовлетворяющих условию Линдеберга, сходится к функции распределения стандартной нормальной случайной величины (\( Z_n \sim N(0, 1) \)).
Тип шкалы показателя | Тип случайной величины | Допустимые операции | Использование в моделях |
Количественные (интервальная, отношений) | Непрерывная | Сравнение равно-неравно, упорядочивание, любая арифметика | Без дополнительных преобразований |
Порядковая | Дискретная | Сравнение равно-неравно, упорядочивание | Через фиктивные переменные (иногда можно без преобразований) |
Номинальная | Дискретная | Сравнение равно-неравно | Только через фиктивные переменные |
Поле корреляции непрерывных СВ
Похоже, между показателями в выборке есть линейная взаимосвязь. Так ли это для всей ГС?
\[ r_{XY} = \frac {\frac {1} {n - 1} \sum_{i=1}^n (x_i - \bar{x}) (y_i - \bar{y})} {\sigma_X \cdot \sigma_Y} \]
\[ \sigma_X = \sqrt{\frac {\sum_{i=1}^n (x_i - \bar{x})^2} {n - 1}} \]
\( r \in [-1, 1] \)
\( r \) ловит только линейную взаимосвязь
\( r \) не показывает причинно-следственную связь
\( r_{XY} \) – оценка на выборке, а \( \rho_{XY} \) – в генеральной совокупности
\( H_0: \rho_{XY} = 0 \), коэффициент корреляции незначим
\( H_1: \rho_{XY} \ne 0 \), коэффициент корреляции значим
Критерий:
\( t_{РАСЧ} = \frac {n - 2} {\sqrt(1 - r_{XY}^2)} \) \( t_{КРИТ} \sim t(\alpha, \nu = n - 2) \)
Вывод:
\( |t_{РАСЧ}| > t_{КРИТ} \Rightarrow H_1 \)
\( |t_{РАСЧ}| < t_{КРИТ} \Rightarrow H_0 \)
\( P(-2.05 < t < 2.05) = 1 - \alpha \) – уровень доверия \( P(|t| > -2.05) = \alpha \) – уровень значимости
corr(Height, Volume) = 0.59824965
Under the null hypothesis of no correlation:
t(29) = 4.02051, with two-tailed p-value 0.0004
Параметрические:
t-тест на равенство среднего заданному значению
F-тест на равенство дисперсий (постоянство дисперсии)
тесты на соответствие распределения нормальному закону: Шапиро-Уилка, Андерсона-Дарлинга
тест Дарбина-Уотсона на автокорреляцию
Непараметрические:
Теория вероятностей + Большие выборки \( \rightarrow \) Математическая статистика
Математическая статистика + Огромные объёмы “ненормальных” данных \( \rightarrow \) Анализ данных
Анализ данных + Инструменты разработки \( \rightarrow \) Data Science
Колемаев В.А., Калинина В.Н. Теория вероятностей и математическая статистика: Учебник для вузов. – М.: ЮНИТИ-ДАНА, 2003. – 352 с.
Питер Брюс, Эндрю Брюс Практическая статистика для специалистов Data Science: Пер. с англ. – СПб.: БХВ-Петербург, 2019. – 304 с.