Лекции 2-3. Вероятность

Darkhan Medeuov

3/9/23

Лекция 2. Вероятность

Будем бросать монетки

И кубики

Интуитивно мы понимаем вероятность

  • Каков шанс “выбросить” 1 на шестигранном кубике?
  • Каков шанс выбросить 1 или 2?
  • Каков шанс выбросить 1, 2, 3, 4, 5, или 6?
  • Каков шанс выбросить 7?
  • Каков шансы выбросить не 2?
  • При броске двух кубиков. Каков шанс выбросить две 1?

Ответы:

  • Каков шанс “выбросить” 1 на шестигранном кубике? Ответ: \(1/6\)
  • Каков шанс выбросить 1 или 2? Ответ: \(1/3\)
  • Каков шанс выбросить 1, 2, 3, 4, 5, или 6? Ответ: \(1\)
  • Каков шанс выбросить 7? Ответ: \(0\)
  • Каков шансы выбросить не 2? Ответ: \(5/6\)
  • При броске двух кубиков. Каков шанс выбросить две 1? Ответ: \(1/36\)

Вероятность

Вероятность - это здравый смысл, сведенный к исчислению (Лаплас)

Случайное событие

  • Кайрат каждый день заходит в кафе за кофе. Иногда ему приходится стоять в очереди. Число людей в очереди — пример случайного события. Их может быть 0, 1, 2, 3 и т.д.
  • Случайное событие (random phenomenon) - это любая ситуация в которой некий результат может произойти, но мы не знаем наверняка какой именно
  • Теория вероятности дает математическое описание случайных событий (бросков монеты, бросков кубика, роста случайно взятого человека и т.п.)

Вероятностная модель

  • Вероятностная модель — это математическое описание случайного события. Состоит из трех основных элементов:
  • (1) Случайное событие
    • Результат случайного события называется наблюдением (observation) или испытанием (trial). “Мы бросили монетку два раза” = “У нас два наблюдения/испытания”
  • Множество возможных результатов случайного события или (2) Пространство Исходов (Sample Space). Обозначается \(\Omega\).
  • Некое правило котрое каждому исходу назначает вероятность - (3) Распределение вероятности

Вероятностная модель

Tsitlikis and Kristakis (2002), p. 6

Случайное событие

  • Случайное событие - это любой процесс со случайным результатом
  • Например, бросок монетки или кубика
  • Случайно взятый ИИН из базы физических лиц
  • Бросок дротика в мишень и т.п.

Случайное событие

  • Всякий раз, когда мы наблюдаем случайное событие, мы фиксируем результат.
  • Результат наблюдения называется случайной переменной (random variable). Случайные переменные обозначаются заглавными латинскими буквами, e.g. \(X\) или \(Y\)
  • Например, \(X\) может обозначать результат броска монеты, а \(Y\) результат броска кубика.
  • \(U\) может обозначать число ДТП в Астане в случайно выбранный день.
  • \(X\) и \(Y\) могут быть координатами броска дротика в квадратную мишень

Пространство Исходов (Sample Space)

  • Все возможные значения, которые случайная переменная может принять, называется Пространство Исходов (Sample Space). Обозначается \(\Omega\)
  • Для броска монеты: \(\Omega = \{Орел, Решка\}\). Или
    • \(X \in \{Орел, Решка\}\)
  • Для кубика: \(\Omega = \{1, 2, 3, 4, 5, 6\}\)
    • \(Y \in \{1, 2, 3, 4, 5, 6\}\)
  • Для числа ДТП в Астане в случайный день: \(\Omega = \mathbf{Z}^{+}\)
    • \(U \in \mathbf{Z}^{+}\)
  • Для броска дротика: \(\Omega = \{(x, y)| 0 \leq x,y \leq 1\}\)
    • \((X,Y) \in \{(x, y)| 0 \leq x,y \leq 1\}\)

Исход и Событие

  • Исходом (outcome) называется конкретное значение, которое может принять случайная переменная. Исход - это один элемент Пространства Исходов (\(\Omega\)). Мы обозначаем их строчными буквами \(x\) или \(y\)
    • Например, для кубика \(X = 1\) значит, что при броске выпала единица
  • Событие (Event) - это любое подмножество Пространства Исходов (\(\Omega\)). События обозначаются заглавными буквами.
    • \(A \subset \Omega\)

Детальнее о событиях

  • События может состоять из одного исхода, например \(A = {Орел}\), но также может состоять из множества исходов
  • Например, рассмотрим два броска монетки
    • Событие А: орел при первом броске
    • Событие А состоит из двух исходов: \(A = \{ОО, ОР\}\)
  • Исходы как атомы (элементарные частицы)
  • События как молекулы (могут состоять из множества атомов)

Объединение и Пересечение Событий

  • Объединением событий, \(\mathbf{A} \cup \mathbf{B}\), называется множество всех исходов которые удовлетворяют либо \(A\), либо \(B\).
  • \(A \cup B = \{x|x \in A \textrm{ OR } x \in B\}\) - логическое ИЛИ
  • Пример, событие \(A\) - случайный пассажир автобуса, оказался беременной женщиной;
  • \(B\) - случайный пасажир оказался пенсионером.
  • Объединения двух событий, \(A\cup B\) - человек, которому можно сидеть на местах для беременных или пенсионеров.
  • Пересечением двух событий, \(\mathbf{A} \cap \mathbf{B}\), называется множество всех исходов, которые удовлетворяют одновременно и \(A\), и \(B\).
  • \(A \cap B = \{x|x \in A \textrm{ AND } x \in B\}\) - логическое И
  • В примере выше \(A \cap B\) будет соответствовать беременному пенсионеру.

Пересекающиеся и Непересекающиеся События

  • Бросаем монетку два раза и определим 3 события:
    • A: орел в первом броске: \(\{ОО, ОР\}\)
    • B: решка во втором броске: \(\{ОР, РР\}\)
    • C: решка в первом броске: \(\{РО, РР\}\)
  • \(A \cup B = \{ОО, ОР, РР\}\), \(A \cap B = \{ОР\}\)
  • \(A \cup C = \{ОО, ОР, РО, РР\}\), \(A \cap C = \{\emptyset\}\)
  • Два события называются непересекающимися (disjoint) или взаимно исключающими (mutually exclusive), если у них нет общих исходов: A и C не пересекаются, потому что \(A \cap C = \emptyset\)

Объединение пересекающихся и непересекающихся событий

Непересекающиеся события:

  • 4 студента из Семея, множество \(A\); 10 студентов из Усть-Каменогорска, множество \(B\)
  • Как много студентов из ВКО? \(|A\cup B|\)
  • \(|A\cup B| = 4 + 10 = 14\)

Пересекающиеся события:

  • У 5-и студентов есть кошки (\(A\)); у 3-х есть собаки (\(B\))
  • У 1-го студента есть и кошка, и собака: \(A \cap B\)
  • У скольки студентов есть домашенее животное? \(|A\cup B|\)
  • \(|A\cup B| = 5 + 3 - 1 = 7\)

Распределение вероятности (Probability distribution)

  • После того, как мы определили возможные исходы, мы должны назначить этим исходам вероятность \(P(X = x_i)\)
  • Распределение вероятности должно подчиняться трем правилам
    1. \(P(\emptyset) = 0\) - что-то обязательно должно произойти
    2. \(P(\Omega) = 1\) - это что-то обязательно должно быть перечислено в \(\Omega\)
    3. Если \(A\) and \(B\) не пересекаются, то (\(A\cap B = \emptyset\)) \(\rightarrow\) \(P(A\cup B) = P(A) + P(B)\)

Примеры

  • Монетка: \(P(X = Орел) = 1/2\) and \(P(X = Решка) = 1/2\)
    • при условии, что монетка честная
  • Кубик: \(P(Y = 1) = 1/6\), \(P(Y = 2) = 1/6\) и т.д.
  • Дротик и квадратная мишень: \(P(X = x, Y = y) = 0\), почему?
    • Пространство исходов бесконечно, поэтому \(P(X = x, Y = y) = 1/\inf = 0\)
    • Именно поэтому, мы ввели понятие События: \(P(X > 1/2, Y > 1/2) = 1/4\)

Пример с кубиком

  • Какова вероятность выкинуть не меньше 2? \(P((X = 1) \cup (X = 2))\)
    • \(P((X = 1) \cup (X = 2)) = P(X = 1) + P(X = 2) = 1/6 + 1/6 = 1/3\)
  • Какова вероятность выкинуть четное число?
    • \(P(X \in \{2, 4, 6\}) = 3*1/6 = 1/2\)
  • Какова вероятность выкинуть четное или не меньше двух
    • \(A\): четное \(\{2, 4, 6\}\)
    • \(B\): не меньше двух \(\{1, 2\}\)
    • \(A \cap B\): четное и не меньше двух: \(\{2\}\)

\[ P(A \cup B) = P(A) + P(B) - P(A \cap B) \\ P(A \cup B) = 3/6 + 2/6 - 1/6 = 4/6 = 2/3 \]

ТерВер и Статистика I

  • Теория Вероятности и Статистика родственные дисциплины, примерно как две стороны одной медали.
  • Теория Вероятности начинает с вероятностной модели и делает вывод о данных, которые модель производит
    • Модель \(\rightarrow\) Данные
    • Например, если у нас есть событие, вероятность которого \(p = 0.2\), сколько раз событие в среднем будет происходить при 100 испытаниях?
  • Статистика: начинает с данных, и делает вывод о моделе, которая моглы бы породить имеющиеся данные
    • Данные \(\rightarrow\) Модель
    • Например, мы наблюдали некое событие 20 раз в 100 испытаниях, какова вероятность события?

Условная вероятность

Обычная вероятность

  • У нас 12 студентов всего, из них
    • 5 мужчин (\(A\))
    • 4 водят машину (\(B\))
    • 3 мужчин-водителей (\(A \cap B\))
  • Выберем 1 студента случайным образом, какова вероятность, что он мужчина?
    • \(P(A) = 5/12 \approx 0.42\)

Добавим условие

  • Допустим, кто сообщает вам, что этот случайно выбранный студент водит машину

  • Как это условие, изменит вероятность того, что этот студент мужчина?

  • Теперь наше пространство возможных исходов свелось, только к 4 студентам, которые отвечают условию (водят машину).

Введем обозначения

  • Условие будем выражать так

    \[P(A|B) = \textrm{Вероятность A, при условии, что B произошло}\]

  • Определение: \[P(A|B) = \frac{P(A \cap B)}{P(B)} = \frac{3/12}{4/12} = \frac{3}{4} = 0.75\]

  • Проверка здравым смыслом (sanity check): какова вероятность события \(B\) при условии, что \(B\) произошло

    • То есть, например, какова вероятность, что студент водит, если он водит?
    • Должна быть 1.
  • И действительно, \(P(B|B) = \frac{P(B \cap B)}{P(B)} = \frac{P(B)}{P(B)} = 1\)

Условная вероятность

  • Условные вероятности ничем не отличаются от безусловных. Все что применимо к первым, применимо и ко вторым.
  • Упражнение: Два броска 4-х гранного кубика
    • Событие \(\mathbf{B}: min(d_1,d_2) = 2\)
    • Событие \(\mathbf{M_1}: max(d_1,d_2) = 1\)
    • Событие \(\mathbf{M_2}: max(d_1,d_2) = 2\)
  • \(P(M_1|B) = ?\)
  • \(P(M_2|B) = ?\)
  • \(P(M_1|B) = 0\)
  • \(P(M_2|B) = 1/2\)

Повторим обозначения и введем новые

  • \(A\) - латинские заглавные буквы обозначают события, например, что в Астане сегодня утром идет снег; \(B\) - что в Астане пробки выше 8 баллов.

  • \(A \cup B\) - в городе снег ИЛИ пробки

  • \(A \cap B\) в городе снег И пробки

  • Отрицание события, то есть событие, которое состоит в том, что некое изначальное событие не произошло, мы обозначаем \(А^c\) и называем дополнением \(А\)

  • Дополнением, потому что \(А^c\) дополняет \(А\) до \(\Omega\): \(А^c \cup A = \Omega\)

  • \(A^c \cup B\) - в городе нет снега ИЛИ пробки

Пример

  • Событие \(A\): Беременность. Допустим по стат. данным мы знаем, что $P(A) = 0.01$
  • Событие \(B\): Тест на беременность положителен
  • Представим все в виде диаграммы

Теперь посчитаем вероятности

  • \(P(B|A) = 0.98, P(B^c|A^c) = 0.05\)
  • Допустим мы хотим посчитать \(P(A|B) = \frac{P(A \cap B)}{P(B)}\), но мы не знаем \(P(B)\)
  • Что если мы поменяем местами событие и условие: \(P(B|A) = \frac{P(A \cap B)}{P(A)}\)
  • \(P(A \cap B) = P(A)P(B|A)\)

Multiplication Rule (не знаю как перевести)

  • Формула условной вероятности, позволяет нам интерпретировать совместную вероятность событий

\[ P(A|B) = \frac{P(A \cap B)}{P(B)} <=> P(A \cap B) = P(B)*P(A|B) \]

  • Поскольку нет принципиальной разницы, что принять за событие, а что за условие

\[ P(B|A) = \frac{P(A\cap B)}{P(A)} <=> P(A\cap B) = P(A)*P(B|A) \]

Multiplication Rule (не знаю как перевести)

  • Вероятность, что события \(А\) и \(B\) произошли одновременно, равна вероятности события \(А\) помноженную на вероятность события \(B\), при условии, что \(А\) произошло

\[ P(A \cap B) = P(B)*P(A|B) \]

  • И наоборот

    \[ P(A\cap B) = P(A)*P(B|A) \]

Пример

  • \(P(A \cap B) = P(A)P(B|A) = 0.01*0.98 = 0.0098\)

Общая вероятность

  • А теперь, давайте задумаемся, сможем ли мы восстановить вероятность события \(B\) из нашего знания о \(P(A \cap B)\)

  • Интуитивно, событие \(B\) может произойти при условии \(А\) и при условии \(А^c\). Также, два этих условия полностью исчерпывают все возможные “пути” к событию \(B\)

\[ P(B) = P(A \cap B) + P(A^c \cap B) = \\ P(A)P(B|A) + P(A^c)P(B|A^c) = \\ 0.01*0.98 + 0.99*0.05 = 0.0593 \]

А теперь вернемся к изначальному вопросу

  • Мы хотели посчитать вероятность беременности \(A\) при условии, что тест положителен \(B\)

  • Мы посчитали вероятность события человек беременнен И тест положителен: \(P(A \cap B) = P(A)*P(B|A)\)

  • Мы также посчитали вероятность события, что тест положителен: \(P(B) = P(A \cap B) + P(A^c \cap B)\)

  • Теперь у нас есть все, чтобы посчитать искомое:\(P(A|B) = \frac{P(A \cap B)}{P(B)} = \frac{0.0098}{0.0593} = 0.165\)

Формула Байеса

  • То что мы сейчас проделали, выглядит так

\[ P(A|B) = \frac{P(A)*P(B|A)}{P(B)} \]

  • Где, \(P(B) = P(A)P(B|A) + P(A^c)P(B|A^c)\)

Более сложный пример

  • Три события \(\{A_1, A_2, A_3\}\): \(A_1 \cup A_2 \cup A_3 = \Omega\) и \(A_i \cap A_j = \emptyset, \forall i \neq j\), это называется разбиением (partition) пространства исходов

  • Мы знаем все \(P(A_i)\) и \(P(B|A_i)\)

Вопрос

  • Можем ли мы посчитать \(P(A_i \cap B) = ?\)
  • Да \(P(A_i|B) = \frac{P(A_i \cap B)}{P(B)} \implies P(A_i \cap B) = P(B)P(A_i|B) = P(A_i)P(B|A_i)\)
  • Например:
    • \(P(A_1 \cap B) = P(A_1)P(B|A_1) = 0.25\)
    • \(P(A_2 \cap B) = P(A_2)P(B|A_2) = 0.18\)
    • \(P(A_3 \cap B) = P(A_3)P(B|A_3) = 0.16\)

Общая вероятность опять

  • А что насчет \(P(B) = ?\). Заметьте, что \(B = (A_1 \cap B) \cup (A_2 \cap B) \cup (A_3 \cap B)\)
  • Поэтому: \[P(B) = P(A_1 \cap B) + P(A_2 \cap B) + P(A_3 \cap B) = \\ P(A_1)*P(B|A_1) + P(A_2)*P(B|A_2) + P(A_3)*P(B|A_3) = \\0.25 + 0.18 + 0.16 = 0.59\]

Формула Байеса Расширенная

  • Допустим событие \(B\) произошло, можем ли мы пересмотреть вероятности \(P(A_i)\)?
  • Да. Назовем новые вероятности \(P(A_i|B)\) \[P(A_i|B) = \frac{P(A_i)*P(B|A_i)}{P(B)} = \frac{P(A_i)*P(B|A_i)}{\sum_j{P(A_j)*P(B|A_j)}}\]
  • \(P(A_1|B) = \frac{P(A_1)*P(B|A_1)}{\sum_{j=1}^{3}{P(A_j)*P(B|A_j)}} = 0.42\)
  • \(P(A_2|B) = \frac{P(A_2)*P(B|A_2)}{\sum_{j=1}^{3}{P(A_j)*P(B|A_j)}} = 0.31\)
  • \(P(A_3|B) = \frac{P(A_3)*P(B|A_3)}{\sum_{j=1}^{3}{P(A_j)*P(B|A_j)}} = 0.27\)

Независимость

  • Рассмотрим два броска “честной” монетки: \(P(О) = p, P(Р) = 1-p\)
  • \(P(О_2|О_1) = 1/2\), но также \(P(О_2|Р_1) = 1/2\)
  • Общая вероятность \(О_2\):

\[ P(О_2) = P(О_2 \cap О_1) + P(О_2 \cap О_1) = \\ P(О_2) = P(О_1)P(О_2|О_1) + P(Р_1)P(О_2|Р_1) = \\ P(О_2) = 1/2*1/2 + 1/2*1/2 = 1/2 \\ P(О_2) = 1/2 = P(О_2|О_1) \]

Независимость

  • Интуитивно, два события независимы, когда \(P(A|B) = P(A)\)
  • Но также следует, что: \(\frac{P(A \cap B)}{P(B)} = P(A) \rightarrow P(A \cap B) = P(A)P(B)\)
  • Формальное определение независимости \(A\) и \(B\)

\[ P(A \cap B) = P(A)P(B) \]

  • Лучше, потому что:

    • симметрично относительно A and B

    • не требует \(P(A) \neq 0\) or \(P(B) \neq 0\)

Независимость и Зависимость: Примеры

  • \(А\) - в городе снег; \(B\) - орел при броске

  • \(P(A) = 0.1, P(B|A) = 0.5 => P(A \cap B) = P(A)*P(B|A) = 0.05\)

  • Но также, \(P(A) * P(B) = 0.05\)

  • А теперь, \(С\) - пробки, и \(P(C) = 0.2\), но \(P(C|A) = 0.5\)

  • Тогда, \(P(A\cap C) = P(A)*P(C|A) = 0.05\)

  • Но, \(P(A)*P(C) = 0.1*0.2 = 0.02\)

Неделя 3

Случайные переменные

  • У нас есть группа студентов, обозначим их для удобства буквами, \(\Omega = \{a, b, c, ..\}\)
  • Случайное событие - выбираем случайного студента и фиксируем его рост
  • Например, был выбран студент \(a\) с ростом \(h_a = 182\) (см)
  • В другой раз мог бы быть выбран студент \(c\) с ростом \(h_c = 150\)
  • Рост каждого студента это некое число \(h\). Но рост случайного студента - это случайная переменная, \(H\)

Случайные переменные

  • \(H\) - это объект, чье значение определено как только мы знаем результат случайного события (т.е. студента, который был выбран)
  • В этом смыле, \(H\) является функцией случайного события: \(H: \Omega \rightarrow H(\omega) = h\)
  • Случайная переменная “дает” численное значение результату случайного события

Пример

  • Мы бросили монетку 3 раза
  • Типичный элемент Пространства Исходов, \(\Omega\), выглядит как \(\omega = HHT\)
  • Теперь введем переменную \(X\) - сколько раз выпал “орел”
  • \(X\) может принимать значения от \(0\) до \(3\). Например, \(X(HHT) = 2\)
  • Случайная переменная обозначается заглавной буквой, например \(X\), ее значения, строчной - \(x\)
  • \(X = x\) значит, что переменная \(X\) приняла значение \(x\)

Функция Случайной Переменной

  • Любая функция случайной переменной, сама является случайной переменной

  • Например, \(X\) - бросок кубика, \(Y = X^2\) - результат этого же броска в квадрате, тоже случайная переменная

  • Другие, примеры \(H\) - рост случайного человека, \(W\) - вес случайного человека, \(U = W/H^2\) - индекс массы тела, случайного человека, тоже случайная переменная

Probability mass function (PMF) дискретной переменной

  • PMF of \(X\) - это просто распределение вероятности по значением \(X\)
  • Например, у нас три студента \(\{a, b, c\}\) и случайная переменная \(X\) , которая дает нам рост случайного студента. Допустим, \(x_a = 153, x_b = 175, x_c = 175\)
  • Вероятность \(P(X = 153) = 1/3\), а вероятность \(P(X = 175) = 2/3\)
  • PMF - это функция, которая для любого \(x\) дает вероятность \(P(X = x)\)
  • Формально, \(p_X(*): X \rightarrow [0,1]\)
  • PMF записывается как \(p_X(x) = P(X = x)\)

PMF дискретной переменной

  • Случайное событие: два броска шестигранного кубика (2d6) \(X\) - первый бросок, \(Y\) - второй бросок
  • Каждый исход равновероятен
    • например, \(P(X = 1, Y = 2) = 1/36\)
  • Введем новую переменную \(Z = X + Y\), найдем \(p_Z(z)\) для всех \(z\)
  • \(z \in \{2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12\}\)
  • фиксируем \(z\):
    • выбираем все пары \(x, y\) для которых \(z = x + y\)
    • складываем соответствующией вероятности \(P(X = x, Y = y)\)
    • Например, \(p_Z(2) = P(Z = 2) = 1/36\), \(p_Z(3) = P(Z = 3) = 2/36\), …

PMF дискретной переменной

Задать случайное распределение

  • Задать распределение = задать случайную переменную = задать PMF (!!!)

  • Это все синонимы

Распределение Бернулли

  • Распределение Бернулли моделирует ситуацию, в которой у вас одно испытание и некое событие может произойти с вероятностью \(p\)
    • Задается одним параметром: \(p \in [0,1]\)
  • PMF:

\[ p_X(0) = 1-p \\ p_X(1) = p \]

Дискретное Равномерное Распределение

  • Случайное событие: возьмем случайное целое число из интервала \([a, b]\)
  • Параметры: \(a, b \in Z\)
  • Пространство исходов: \(\{a, a+1, ..., b\}\), \(|\Omega| = b-a+1\)
  • Случайная переменная \(X: X(\omega) = \omega\)
  • \(p_X(x) = \frac{1}{b-a+1}, \forall x\)
  • Модель максимальной неопределенности (незнания)
    • e.g. мы знаем возможные исходы, но ничего об их вероятности
  • Обозначается: \(X \sim U[a,b]\)

Биноминальное распределение

  • Событие: \(n\) бросков монетки, где \(P(Орел) = p\)
  • Пространство исходов: последовательности “орлов” или “решек” длинной \(n\)
    • n = 3: \(\omega = ООР\) or = \(ОРО\)
    • n = 10: \(\omega = РРООРООООР\)
  • Случайная переменная \(X\): число “орлов” в последовательности
    • if \(\omega = ООР, X(\omega) = 2\)
    • if \(\omega = РРР, X(\omega) = 0\)
  • Параметры:
    • \(n \in Z^+; p \in [0,1]\)

Биномиальное распределение

  • Модель числа “успехов” в последовательности идентичных и независимых испытаний

\[ p_X(2) = P(X = 2) = \\ P(ООР) + P(ОРО) + P(РОО) = \\ 3p^2(1-p) = \binom 3 2 p^2(1-p) \]

Биномиальное распределение

  • Общий вид

\[ p_X(k) = \binom n k p^k(1-p)^{n-k}, \forall k = 0, 1, ..,n \]

Биномиальные коэффициенты

  • \(p_X(k) = \binom n k p^k(1-p)^{n-k}\)
  • Что такое \(\binom n k\)?
    • число способов выбрать \(k\) элементов из \(n\) элементов

\[ \binom n k = \frac{n!}{(n-k)!k!} \]

  • Например, сколько есть способов выбрать 2 элемента из 3?

\[ \binom 3 2 = \frac{3!}{(3-2)!2!} = \frac{3*2*1}{1*2*1} = 3 \]

Почему биномиальные?

  • Также появляеются в разложении “бинома” (отсюда и название)

\[ (x + y)^n = \binom n 0x^ny^0 + \binom n 1x^{n-1}y^1 + \dots + \binom{n}{n-1}x^1y^{n-1} + \binom{n}{n}x^0y^{n} \\ (x + y)^n = \sum_{k=0}^{n}\binom{n}{k}x^ny^{n-k} \\ e.g. (x+y)^3 = \binom 3 0x^3y^0 + \binom 3 1x^2y^1 + \binom 3 2x^1y^2 + \binom 3 3x^0y^3\\ (x+y)^3 = x^3 + 3x^2y + 3xy^2 + y^3 \\ \textrm{special case, when }x=1, y=1 : \\ 2^n = \sum_{k=0}^{n}\binom{n}{k} \]

Ожидание (Expectation) дискретной С.П.

  • Пример: пусть \(X\) обозначает число чашек кофе, которое я выпиваю в случайный день. Зададим распределение.
    • \(p_X(1) = P(X = 1) = 3/10\)
    • \(p_X(2) = P(X = 2) = 6/10\)
    • \(p_X(3) = P(X = 3) = 1/10\)

Ожидание (Expectation) дискретной С.П.

  • Сколько чашек кофе я выпью в среднем за 100 дней?

\[ \textrm{Среднее число чашек } = \frac{1*30 + 2*60 + 3*10}{100} = 1.8 \\ \textrm{или} \\ \textrm{Среднее число чашек } = 1*\frac{3}{10} + 2*\frac{6}{10} + 3*\frac{1}{10} = 1.8 \]

  • Определение:

\[ E[X] = \sum_{x}xp_X(x) \]

  • Интерпретация: Среднее значение переменной в большом числе испытаний

Ожидание Бернулиевой С.П.

  • \(X \sim Be(p)\) значит, что \(X\) распределена по закону Бернулли с параметром \(p\)
  • pmf:
    • \(p_X(1) = p\)

    • \(p_X(0) = (1-p)\)

  • Тогда,

\[ E[X] = 0*(1-p) + 1*p = p \]

  • Ожидание переменной распределенной по закону Бернулли, равно вероятности “успеха”

  • Пример: Я бросаю “честную” монетку, каково ожидание появления “орла”?

  • \(X \sim Be(0.5) \rightarrow E[X] = 0.5\)

Ожидание Равномерной С.П.

  • \(X\) равномерно распределенная дискретная с.п. на множестве \(0, 1, \dots, n\)

\[ E[X] = \sum_x{x}{p_X(x)} = 0*\frac{1}{n+1} + 1*\frac{1}{n+1} + \dots + n*\frac{1}{n+1} = \\ \frac{1}{n+1}(0+1+\dots+n) = \frac{1}{n+1}\frac{n(n+1)}{2} = \frac{n}{2} \]

  • Когда распределение симметрично, ожидание будет центром симметрии
  • В общем случае, если распределение не симметрично, ожидание будет соответствовать “центру тяжести” распределения
  • Представьте, что вероятность - это вес, а центр тяжести это точка, в которой находится “равновесие” распределения

Ожидание как популяционное среднее

  • Допустим у нас \(n\) студентов
  • Рост \(i\)-го студента: \(h_i\)
  • Событие: выбираем случайного студента, все исходы равновероятны
  • Случайная Переменная \(H\): рост случайного студента
    • для простоты условимся, что все \(h_i\) уникальны

\[ p_H(h_i) = \frac{1}{n} \\ E[G] = \sum_hh_ip_H(h_i) = \sum_hh_i\frac{1}{n}=\frac{\sum_{h}h_i}{n} \]

  • Ожидание, \(E[H]\), случайно взятого студента равно среднему по популяции
    • Именно поэтому важна случайная, равновероятная выборка!!

Свойства Ожидания

  • Если \(c\) константа, \(E[c] = c\)
  • \(E[X + Y] = E[X] + E[Y]\)
  • if \(Y = g(X)\) then \(E[Y] = E[g(X)]\)

Пример, ожидание Биномиальной Переменной:

\[ X \sim Bi(n, p) \textrm{ : X is a binomial r.v. with params n and p} \\ \textrm{brute force way: } E[X] = \sum_{k=0}^{n}k\binom{n}{k}p^n(1-p)^{n-k} \\ \textrm{smart way}: X = Y_1 + Y_2 + \dots + Y_n, \textrm{where } Y_i \sim Be(p) \\ E[X] = E[Y_1 + \dots +Y_n]=E[Y_1] + \dots + E[Y_n] = p + \dots + p = np \\ E[X] = np \]

Пример с кошкой

  • У Дархана есть кошка, которая кусает его по утрам, если Дархан слишком долго спит. Шанс этого 10% для каждого утра.
  • Как много раз кошка укусит Дархана за год
    • \(E[X] = 364(n)*0.1(p) = 36.4\)

Отклонение от среднего Случайной Переменной

  • Ожидание дает нам представление о центре распределения
  • А что может дать нам информацию о “разбросе” распределения?
  • Например, есть \(X\), с ожиданием \(E[X] = \mu\)
  • Попробуем построить новую С.П.: \(Y =X - \mu\)
  • \(E[Y] = E[X -\mu] = E[X] - E[\mu] = \mu - \mu = 0\)
  • Не очень удачный выбор

Дисперсия (Variance) Случайной Переменной

  • Дисперсия (Variance) \(X\), определение

\[ var(X) = E[(X - \mu)^2] \geq 0 \\ \]

  • Свойства

\[ var(X) = E[X^2 - 2X\mu + \mu^2] = E[X^2] - E[2X\mu] + E[\mu^2] = \\ var(X) = E[X^2] - 2\mu E[X] + \mu^2 = E[X^2] - 2\mu^2 + \mu^2 = \\ var(X) = E[X^2] - \mu^2 \textrm{ (or) } = E[X^2] - (E[X])^2 \]

  • Стандартное отклонение

\[ \sigma_X = \sqrt{var(X)} \]

Дисперсия (Variation) of Bernoulli RV

  • Bernoulli: \(X \sim Be(p)\)
    • notice that \(X^2 = X\), these two take the same values \(0, 1\) with the same probabilities

\[ var(X) = E[X^2] - (E[X])^2 = E[X] - (E[X])^2 = p - p^2 = p(1-p) \]

Дисперсия (Variation) of Uniform RV

  • Uniform: \(Y \sim U[0, n]\), (special case)
    • \(E[Y] = \frac{n}{2}, p_Y(y) = \frac{1}{n+1}\)

\[ var(Y) = E[Y^2] - (E[Y])^2 = \frac{1}{n+1}(0^2+1^2+\dots+n^2) - \frac{n^2}{4} = \\ \textrm{ some dark algebra happens, and ..} \\ var(Y) = \frac{1}{12}n(n+2) \]

  • Uniform: \(Z \sim Uni(a, b)\), (general case)
    • realize that \(Z = Y + a, n = b - a\)
    • \(Var(Y + a) = Var(Y)\)

\[var(Z) = \frac{1}{12}(b-a)(b-a+2)\]

Непрерывные Случайные Переменные

  • Непрерывные случайные переменные: рост случайного человека, средняя оценка за год по математике случайно взятого школьника, и т.п.
  • Определение: Случайная переменная называется непрерывной, если существует функция \(f_x\) , которая называется функцией плотности вероятности (probability density function), такая что

\[ P(x \in A) = \int_{A}f_X(x)dx, \forall A \in R \\ \textrm{ в частности } \\ P(a \leq x \leq b) = \int_a^bf_X(x)dx \]

Интерпретация

  • To interpret the PDF, note that for an small interval \([x, x+\delta]\)

\[ P([x, x+\delta])\int_{x}^{x+\delta} f_X(t)dt \approx f_X(x)\delta \]

  • So we can view \(f_X(x)\) as “the probability mass per unit length”
  • Also important is that PDF - \(f_X(x)\) - is not the probability of any particular event
    • it can be larger than 1

Непрерывная Равномерная (Uniform) С.П.

  • \(X\) takes values on an interval \([a,b]\), and all intervals of the same length have the same probability
  • \(f_X(x) = \frac{1}{b-a}, \textrm{ for } a \leq x \leq b; 0 \textrm{ otherwise}\)

\[\int_a^{b}f_X(x) = \int_a^{b}\frac{1}{b-a}dx = 1\]

Ожидание непрерывной С.П.

\[ E[X] = \int_{-\infty}^{\infty}xf_X(x)dx \]

  • \(X \sim U[a, b], E[X] = ?\)

\[ E[X] = \int_{a}^{b}\frac{x}{b-a}dx = \frac{x^2}{2(b-a)}\bigg|_a^b = \frac{a+b}{2} \]

Кумулятивная функция распределения, CDF

  • Мы работали с дискретными и непрерывными случайными величинами, используя различные функции:
    • дискретная: функция массы вероятности (pmf), которая показывает, насколько велика вероятность того или иного значения
    • непрерывная: функция плотности вероятности, которая говорит о плотности вероятности в точке
  • Было бы неплохо иметь единое математическое понятие, позволяющее говорить как о дискретных, так и о непрерывных случайных величинах

Кумулятивная функция распределения, CDF

  • Познакомьтесь с CDF - кумулятивной функцией распределения

\[ F_X(x) = P(X \leq x) \\ \textrm{if X is discrete : } F_X(x) = P(X \leq x) = \sum_{k\leq x}p_X(k) \\ \textrm{if X is continuous : } F_X(x) = P(X \leq x) = \int_{-\infty}^{x}f_X(t)dt \]

Кумулятивная функция распределения, CDF

  • CDF - \(F_X(x)\) - показывает, сколько вероятности вы накопили вплоть до значения \(x\)
  • Любая случайная величина, связанная с данной моделью вероятности, имеет CDF, независимо от того, является ли она дискретной или непрерывной. Это объясняется тем, что \({X\leq x}\) всегда является событием и поэтому имеет вполне определенную вероятность
  • \(X \sim Uni(a, b), F_X(x) = ?\)

\[ F_X(x) = \int_{a}^{x}\frac{1}{b-a}dt = \frac{t}{b-a}\bigg|_{a}^{x} = \frac{x-a}{b-a} = \frac{1}{b-a}x - \frac{a}{b-a} \]

  • PDF - \(f_X(x)\) - можно получить из CDF - \(F_X(x)\) - если взять производную

\[ f_X(x) = \frac{dF_X}{dx}(x) \]

Нормальное Распределение

  • Непрерывная С.П. называется нормальной, если ее PDF имеет следующий вид

\[ f_X(x) = \frac{1}{\sqrt{2\pi}}e^{-(x-\mu)^2/2\sigma^2} \]

  • Определена параметрами \(\mu\) and \(\sigma\)
    • \(\mu\) задает центр распределения
    • \(\sigma\) задает стандартное откронения (standard deviation), которое определяет то, насколько разбросаны значения вокруг среднего
  • Записывается как \(X \sim N(\mu, \sigma)\)
  • \(E[X] = \mu\), the expected value of a normal random variable equals to its mean
  • \(Var(X) = \sigma^2\), the variance of a normal random variable

Нормальное семейство (Normal family)

Немного R

  • Допустим \(X \sim N(0, 1)\)
  • Мы хотели бы посчитать вероятность события \(P(X \leq 0)\)
  • Формально,

\[F_X(0) = P(X \leq 0) = \int_{-\infty}^{0}\frac{1}{\sqrt{2\pi}\sigma}e^{-(x-\mu)^2/2\sigma^2}dx\]

  • Но интуитивно, мы можем заметить, что речь идет о площаде под кривой меньше 0
    • посколько распределение симметричное, она равна 1/2
  • В частном случае, однако, нам придется брать этот сложный интеграл
  • Однако R сделает все за нас с помощью набора функции
    • dnorm(), pnorm(), qnorm(), rnorm()

dnorm()

  • dnorm() принимает на вход значение переменной, а возвращает значение плотности вероятности в этой точке
dnorm(x = c(1, 0, 1), mean = 0, sd = 1)
[1] 0.2419707 0.3989423 0.2419707
  • Я исползовал dnorm(), чтобы строить графики
my_tibble <-
  tibble(x = seq(-3, 3, by = 0.05)) %>% # first a create a vector of numbers
  mutate(y = dnorm(x)) # then I create a new variable with values of PDF
my_tibble %>% head()
# A tibble: 6 × 2
      x       y
  <dbl>   <dbl>
1 -3    0.00443
2 -2.95 0.00514
3 -2.9  0.00595
4 -2.85 0.00687
5 -2.8  0.00792
6 -2.75 0.00909

then I plot

my_tibble %>%
  ggplot(aes(x = x, y = y)) +
  geom_line() +
  labs(title = "PDF of a normal distribution") +
  annotate('text', x = 0, y = 0.41, 
        label = "mu==0~sigma==1", parse = TRUE, size = 5)

pnorm()

  • pnorm() на вход принимает значение переменной, а выдает то, сколько “вероятности” вы “накопили” к этой точке
# what is the probability that a standard normal
# random variable (mean = 0, sd = 1) takes on a value less than 0
pnorm(0, mean = 0, sd = 1)
[1] 0.5
  • By default, pnorm() calculates the probability of being less than a specified value: \(P(X \leq) = x\), if you want to find the probability of being larger that value, just subtract what pnorm() gives you from 1

\[ P(X > x) = 1 - P(X \leq x) \]

# what is the probability that a random normal variable 
# with mean = 10 and sd = 2, takes on a value larger than 15
1 - pnorm(15, mean = 10, sd = 2)
[1] 0.006209665

qnorm()

  • qnorm() считает квантили, точки, которые делять распределение в заданных пропорциях
  • На вход вы подаете пропорцию, то есть вероятность того, что переменная примет некое значение, а на выходе получаете точку, которая делит распределение в заданной пропорции

\[ qnorm(p) = x: P(X \leq x) = p \]

  • Where is the point that a random variable is less than that point 50% of the time?
qnorm(0.5, mean = 0, sd = 1)
[1] 0
  • Where is the point that a random variable is less than that point 50% of the time?
qnorm(0.25, mean = 0, sd = 1)
[1] -0.6744898
  • Where is the point that a random variable is larger than that point only 5% of the time?
# by default `qnorm()` assumes that a random variable takes values less than the point it needs to return, to change that use lower.tail = FALSE argument
qnorm(0.05, mean = 0, sd = 1, lower.tail = FALSE)
[1] 1.644854

rnorm()

  • rnorm() generates values of a normal random variable
my_random_values <- rnorm(10, mean = 0, sd = 1)
my_random_values
 [1]  0.391687108 -2.682613859 -0.114779553  1.385852587 -0.872211738
 [6] -0.646076511 -1.492310621  0.005216303  0.763094943 -1.655058929
  • Let’s build a histogram out of values like this
tibble(sim_values = rnorm(1000, mean = 0, sd = 1)) %>%
  ggplot(aes(x = sim_values)) +
  geom_histogram(bins = 30, color = "grey")

rnorm()

  • Then we can use these generated data to estimate a PDF of a random variable, it should resemble a normal shape, though it has not to be ideal
tibble(sim_values = rnorm(1000, mean = 0, sd = 1)) %>%
  ggplot(aes(x = sim_values)) +
  geom_histogram(bins = 30, color = "grey", aes(y = ..count../sum(..count..))) +
  geom_density(color = "skyblue2") +
  labs(y = "Proportion")

rnorm()

  • Let’s compare our generated data with the real PDF of a normal random variable
tibble(sim_values = rnorm(1000, mean = 0, sd = 1)) %>%
  ggplot(aes(x = sim_values)) +
  geom_histogram(bins = 30, color = "grey", aes(y = ..count../sum(..count..))) +
  geom_density(color = "skyblue2") +
  geom_line(data = my_tibble, aes(x = x, y = y), color = "maroon4") +
  labs(y = "Proportion")