[1] 0.2419707 0.3989423 0.2419707
3/9/23
Вероятность - это здравый смысл, сведенный к исчислению (Лаплас)
Tsitlikis and Kristakis (2002), p. 6
Непересекающиеся события:
Пересекающиеся события:
\[ P(A \cup B) = P(A) + P(B) - P(A \cap B) \\ P(A \cup B) = 3/6 + 2/6 - 1/6 = 4/6 = 2/3 \]
Допустим, кто сообщает вам, что этот случайно выбранный студент водит машину
Как это условие, изменит вероятность того, что этот студент мужчина?
Теперь наше пространство возможных исходов свелось, только к 4 студентам, которые отвечают условию (водят машину).
Условие будем выражать так
\[P(A|B) = \textrm{Вероятность A, при условии, что B произошло}\]
Определение: \[P(A|B) = \frac{P(A \cap B)}{P(B)} = \frac{3/12}{4/12} = \frac{3}{4} = 0.75\]
Проверка здравым смыслом (sanity check): какова вероятность события \(B\) при условии, что \(B\) произошло
И действительно, \(P(B|B) = \frac{P(B \cap B)}{P(B)} = \frac{P(B)}{P(B)} = 1\)
\(A\) - латинские заглавные буквы обозначают события, например, что в Астане сегодня утром идет снег; \(B\) - что в Астане пробки выше 8 баллов.
\(A \cup B\) - в городе снег ИЛИ пробки
\(A \cap B\) в городе снег И пробки
Отрицание события, то есть событие, которое состоит в том, что некое изначальное событие не произошло, мы обозначаем \(А^c\) и называем дополнением \(А\)
Дополнением, потому что \(А^c\) дополняет \(А\) до \(\Omega\): \(А^c \cup A = \Omega\)
\(A^c \cup B\) - в городе нет снега ИЛИ пробки
\[ P(A|B) = \frac{P(A \cap B)}{P(B)} <=> P(A \cap B) = P(B)*P(A|B) \]
\[ P(B|A) = \frac{P(A\cap B)}{P(A)} <=> P(A\cap B) = P(A)*P(B|A) \]
\[ P(A \cap B) = P(B)*P(A|B) \]
И наоборот
\[ P(A\cap B) = P(A)*P(B|A) \]
А теперь, давайте задумаемся, сможем ли мы восстановить вероятность события \(B\) из нашего знания о \(P(A \cap B)\)
Интуитивно, событие \(B\) может произойти при условии \(А\) и при условии \(А^c\). Также, два этих условия полностью исчерпывают все возможные “пути” к событию \(B\)
\[ P(B) = P(A \cap B) + P(A^c \cap B) = \\ P(A)P(B|A) + P(A^c)P(B|A^c) = \\ 0.01*0.98 + 0.99*0.05 = 0.0593 \]
Мы хотели посчитать вероятность беременности \(A\) при условии, что тест положителен \(B\)
Мы посчитали вероятность события человек беременнен И тест положителен: \(P(A \cap B) = P(A)*P(B|A)\)
Мы также посчитали вероятность события, что тест положителен: \(P(B) = P(A \cap B) + P(A^c \cap B)\)
Теперь у нас есть все, чтобы посчитать искомое:\(P(A|B) = \frac{P(A \cap B)}{P(B)} = \frac{0.0098}{0.0593} = 0.165\)
\[ P(A|B) = \frac{P(A)*P(B|A)}{P(B)} \]
Три события \(\{A_1, A_2, A_3\}\): \(A_1 \cup A_2 \cup A_3 = \Omega\) и \(A_i \cap A_j = \emptyset, \forall i \neq j\), это называется разбиением (partition) пространства исходов
Мы знаем все \(P(A_i)\) и \(P(B|A_i)\)
\[ P(О_2) = P(О_2 \cap О_1) + P(О_2 \cap О_1) = \\ P(О_2) = P(О_1)P(О_2|О_1) + P(Р_1)P(О_2|Р_1) = \\ P(О_2) = 1/2*1/2 + 1/2*1/2 = 1/2 \\ P(О_2) = 1/2 = P(О_2|О_1) \]
\[ P(A \cap B) = P(A)P(B) \]
Лучше, потому что:
симметрично относительно A and B
не требует \(P(A) \neq 0\) or \(P(B) \neq 0\)
\(А\) - в городе снег; \(B\) - орел при броске
\(P(A) = 0.1, P(B|A) = 0.5 => P(A \cap B) = P(A)*P(B|A) = 0.05\)
Но также, \(P(A) * P(B) = 0.05\)
А теперь, \(С\) - пробки, и \(P(C) = 0.2\), но \(P(C|A) = 0.5\)
Тогда, \(P(A\cap C) = P(A)*P(C|A) = 0.05\)
Но, \(P(A)*P(C) = 0.1*0.2 = 0.02\)
Любая функция случайной переменной, сама является случайной переменной
Например, \(X\) - бросок кубика, \(Y = X^2\) - результат этого же броска в квадрате, тоже случайная переменная
Другие, примеры \(H\) - рост случайного человека, \(W\) - вес случайного человека, \(U = W/H^2\) - индекс массы тела, случайного человека, тоже случайная переменная
Задать распределение = задать случайную переменную = задать PMF (!!!)
Это все синонимы
\[ p_X(0) = 1-p \\ p_X(1) = p \]
\[ p_X(2) = P(X = 2) = \\ P(ООР) + P(ОРО) + P(РОО) = \\ 3p^2(1-p) = \binom 3 2 p^2(1-p) \]
\[ p_X(k) = \binom n k p^k(1-p)^{n-k}, \forall k = 0, 1, ..,n \]
\[ \binom n k = \frac{n!}{(n-k)!k!} \]
\[ \binom 3 2 = \frac{3!}{(3-2)!2!} = \frac{3*2*1}{1*2*1} = 3 \]
\[ (x + y)^n = \binom n 0x^ny^0 + \binom n 1x^{n-1}y^1 + \dots + \binom{n}{n-1}x^1y^{n-1} + \binom{n}{n}x^0y^{n} \\ (x + y)^n = \sum_{k=0}^{n}\binom{n}{k}x^ny^{n-k} \\ e.g. (x+y)^3 = \binom 3 0x^3y^0 + \binom 3 1x^2y^1 + \binom 3 2x^1y^2 + \binom 3 3x^0y^3\\ (x+y)^3 = x^3 + 3x^2y + 3xy^2 + y^3 \\ \textrm{special case, when }x=1, y=1 : \\ 2^n = \sum_{k=0}^{n}\binom{n}{k} \]
\[ \textrm{Среднее число чашек } = \frac{1*30 + 2*60 + 3*10}{100} = 1.8 \\ \textrm{или} \\ \textrm{Среднее число чашек } = 1*\frac{3}{10} + 2*\frac{6}{10} + 3*\frac{1}{10} = 1.8 \]
\[ E[X] = \sum_{x}xp_X(x) \]
\(p_X(1) = p\)
\(p_X(0) = (1-p)\)
\[ E[X] = 0*(1-p) + 1*p = p \]
Ожидание переменной распределенной по закону Бернулли, равно вероятности “успеха”
Пример: Я бросаю “честную” монетку, каково ожидание появления “орла”?
\(X \sim Be(0.5) \rightarrow E[X] = 0.5\)
\[ E[X] = \sum_x{x}{p_X(x)} = 0*\frac{1}{n+1} + 1*\frac{1}{n+1} + \dots + n*\frac{1}{n+1} = \\ \frac{1}{n+1}(0+1+\dots+n) = \frac{1}{n+1}\frac{n(n+1)}{2} = \frac{n}{2} \]
\[ p_H(h_i) = \frac{1}{n} \\ E[G] = \sum_hh_ip_H(h_i) = \sum_hh_i\frac{1}{n}=\frac{\sum_{h}h_i}{n} \]
Пример, ожидание Биномиальной Переменной:
\[ X \sim Bi(n, p) \textrm{ : X is a binomial r.v. with params n and p} \\ \textrm{brute force way: } E[X] = \sum_{k=0}^{n}k\binom{n}{k}p^n(1-p)^{n-k} \\ \textrm{smart way}: X = Y_1 + Y_2 + \dots + Y_n, \textrm{where } Y_i \sim Be(p) \\ E[X] = E[Y_1 + \dots +Y_n]=E[Y_1] + \dots + E[Y_n] = p + \dots + p = np \\ E[X] = np \]
\[ var(X) = E[(X - \mu)^2] \geq 0 \\ \]
\[ var(X) = E[X^2 - 2X\mu + \mu^2] = E[X^2] - E[2X\mu] + E[\mu^2] = \\ var(X) = E[X^2] - 2\mu E[X] + \mu^2 = E[X^2] - 2\mu^2 + \mu^2 = \\ var(X) = E[X^2] - \mu^2 \textrm{ (or) } = E[X^2] - (E[X])^2 \]
\[ \sigma_X = \sqrt{var(X)} \]
\[ var(X) = E[X^2] - (E[X])^2 = E[X] - (E[X])^2 = p - p^2 = p(1-p) \]
\[ var(Y) = E[Y^2] - (E[Y])^2 = \frac{1}{n+1}(0^2+1^2+\dots+n^2) - \frac{n^2}{4} = \\ \textrm{ some dark algebra happens, and ..} \\ var(Y) = \frac{1}{12}n(n+2) \]
\[var(Z) = \frac{1}{12}(b-a)(b-a+2)\]
\[ P(x \in A) = \int_{A}f_X(x)dx, \forall A \in R \\ \textrm{ в частности } \\ P(a \leq x \leq b) = \int_a^bf_X(x)dx \]
\[ P([x, x+\delta])\int_{x}^{x+\delta} f_X(t)dt \approx f_X(x)\delta \]
\[\int_a^{b}f_X(x) = \int_a^{b}\frac{1}{b-a}dx = 1\]
\[ E[X] = \int_{-\infty}^{\infty}xf_X(x)dx \]
\[ E[X] = \int_{a}^{b}\frac{x}{b-a}dx = \frac{x^2}{2(b-a)}\bigg|_a^b = \frac{a+b}{2} \]
\[ F_X(x) = P(X \leq x) \\ \textrm{if X is discrete : } F_X(x) = P(X \leq x) = \sum_{k\leq x}p_X(k) \\ \textrm{if X is continuous : } F_X(x) = P(X \leq x) = \int_{-\infty}^{x}f_X(t)dt \]
\[ F_X(x) = \int_{a}^{x}\frac{1}{b-a}dt = \frac{t}{b-a}\bigg|_{a}^{x} = \frac{x-a}{b-a} = \frac{1}{b-a}x - \frac{a}{b-a} \]
\[ f_X(x) = \frac{dF_X}{dx}(x) \]
\[ f_X(x) = \frac{1}{\sqrt{2\pi}}e^{-(x-\mu)^2/2\sigma^2} \]
\[F_X(0) = P(X \leq 0) = \int_{-\infty}^{0}\frac{1}{\sqrt{2\pi}\sigma}e^{-(x-\mu)^2/2\sigma^2}dx\]
dnorm(), pnorm(), qnorm(), rnorm()dnorm()dnorm() принимает на вход значение переменной, а возвращает значение плотности вероятности в этой точкеdnorm(), чтобы строить графикиmy_tibble <-
tibble(x = seq(-3, 3, by = 0.05)) %>% # first a create a vector of numbers
mutate(y = dnorm(x)) # then I create a new variable with values of PDF
my_tibble %>% head()# A tibble: 6 × 2
x y
<dbl> <dbl>
1 -3 0.00443
2 -2.95 0.00514
3 -2.9 0.00595
4 -2.85 0.00687
5 -2.8 0.00792
6 -2.75 0.00909
then I plot
pnorm()pnorm() на вход принимает значение переменной, а выдает то, сколько “вероятности” вы “накопили” к этой точке# what is the probability that a standard normal
# random variable (mean = 0, sd = 1) takes on a value less than 0
pnorm(0, mean = 0, sd = 1)[1] 0.5
pnorm() calculates the probability of being less than a specified value: \(P(X \leq) = x\), if you want to find the probability of being larger that value, just subtract what pnorm() gives you from 1\[ P(X > x) = 1 - P(X \leq x) \]
qnorm()qnorm() считает квантили, точки, которые делять распределение в заданных пропорциях\[ qnorm(p) = x: P(X \leq x) = p \]
rnorm()rnorm() generates values of a normal random variable [1] 0.391687108 -2.682613859 -0.114779553 1.385852587 -0.872211738
[6] -0.646076511 -1.492310621 0.005216303 0.763094943 -1.655058929
rnorm()rnorm()