Distributions

所以说，得到正面的概率取决于一个参数\(p\)，也就是我们是否对硬币动手脚。

如果你充分理解了上面的话，那么你已经掌握了伯努利分布。

伯努利分布：又叫做\(0-1\)分布，指一次随机实验，结果只有两种：成功（\(1\)）和失败（\(0\)）。成功的概率为\(p\)，失败的概率为\(1-p\)。

记为\(X\sim Bernoulli(p)\)，其中\(p\)表示实验结果为\(1\)时的概率。
其分布律如下， \[\begin{equation} \boxed{ \begin{matrix} X & 0 & 1\\ \hline P & 1-p & p \end{matrix} } \end{equation}\]

你知道吗？其实很多分布都能很自然地从伯努利分布导出

我们来看一下概率分布的相互关系图。

虽然各分布的中文译名比较晦涩，但它们之间的关系直观而有趣，所以不管是学习它们还是记忆它们都很容易。

放下手里的硬币，我们换成质地均匀的骰子。在掷骰子之前，我们的理智又说了，得到骰子各点数的概率都是\(1/6\)。实际上，这是掷骰子的六种结果的概率分布。
所以扔一次均匀硬币的概率就是如图，

有多个结果，所有结果发生概率相等，且结果变多的伯努利分布，则是均匀分布。

均匀分布：也叫做矩形分布，它是对称概率分布，在相同长度间隔的分布概率是等可能的。

均匀分布可以是离散分布，也可以是连续分布。上面掷骰子的例子就是离散分布。
当均匀分布为离散分布时，其分布律如下， \[\begin{equation} \boxed{ \begin{matrix} X & x_1 & x_2 & ... & x_n\\ \hline P & \frac{1}{n} & \frac{1}{n} & ... & \frac{1}{n} \end{matrix} } \end{equation}\]
当均匀分布为连续分布时，记为\(X\sim U(a,b)\)，其概率密度为， \[\begin{equation} f(x)=\left\{ \begin{matrix} \frac{1}{b-a},a<x<b\\ 0,else \end{matrix} \right. \end{equation}\]

左手硬币右手骰子。不对，我们再次拿起硬币。抛掷一枚均质硬币，扔\(10\)次、\(100\)次、\(1000\)次，分别有多少次扔出正面？

set.seed(1)
x_10 <- data.frame(x = sample(0:1, size=10, replace = TRUE))
x_100 <- data.frame(x = sample(0:1, size=100, replace = TRUE))
x_1000 <- data.frame(x = sample(0:1, size=1000, replace = TRUE))
table(x_10);table(x_100);table(x_1000)

## x_10
## 0 1 
## 6 4

## x_100
##  0  1 
## 49 51

## x_1000
##   0   1 
## 496 504

从过R语言进行模拟，当扔\(10\)次硬币时，我们得到\(6\)次反面，\(4\)次正面。当扔\(100\)次硬币时，我们得到\(49\)次反面，\(51\)次正面。当扔\(1000\)次硬币时，我们得到\(496\)次反面，\(504\)次正面。如图所示（可点选图例交互操作），

这一计数的结果遵循二项分布。它的参数是试验数\(n\)和成功（即正面，或\(1\)）的概率\(p\)。每次抛掷硬币得到的是一个遵循伯努利分布的结果，也就是一次伯努利试验。

二项分布：指\(n\)次伯努利试验成功次数的离散概率分布。

如果有一个\(n\)次伯努利试验，每次伯努利试验的成功概率为\(p\)，\(X\)代表成功的次数，则\(X\)的概率分布是二项分布，记为\(X\sim Binomial(n,p)\)。其分布率为， \[\begin{equation} P(X=k)=\binom{k}{n}p^k(1-p)^{n-k} \end{equation}\]

假如我很闲，平均每天扔硬币5次。那么我明天会扔硬币几次？
考虑一下，我们的理智会给我们什么样的答案？是不是明天依旧扔\(5\)次，或者\(5\)次左右的概率会明显高于扔\(10\)、甚至\(20\)次的概率？
当我们遇到这种事件，如果某事件以固定强度随机且独立地出现，该事件在单位时间内出现的次数的概率可以看成是服从泊松分布。
在我扔硬币的例子中，这个固定强度，也就是我平均每天扔硬币的次数为\(\lambda=5\)，那么我明天扔硬币次数的概率，就服从泊松分布。

for(i in 0:20){
  x[i] <- i
  p[i] <- dpois(i,5)
}
coin_pois[,c('X',
             'P'):=.(x,p)]

ggplot(setDF(coin_pois), aes(x=X,y=P)) + geom_point() +
  xlab('扔硬币个数/天') + ylab('probability')

从概率图中可以看出，我们的理智是正确的，高概率次数集中在我每天扔硬币的平均次数周围。这种在切片时间内统计次数的伯努利分布，被称为泊松分布。

泊松分布适合于描述单位时间内随机事件发生的次数

如果\(X\)满足泊松分布，那么我们记\(X\sim Poisson(\lambda)\)其分布律如下， \[\begin{equation} P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda} \end{equation}\]

之前求出的泊松分布实在限制太大，只告诉了我平均每天扔硬币的次数。不过没有关系，稍微扩展下可以得到新的函数： \[\begin{equation} P(X=k,t)=\frac{(\lambda t)^k}{k!}e^{-\lambda t} \end{equation}\]
通过新的这个函数就可知不同的时间段内我扔硬币的分布了（\(t=1\)时就是泊松分布）： \[\begin{equation} \boxed{ \begin{matrix} condition & t & probability \\ \hline 每天扔k枚硬币 & 1 & \frac{(5)^k}{k!}e^{-5} \\ 每半天扔k枚硬币 & \frac{1}{2} & \frac{(2.5)^k}{k!}e^{-2.5} \\ 每三小时扔k枚硬币 & \frac{1}{8} & \frac{(0.625)^k}{k!}e^{-0.625} \end{matrix} } \end{equation}\]
两次扔硬币之间的时间间隔大于\(t\)的概率，根据之前的分析，等同于\(t\)时间内没有扔硬币的概率，而后者的概率可以由泊松过程给出。至此所需的条件都齐备了，那么开始解题吧，假设随机变量： \[\begin{equation} Y=两次扔硬币的时间间隔 \end{equation}\]
这个随机变量的概率可以如下计算： \[\begin{equation} P(Y>t)=P(X=0,t)=\frac{(\lambda t)^0}{0!}e^{\lambda t}=e^{\lambda t}, t\geq 0 \end{equation}\]
进而有： \[\begin{equation} P(Y\leq t)=1-P(Y>t)=1-e^{\lambda t} \end{equation}\]
对其求导就可以得到概率密度函数： \[\begin{equation} p(y)=\left\{ \begin{matrix} \lambda e^{-\lambda y}, y\geq 0\\ 0, y<0 \end{matrix} \right. \end{equation}\]
这就是扔硬币的时间间隔\(Y\)的概率密度函数，也称为指数分布。

指数分布是描述泊松过程中的事件之间的时间的概率分布，即事件以恒定平均速率连续且独立地发生的过程。

接下来看一下指数分布的图像，我还是平均每天扔五次硬币。那么我每小时扔硬币的概率如图所示

hr <- seq(0,1,1/24)
x <- hr
p <- pexp(hr,5)
coin_exp[,c('X',
             'P'):=.(x,p)]

ggplot(setDF(coin_exp), aes(x=X,y=P)) + geom_point() +
  xlab('天') + ylab('扔过5枚硬币的概率')

如果我想了解当我在第一次出现正面向上之前，扔出了多少次背面向上的硬币？
假设我扔了\(20\)次硬币，那么根据分布我可以计算出当我第一次掷出正面向上之前，出现背面的次数的概率分布。 \[\begin{equation} \boxed{ \begin{matrix} X & 0 & 1 & 2 &... & 19\\ \hline P & \frac{1}{2} & \frac{1}{2}^2 & \frac{1}{2}^3 &... & \frac{1}{2}^{20} \end{matrix} } \end{equation}\]
其概率分布如图，

for(i in 1:20){
  x[i] <- i-1
  p[i] <- (1/2)^i
}
coin_geo[,c('X',
            'P'):=.(x,p)]

ggplot(setDF(coin_geo), aes(x=X,y=P)) + geom_point() +
  xlab('X') + ylab('P(X)')

我们可以称在\(20\)次掷硬币之后，计算在得到正面之前累计得到背面的次数的概率为几何分布。

几何分布：在\(n\)次伯努利试验中，试验\(k\)次才得到第一次成功的机率。

如果\(X\)满足几何分布，那么我们记\(X\sim Geom(p)\)。其分布律如下， \[\begin{equation} P(X=k)=(1-p)^{1-k}p,k=1,2,... \end{equation}\]

当掷均匀硬币\(1000\)回合，每回合都掷\(20\)次时，每回合出现正面的平均数为多少？
依旧用R语言来实现一下，

for(i in 1:1000){
  x <- sample(0:1, size=20, replace = TRUE)
  t[i] <- mean(x)
}
ggplot(data.frame(t), aes(x=t)) + geom_histogram(binwidth = 0.01) +
  xlab('mean(x)') + ylab('probability')

我们会发现，分布的图形越来越对称，接近一个钟形。

当掷非均匀硬币\(1000\)回合，每回合都掷\(20\)次时，每回合出现正面的平均数为多少？
依旧用R语言来实现一下，

for(i in 1:1000){
  x <- sample(0:1, size=20, replace = TRUE, prob=c(0.2,0.8))
  t[i] <- mean(x)
}
ggplot(data.frame(t), aes(x=t)) + geom_histogram(binwidth=0.01) +
  xlab('mean(x)') + ylab('probability')

我们也会发现，分布的图形接近一个钟形。

当掷色子\(1000\)回合，每回合都掷\(20\)次时，每回合出现色子加起来的平均数又是多少？

for(i in 1:1000){
  x <- sample(1:6, size=20, replace = TRUE, prob = c(1/6,1/6,1/6,1/6,1/6,1/6))
  t[i] <- mean(x)
}
ggplot(data.frame(t), aes(x=t)) + geom_histogram(binwidth = 0.05) +
  xlab('mean(x)') + ylab('probability')

也是一个钟形分布图。
从同一分布大量取样——任何分布——然后相加，样本的和近似遵循正态分布。取样数越大，样本之和就约接近正态分布。
无论原分布是何种分布，这一点均成立，真是令人惊奇。这称为中心极限定理。

正态分布：我们将具有集中性、对称性、均匀变动性且密度函数曲线呈钟形的分布称为正态分布。

中心极限定理：在一定条件下，大量独立随机变量的平均数是以正态分布为极限的。

当\(X\)满足正态分布时，我们记\(X\sim N(\mu,\sigma^2)\)。其分布律如下， \[\begin{equation} p(x)=\frac{1}{\sigma\sqrt{2\pi}}exp\bigg(-\frac{(x-\mu)^2}{2\sigma^2}\bigg) \end{equation}\]

从这个意义上说，正态分布和所有分布相关。不过，正态分布和累加尤为相关。伯努利实验的和遵循二项分布，随着试验数的增加，二项分布变得越来越接近正态分布。它的表兄弟超几何分布也是一样。泊松分布——二项分布的极端形式——也随着发生率参数的增加而逼近正态分布。
设随机变量相互独立，服从同一分布且有有限的数学期望\(\mu\)和方差\(\sigma^2\)，则随机变量，在\(n\)无限增大时，其总和和均值均服从正态分布。
即当\(n\rightarrow +\infty\)时， \[\begin{equation} \begin{aligned} \bar{x} & \sim N(\mu,\sigma^2)\\ \sum{x} & \sim N(n\mu, \sigma^2) \end{aligned} \end{equation}\]

本次简单梳理了一下常见分布之间的联系，用简单的例子将分布都串联起来。概率分布的知识浩如烟海，真正对概率分布感兴趣的可以从下面这张所有单元分布的地图开始。

分布地图