还是不废话,先举个例子。

扔一次匀质硬币只有正反两种结果。(假定硬币落地时不可能以边缘立起,或者掉进下水道,或者被空中的鸟叼走等等…,反正是你能观察到扔硬币的结果。)在扔硬币之前,理智告诉我们有一半的可能性扔到正面,也就是说,\(50\%\)的概率是正面。反面同理。实际上,这是扔硬币的两种结果的概率分布。
所以扔一次均匀硬币的概率就是如图,

那么假如我们对硬币动了手脚,使反面的重量大于正面,导致反面更容易落地。那么,扔到正面的概率就不是\(50\%\),而是\(80\%\),扔到反面的概率则是\(20\%\)


所以说,得到正面的概率取决于一个参数\(p\),也就是我们是否对硬币动手脚。


如果你充分理解了上面的话,那么你已经掌握了伯努利分布。

伯努利分布:又叫做\(0-1\)分布,指一次随机实验,结果只有两种:成功(\(1\))和失败(\(0\))。成功的概率为\(p\),失败的概率为\(1-p\)


记为\(X\sim Bernoulli(p)\),其中\(p\)表示实验结果为\(1\)时的概率。
其分布律如下, \[\begin{equation} \boxed{ \begin{matrix} X & 0 & 1\\ \hline P & 1-p & p \end{matrix} } \end{equation}\]

你知道吗?其实很多分布都能很自然地从伯努利分布导出


我们来看一下概率分布的相互关系图。

概率分布关系图

虽然各分布的中文译名比较晦涩,但它们之间的关系直观而有趣,所以不管是学习它们还是记忆它们都很容易。

放下手里的硬币,我们换成质地均匀的骰子。在掷骰子之前,我们的理智又说了,得到骰子各点数的概率都是\(1/6\)。实际上,这是掷骰子的六种结果的概率分布。
所以扔一次均匀硬币的概率就是如图,

有多个结果,所有结果发生概率相等,且结果变多的伯努利分布,则是均匀分布。

均匀分布:也叫做矩形分布,它是对称概率分布,在相同长度间隔的分布概率是等可能的。


均匀分布可以是离散分布,也可以是连续分布。上面掷骰子的例子就是离散分布。
当均匀分布为离散分布时,其分布律如下, \[\begin{equation} \boxed{ \begin{matrix} X & x_1 & x_2 & ... & x_n\\ \hline P & \frac{1}{n} & \frac{1}{n} & ... & \frac{1}{n} \end{matrix} } \end{equation}\]
当均匀分布为连续分布时,记为\(X\sim U(a,b)\),其概率密度为, \[\begin{equation} f(x)=\left\{ \begin{matrix} \frac{1}{b-a},a<x<b\\ 0,else \end{matrix} \right. \end{equation}\]

左手硬币右手骰子。不对,我们再次拿起硬币。抛掷一枚均质硬币,扔\(10\)次、\(100\)次、\(1000\)次,分别有多少次扔出正面?

set.seed(1)
x_10 <- data.frame(x = sample(0:1, size=10, replace = TRUE))
x_100 <- data.frame(x = sample(0:1, size=100, replace = TRUE))
x_1000 <- data.frame(x = sample(0:1, size=1000, replace = TRUE))
table(x_10);table(x_100);table(x_1000)
## x_10
## 0 1 
## 6 4
## x_100
##  0  1 
## 49 51
## x_1000
##   0   1 
## 496 504

从过R语言进行模拟,当扔\(10\)次硬币时,我们得到\(6\)次反面,\(4\)次正面。当扔\(100\)次硬币时,我们得到\(49\)次反面,\(51\)次正面。当扔\(1000\)次硬币时,我们得到\(496\)次反面,\(504\)次正面。如图所示(可点选图例交互操作),



这一计数的结果遵循二项分布。它的参数是试验数\(n\)和成功(即正面,或\(1\))的概率\(p\)。每次抛掷硬币得到的是一个遵循伯努利分布的结果,也就是一次伯努利试验。

二项分布:指\(n\)次伯努利试验成功次数的离散概率分布。


如果有一个\(n\)次伯努利试验,每次伯努利试验的成功概率为\(p\)\(X\)代表成功的次数,则\(X\)的概率分布是二项分布,记为\(X\sim Binomial(n,p)\)。其分布率为, \[\begin{equation} P(X=k)=\binom{k}{n}p^k(1-p)^{n-k} \end{equation}\]


假如我很闲,平均每天扔硬币5次。那么我明天会扔硬币几次?
考虑一下,我们的理智会给我们什么样的答案?是不是明天依旧扔\(5\)次,或者\(5\)次左右的概率会明显高于扔\(10\)、甚至\(20\)次的概率?
当我们遇到这种事件,如果某事件以固定强度随机且独立地出现,该事件在单位时间内出现的次数的概率可以看成是服从泊松分布。
在我扔硬币的例子中,这个固定强度,也就是我平均每天扔硬币的次数为\(\lambda=5\),那么我明天扔硬币次数的概率,就服从泊松分布。

for(i in 0:20){
  x[i] <- i
  p[i] <- dpois(i,5)
}
coin_pois[,c('X',
             'P'):=.(x,p)]

ggplot(setDF(coin_pois), aes(x=X,y=P)) + geom_point() +
  xlab('扔硬币个数/天') + ylab('probability')


从概率图中可以看出,我们的理智是正确的,高概率次数集中在我每天扔硬币的平均次数周围。这种在切片时间内统计次数的伯努利分布,被称为泊松分布。

泊松分布适合于描述单位时间内随机事件发生的次数


如果\(X\)满足泊松分布,那么我们记\(X\sim Poisson(\lambda)\)其分布律如下, \[\begin{equation} P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda} \end{equation}\]


之前求出的泊松分布实在限制太大,只告诉了我平均每天扔硬币的次数。不过没有关系,稍微扩展下可以得到新的函数: \[\begin{equation} P(X=k,t)=\frac{(\lambda t)^k}{k!}e^{-\lambda t} \end{equation}\]
通过新的这个函数就可知不同的时间段内我扔硬币的分布了(\(t=1\)时就是泊松分布): \[\begin{equation} \boxed{ \begin{matrix} condition & t & probability \\ \hline 每天扔k枚硬币 & 1 & \frac{(5)^k}{k!}e^{-5} \\ 每半天扔k枚硬币 & \frac{1}{2} & \frac{(2.5)^k}{k!}e^{-2.5} \\ 每三小时扔k枚硬币 & \frac{1}{8} & \frac{(0.625)^k}{k!}e^{-0.625} \end{matrix} } \end{equation}\]
两次扔硬币之间的时间间隔大于\(t\)的概率,根据之前的分析,等同于\(t\)时间内没有扔硬币的概率,而后者的概率可以由泊松过程给出。至此所需的条件都齐备了,那么开始解题吧,假设随机变量: \[\begin{equation} Y=两次扔硬币的时间间隔 \end{equation}\]
这个随机变量的概率可以如下计算: \[\begin{equation} P(Y>t)=P(X=0,t)=\frac{(\lambda t)^0}{0!}e^{\lambda t}=e^{\lambda t}, t\geq 0 \end{equation}\]
进而有: \[\begin{equation} P(Y\leq t)=1-P(Y>t)=1-e^{\lambda t} \end{equation}\]
对其求导就可以得到概率密度函数: \[\begin{equation} p(y)=\left\{ \begin{matrix} \lambda e^{-\lambda y}, y\geq 0\\ 0, y<0 \end{matrix} \right. \end{equation}\]
这就是扔硬币的时间间隔\(Y\)的概率密度函数,也称为指数分布。

指数分布是描述泊松过程中的事件之间的时间的概率分布,即事件以恒定平均速率连续且独立地发生的过程。


接下来看一下指数分布的图像,我还是平均每天扔五次硬币。那么我每小时扔硬币的概率如图所示

hr <- seq(0,1,1/24)
x <- hr
p <- pexp(hr,5)
coin_exp[,c('X',
             'P'):=.(x,p)]

ggplot(setDF(coin_exp), aes(x=X,y=P)) + geom_point() +
  xlab('天') + ylab('扔过5枚硬币的概率')



如果我想了解当我在第一次出现正面向上之前,扔出了多少次背面向上的硬币?
假设我扔了\(20\)次硬币,那么根据分布我可以计算出当我第一次掷出正面向上之前,出现背面的次数的概率分布。 \[\begin{equation} \boxed{ \begin{matrix} X & 0 & 1 & 2 &... & 19\\ \hline P & \frac{1}{2} & \frac{1}{2}^2 & \frac{1}{2}^3 &... & \frac{1}{2}^{20} \end{matrix} } \end{equation}\]
其概率分布如图,

for(i in 1:20){
  x[i] <- i-1
  p[i] <- (1/2)^i
}
coin_geo[,c('X',
            'P'):=.(x,p)]

ggplot(setDF(coin_geo), aes(x=X,y=P)) + geom_point() +
  xlab('X') + ylab('P(X)')


我们可以称在\(20\)次掷硬币之后,计算在得到正面之前累计得到背面的次数的概率为几何分布。

几何分布:在\(n\)次伯努利试验中,试验\(k\)次才得到第一次成功的机率。


如果\(X\)满足几何分布,那么我们记\(X\sim Geom(p)\)。其分布律如下, \[\begin{equation} P(X=k)=(1-p)^{1-k}p,k=1,2,... \end{equation}\]


当掷均匀硬币\(1000\)回合,每回合都掷\(20\)次时,每回合出现正面的平均数为多少?
依旧用R语言来实现一下,

for(i in 1:1000){
  x <- sample(0:1, size=20, replace = TRUE)
  t[i] <- mean(x)
}
ggplot(data.frame(t), aes(x=t)) + geom_histogram(binwidth = 0.01) +
  xlab('mean(x)') + ylab('probability')


我们会发现,分布的图形越来越对称,接近一个钟形。


当掷非均匀硬币\(1000\)回合,每回合都掷\(20\)次时,每回合出现正面的平均数为多少?
依旧用R语言来实现一下,

for(i in 1:1000){
  x <- sample(0:1, size=20, replace = TRUE, prob=c(0.2,0.8))
  t[i] <- mean(x)
}
ggplot(data.frame(t), aes(x=t)) + geom_histogram(binwidth=0.01) +
  xlab('mean(x)') + ylab('probability')


我们也会发现,分布的图形接近一个钟形。


当掷色子\(1000\)回合,每回合都掷\(20\)次时,每回合出现色子加起来的平均数又是多少?

for(i in 1:1000){
  x <- sample(1:6, size=20, replace = TRUE, prob = c(1/6,1/6,1/6,1/6,1/6,1/6))
  t[i] <- mean(x)
}
ggplot(data.frame(t), aes(x=t)) + geom_histogram(binwidth = 0.05) +
  xlab('mean(x)') + ylab('probability')


也是一个钟形分布图。
从同一分布大量取样——任何分布——然后相加,样本的和近似遵循正态分布。取样数越大,样本之和就约接近正态分布。
无论原分布是何种分布,这一点均成立,真是令人惊奇。这称为中心极限定理。

正态分布:我们将具有集中性、对称性、均匀变动性且密度函数曲线呈钟形的分布称为正态分布。

中心极限定理:在一定条件下,大量独立随机变量的平均数是以正态分布为极限的。


\(X\)满足正态分布时,我们记\(X\sim N(\mu,\sigma^2)\)。其分布律如下, \[\begin{equation} p(x)=\frac{1}{\sigma\sqrt{2\pi}}exp\bigg(-\frac{(x-\mu)^2}{2\sigma^2}\bigg) \end{equation}\]


从这个意义上说,正态分布和所有分布相关。不过,正态分布和累加尤为相关。伯努利实验的和遵循二项分布,随着试验数的增加,二项分布变得越来越接近正态分布。它的表兄弟超几何分布也是一样。泊松分布——二项分布的极端形式——也随着发生率参数的增加而逼近正态分布。
设随机变量相互独立,服从同一分布且有有限的数学期望\(\mu\)和方差\(\sigma^2\),则随机变量,在\(n\)无限增大时,其总和和均值均服从正态分布。
即当\(n\rightarrow +\infty\)时, \[\begin{equation} \begin{aligned} \bar{x} & \sim N(\mu,\sigma^2)\\ \sum{x} & \sim N(n\mu, \sigma^2) \end{aligned} \end{equation}\]


本次简单梳理了一下常见分布之间的联系,用简单的例子将分布都串联起来。概率分布的知识浩如烟海,真正对概率分布感兴趣的可以从下面这张所有单元分布的地图开始。
分布地图

分布地图