所以说,得到正面的概率取决于一个参数\(p\),也就是我们是否对硬币动手脚。
如果你充分理解了上面的话,那么你已经掌握了伯努利分布。
记为\(X\sim Bernoulli(p)\),其中\(p\)表示实验结果为\(1\)时的概率。
其分布律如下, \[\begin{equation}
\boxed{
\begin{matrix}
X & 0 & 1\\
\hline
P & 1-p & p
\end{matrix}
}
\end{equation}\]
有多个结果,所有结果发生概率相等,且结果变多的伯努利分布,则是均匀分布。
均匀分布可以是离散分布,也可以是连续分布。上面掷骰子的例子就是离散分布。
当均匀分布为离散分布时,其分布律如下, \[\begin{equation}
\boxed{
\begin{matrix}
X & x_1 & x_2 & ... & x_n\\
\hline
P & \frac{1}{n} & \frac{1}{n} & ... & \frac{1}{n}
\end{matrix}
}
\end{equation}\]
当均匀分布为连续分布时,记为\(X\sim U(a,b)\),其概率密度为, \[\begin{equation}
f(x)=\left\{
\begin{matrix}
\frac{1}{b-a},a<x<b\\
0,else
\end{matrix}
\right.
\end{equation}\]
左手硬币右手骰子。不对,我们再次拿起硬币。抛掷一枚均质硬币,扔\(10\)次、\(100\)次、\(1000\)次,分别有多少次扔出正面?
set.seed(1)
x_10 <- data.frame(x = sample(0:1, size=10, replace = TRUE))
x_100 <- data.frame(x = sample(0:1, size=100, replace = TRUE))
x_1000 <- data.frame(x = sample(0:1, size=1000, replace = TRUE))
table(x_10);table(x_100);table(x_1000)
## x_10
## 0 1
## 6 4
## x_100
## 0 1
## 49 51
## x_1000
## 0 1
## 496 504
这一计数的结果遵循二项分布。它的参数是试验数\(n\)和成功(即正面,或\(1\))的概率\(p\)。每次抛掷硬币得到的是一个遵循伯努利分布的结果,也就是一次伯努利试验。
如果有一个\(n\)次伯努利试验,每次伯努利试验的成功概率为\(p\),\(X\)代表成功的次数,则\(X\)的概率分布是二项分布,记为\(X\sim Binomial(n,p)\)。其分布率为, \[\begin{equation}
P(X=k)=\binom{k}{n}p^k(1-p)^{n-k}
\end{equation}\]
假如我很闲,平均每天扔硬币5次。那么我明天会扔硬币几次?
考虑一下,我们的理智会给我们什么样的答案?是不是明天依旧扔\(5\)次,或者\(5\)次左右的概率会明显高于扔\(10\)、甚至\(20\)次的概率?
当我们遇到这种事件,如果某事件以固定强度随机且独立地出现,该事件在单位时间内出现的次数的概率可以看成是服从泊松分布。
在我扔硬币的例子中,这个固定强度,也就是我平均每天扔硬币的次数为\(\lambda=5\),那么我明天扔硬币次数的概率,就服从泊松分布。
for(i in 0:20){
x[i] <- i
p[i] <- dpois(i,5)
}
coin_pois[,c('X',
'P'):=.(x,p)]
ggplot(setDF(coin_pois), aes(x=X,y=P)) + geom_point() +
xlab('扔硬币个数/天') + ylab('probability')
从概率图中可以看出,我们的理智是正确的,高概率次数集中在我每天扔硬币的平均次数周围。这种在切片时间内统计次数的伯努利分布,被称为泊松分布。
如果\(X\)满足泊松分布,那么我们记\(X\sim Poisson(\lambda)\)其分布律如下, \[\begin{equation}
P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda}
\end{equation}\]
之前求出的泊松分布实在限制太大,只告诉了我平均每天扔硬币的次数。不过没有关系,稍微扩展下可以得到新的函数: \[\begin{equation}
P(X=k,t)=\frac{(\lambda t)^k}{k!}e^{-\lambda t}
\end{equation}\]
通过新的这个函数就可知不同的时间段内我扔硬币的分布了(\(t=1\)时就是泊松分布): \[\begin{equation}
\boxed{
\begin{matrix}
condition & t & probability \\
\hline
每天扔k枚硬币 & 1 & \frac{(5)^k}{k!}e^{-5} \\
每半天扔k枚硬币 & \frac{1}{2} & \frac{(2.5)^k}{k!}e^{-2.5} \\
每三小时扔k枚硬币 & \frac{1}{8} & \frac{(0.625)^k}{k!}e^{-0.625}
\end{matrix}
}
\end{equation}\]
两次扔硬币之间的时间间隔大于\(t\)的概率,根据之前的分析,等同于\(t\)时间内没有扔硬币的概率,而后者的概率可以由泊松过程给出。至此所需的条件都齐备了,那么开始解题吧,假设随机变量: \[\begin{equation}
Y=两次扔硬币的时间间隔
\end{equation}\]
这个随机变量的概率可以如下计算: \[\begin{equation}
P(Y>t)=P(X=0,t)=\frac{(\lambda t)^0}{0!}e^{\lambda t}=e^{\lambda t}, t\geq 0
\end{equation}\]
进而有: \[\begin{equation}
P(Y\leq t)=1-P(Y>t)=1-e^{\lambda t}
\end{equation}\]
对其求导就可以得到概率密度函数: \[\begin{equation}
p(y)=\left\{
\begin{matrix}
\lambda e^{-\lambda y}, y\geq 0\\
0, y<0
\end{matrix}
\right.
\end{equation}\]
这就是扔硬币的时间间隔\(Y\)的概率密度函数,也称为指数分布。
接下来看一下指数分布的图像,我还是平均每天扔五次硬币。那么我每小时扔硬币的概率如图所示
hr <- seq(0,1,1/24)
x <- hr
p <- pexp(hr,5)
coin_exp[,c('X',
'P'):=.(x,p)]
ggplot(setDF(coin_exp), aes(x=X,y=P)) + geom_point() +
xlab('天') + ylab('扔过5枚硬币的概率')
如果我想了解当我在第一次出现正面向上之前,扔出了多少次背面向上的硬币?
假设我扔了\(20\)次硬币,那么根据分布我可以计算出当我第一次掷出正面向上之前,出现背面的次数的概率分布。 \[\begin{equation}
\boxed{
\begin{matrix}
X & 0 & 1 & 2 &... & 19\\
\hline
P & \frac{1}{2} & \frac{1}{2}^2 & \frac{1}{2}^3 &... & \frac{1}{2}^{20}
\end{matrix}
}
\end{equation}\]
其概率分布如图,
for(i in 1:20){
x[i] <- i-1
p[i] <- (1/2)^i
}
coin_geo[,c('X',
'P'):=.(x,p)]
ggplot(setDF(coin_geo), aes(x=X,y=P)) + geom_point() +
xlab('X') + ylab('P(X)')
我们可以称在\(20\)次掷硬币之后,计算在得到正面之前累计得到背面的次数的概率为几何分布。
如果\(X\)满足几何分布,那么我们记\(X\sim Geom(p)\)。其分布律如下, \[\begin{equation}
P(X=k)=(1-p)^{1-k}p,k=1,2,...
\end{equation}\]
当掷均匀硬币\(1000\)回合,每回合都掷\(20\)次时,每回合出现正面的平均数为多少?
依旧用R语言来实现一下,
for(i in 1:1000){
x <- sample(0:1, size=20, replace = TRUE)
t[i] <- mean(x)
}
ggplot(data.frame(t), aes(x=t)) + geom_histogram(binwidth = 0.01) +
xlab('mean(x)') + ylab('probability')
我们会发现,分布的图形越来越对称,接近一个钟形。
当掷非均匀硬币\(1000\)回合,每回合都掷\(20\)次时,每回合出现正面的平均数为多少?
依旧用R语言来实现一下,
for(i in 1:1000){
x <- sample(0:1, size=20, replace = TRUE, prob=c(0.2,0.8))
t[i] <- mean(x)
}
ggplot(data.frame(t), aes(x=t)) + geom_histogram(binwidth=0.01) +
xlab('mean(x)') + ylab('probability')
我们也会发现,分布的图形接近一个钟形。
当掷色子\(1000\)回合,每回合都掷\(20\)次时,每回合出现色子加起来的平均数又是多少?
for(i in 1:1000){
x <- sample(1:6, size=20, replace = TRUE, prob = c(1/6,1/6,1/6,1/6,1/6,1/6))
t[i] <- mean(x)
}
ggplot(data.frame(t), aes(x=t)) + geom_histogram(binwidth = 0.05) +
xlab('mean(x)') + ylab('probability')
也是一个钟形分布图。
从同一分布大量取样——任何分布——然后相加,样本的和近似遵循正态分布。取样数越大,样本之和就约接近正态分布。
无论原分布是何种分布,这一点均成立,真是令人惊奇。这称为中心极限定理。
当\(X\)满足正态分布时,我们记\(X\sim N(\mu,\sigma^2)\)。其分布律如下, \[\begin{equation}
p(x)=\frac{1}{\sigma\sqrt{2\pi}}exp\bigg(-\frac{(x-\mu)^2}{2\sigma^2}\bigg)
\end{equation}\]
从这个意义上说,正态分布和所有分布相关。不过,正态分布和累加尤为相关。伯努利实验的和遵循二项分布,随着试验数的增加,二项分布变得越来越接近正态分布。它的表兄弟超几何分布也是一样。泊松分布——二项分布的极端形式——也随着发生率参数的增加而逼近正态分布。
设随机变量相互独立,服从同一分布且有有限的数学期望\(\mu\)和方差\(\sigma^2\),则随机变量,在\(n\)无限增大时,其总和和均值均服从正态分布。
即当\(n\rightarrow +\infty\)时, \[\begin{equation}
\begin{aligned}
\bar{x} & \sim N(\mu,\sigma^2)\\
\sum{x} & \sim N(n\mu, \sigma^2)
\end{aligned}
\end{equation}\]
分布地图