统计学

黄晗
Spring 2019

第六章统计量及其抽样分布

统计量
关于分布的几个概念
由正态分布导出的几个重要分布
样本均值的分布与中心极限定理
样本比例的抽样分布
两个样本平均值之差的分布
关于样本方差的分布

学习目标

了解统计量及其分布的几个概念
了解由正态分布导出的几个重要分布
理解样本均值的分布与中心极限定理
掌握单样本比例和样本方差的抽样分布

6.1 统计量

统计量的概念
常用统计量
次序统计量
充分统计量

6.1 统计量

统计量

设\( X_1, X_2, ... , X_n \)是从总体\( X \)中抽取的容量为\( n \)的一个样本，如果由此样本构造一个函数\( T(X_1,X_2,…,X_n) \)，不依赖于任何未知参数，则称函数\( T(X_1,X_2,…,X_n) \)是一个统计量。

样本均值、样本比例、样本方差等都是统计量
统计量是样本的一个函数
统计量是统计推断的基础

6.1 统计量

次序统计量

一组样本观测值\( X_1, X_2, ... , X_n \)由小到大的排序 \[ X_{(1)} \leq X_{(2)} \leq ... \leq X_{(n)} \] 后，称\( X_{(1)}, X_{(2)}, \ldots, X_{(\mathrm{n})} \)为次序统计量。

中位数、分位数、四分位数等都是次序统计量
关于次序统计量的分布不在本课程讨论

6.2 关于分布的几个概念

抽样分布
渐进分布
随机模拟获得的近似分布

6.2 关于分布的几个概念

总体分布
- 总体中各元素的观察值所形成的分布
- 分布通常是未知的
- 可以假定它服从某种分布
样本分布
- 一个样本中各观察值的分布，也称经验分布
- 当样本容量𝑛逐渐增大时，样本分布逐渐接近总体的分布

6.2 关于分布的几个概念

抽样分布
- 在总体\( X \)的分布类型已知时，若对任意自然数\( n \)，都能导出统计量\( T=T\left(X_{1}, X_{2}, \dots, X_{n}\right) \)，的分布的数学表达式，这种分布成为抽样分布。

6.2 关于分布的几个概念

样本统计量的概率分布，是一种理论分布
- 在重复选取容量为n的样本时，由该统计量的所有可能取值形成的相对频数分布
随机变量是样本统计量
- 样本均值, 样本比例，样本方差等
结果来自容量相同的所有可能样本
提供了样本统计量长远而稳定的信息，是进行推断的理论基础，也是抽样推断科学性的重要依据

6.3 由正态分布导出的几个重要分布

\( \chi^2 \)分布
\( t \)分布
\( F \)分布

6.3.1 卡方分布

由阿贝(Abbe) 于1863年首先给出，后来由海尔墨特(Hermert)和卡·皮尔逊(K·Pearson) 分别于1875年和1900年推导出来。

设\( X \sim N\left(\mu, \sigma^{2}\right) \)，则\( z=\frac{X-\mu}{\sigma} \sim N(0,1) \)，令\( Y=z^{2} \)，则\( Y \)服从自由度为1的\( \chi^2 \)分布，即\( Y \sim \chi^{2}(1) \)。

当总体\( X \sim N\left(\mu, \sigma^{2}\right) \)，从中抽取容量为\( n \)的样本，则\[ \frac{\sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)^{2}}{\sigma^{2}} \sim \chi^{2}(n-1) \]

6.3.1 卡方分布

\( \chi^2 \)分布的性质和特点

分布的变量值始终为正
分布的形状取决于其自由度\( n \)的大小，通常为不对称的正偏分布，但随着自由度的增大逐渐趋于对称
期望为：\( E\left(\chi^{2}\right)=n \)，方差为：\( D\left(\chi^{2}\right)=2 n \)(\( n \)为自由度)
可加性：若\( U \)和\( V \)为两个独立的\( \chi^2 \)分布随机变量，\( U \sim \chi^{2}\left(n_{1}\right) \)，\( V \sim \chi^{2}\left(n_{2}\right) \)则\( U+V \)这一随机变量服从自由度为\( n_1+n_2 \)的\( \chi^2 \)分布

6.3.1 卡方分布

不同自由度的卡方分布

plot of chunk unnamed-chunk-1

6.3.2 t分布

高塞特(W. S. Gosset)于1908年在一篇以“Student”(学生)为笔名的论文中首次提出。
\( t \)分布是类似正态分布的一种对称分布，它通常要比正态分布平坦和分散。
一个特定的分布依赖于称之为自由度的参数。
随着自由度的增大，分布也逐渐趋于正态分布。

6.3.2 t分布

plot of chunk unnamed-chunk-2

6.3.3 F分布

由统计学家费希尔(R. A. Fisher) 提出的，以其姓氏的第一个字母来命名。
设随机变量\( Y \)与\( Z \)相互独立，且\( Y \)和\( Z \)分别服从自由度为\( m \)和\( n \)的\( \chi^2 \)分布，随机变量\( X \)有如下表达式：\[ X=\frac{Y/m}{Z/n}=\frac{nY}{mZ} \] 则称\( X \)服从第一自由度为\( m \)，第二自由度为\( n \)的\( F \)分布，记为\( F(m,n) \)，简记为\( X \sim F(m,n) \)。

6.3.3 F分布

不同自由度F分布示意图

plot of chunk unnamed-chunk-3

6.4 样本均值的分布与中心极限定理

样本均值的抽样分布
中心极限定理
F分布

6.4.1 样本均值的抽样分布

样本均值的抽样分布

当总体分布为正态分布\( N\left(\mu, \sigma^{2}\right) \)时，可以得到下面的结果：

\( \bar{X} \)的抽样分布仍为正态分布，\( \bar{X} \)的数学期望为\( \mu \)，方差为\( \sigma^{2} \)，则\[ \bar{X} \sim N\left(\mu, \frac{\sigma^{2}}{n}\right) \]

抽样分布是一种理论概率分布，是推断总体均值\( \mu \)的理论基础。

6.4.1 样本均值的抽样分布

设一个总体，含有4个元素，即总体单位数\( N=4 \)。4个元素分别为\( x_1=1 \)，\( x_2=2 \)，\( x_3=3 \)，\( x_4=4 \)。总体的均值、方差和分布如下： \[ \mu=\frac{\sum_{i=1}^{N} x_{i}}{N}=2.5 \] \[ \sigma^{2}=\frac{\sum_{i=1}^{N}\left(x_{i}-\mu\right)^{2}}{N}=1.25 \]

6.4.1 样本均值的抽样分布

总体分布

plot of chunk unnamed-chunk-4

6.4.1 样本均值的抽样分布

现从总体中抽取\( n=2 \)的简单随机样本，在重复抽样条件下，共有\( 4^2=16 \)个样本，所有样本的结果为：

	1	2	3	4
1	1,1	1,2	1,3	1,4
2	2,1	2,2	2,3	2,4
3	3,1	3,2	3,3	3,4
4	4,1	4,2	4,3	4,4

6.4.1 样本均值的抽样分布

计算出各样本的均值，如下表。并给出样本均值的抽样分布。

	1	2	3	4
1	1.0	1.5	2.0	2.5
2	1.5	2.0	2.5	3.0
3	2.0	2.5	3.0	3.5
4	2.5	3.0	3.5	4.0

6.4.1 样本均值的抽样分布

plot of chunk unnamed-chunk-5

平均值的均值和标准差如下：\( \mu_{\overline{x}}=2.5 \)，\( \sigma_{\overline{x}}^{2}=0.625 \)。

6.4.2 中心极限定理

从均值为\( \mu \)，方差为\( \sigma^2 \)的任意一个总体中抽取样本量为\( n \)的样本，当\( n \)充分大时，样本均值\( \bar{X} \)的抽样分布近似服从均值为\( \mu \)，方差为\( \frac{\sigma^2}{n} \)的正态分布。

6.4.2 中心极限定理

设从一个均值\( \mu=10 \)，标准差\( \sigma=0.6 \)的总体中随机选取容量为\( n=36 \)的样本。假定该总体不是很偏，要求：

计算样本均值\( \bar{X} \)小于9.9的近似概率。
计算样本均值\( \bar{X} \)超过9.9的近似概率。
计算样本均值\( \bar{X} \)在总体均值\( \mu=10 \)附近0.1范围内的近似概率。

6.4.2 中心极限定理

\( P(\overline{X}<9.9)=P\left(\frac{\overline{X}-\mu}{\sigma}<\frac{9.9-\mu}{\sigma}\right)=P\left(\frac{\overline{X}-10}{0.6}<\frac{9.9-10}{0.6}\right)=\Phi\left(\frac{1}{6}\right) \)
\( P(\overline{X}>9.9)=P\left(\frac{\overline{X}-\mu}{\sigma}>\frac{9.9-\mu}{\sigma}\right)=P\left(\frac{\overline{X}-9.9}{0.6}>\frac{1}{6}\right)=1-\Phi\left(\frac{1}{6}\right) \)
\( P(9.9<\overline{X}<10.1)=P\left(\frac{9.9-\mu}{\sigma}<\frac{\overline{X}-\mu}{\sigma}<\frac{10.1-\mu}{\sigma}\right)=2 \Phi\left(\frac{1}{6}\right)-1 \)

6.4.2 中心极限定理

某汽车电瓶商声称其生产的电瓶具有均值为60个月、标准差为6个月的寿命分布。现假设质检部门决定检验该厂的说法是否准确，为此随机抽取了50个该厂生产的电瓶进行寿命试验。

（1）假定厂商声称是正确的，试描述50个电瓶的平均寿命的抽样分布。

（2）假定厂商声称正确，则50个样品组成的样本的平均寿命不超过57个月的概率为多少？

6.4.2 中心极限定理

\( \overline{X} \sim N\left(60, \frac{36}{50}\right) \)
\( P(\overline{X}<57)=P\left(\frac{\overline{X}-60}{\sqrt{0.72}}<\frac{57-60}{\sqrt{0.72}}\right)=\Phi(-3.5357) \)

6.4.2 中心极限定理

从某地区统计中得知，该地区郊区平均每一家庭年收入为3160元，标准差为800元。从此郊区抽取50个家庭为一随机样本，平均每年收入为以下数字的平均概率是多少：（1）多于3000元；（2）少于3000元；（3）在3200元到3300元之间。

\( X \sim N\left(3160,800^{2}\right), \overline{X} \sim N\left(3160, \frac{800^{2}}{50}\right) \)

\( P(\overline{X}>3000)=P\left(\frac{\overline{X}-3160}{800 / \sqrt{50}}>\frac{3000-3160}{800 / \sqrt{50}}\right)=1-\Phi(-1.414) \)
\( P(\overline{X}<3000)=P\left(\frac{\overline{X}-3160}{800 / \sqrt{50}}<\frac{3000-3160}{800 / \sqrt{50}}\right)=\Phi(-1.414) \)

6.4.2 中心极限定理

\( \begin{array}{l}{P(3200<\overline{X}<3300)} \\ {=P\left(\frac{300-3200}{800 / \sqrt{50}}<\frac{\overline{X}-3200}{800 / \sqrt{50}}<\frac{3000-3300}{800 / \sqrt{50}}\right)} \\ {=\Phi(-2.652)-\Phi(-1.768)}\end{array} \)

6.5 样本比例的抽样分布

样本均值的抽样分布
中心极限定理
F分布

6.5 样本比例的抽样分布

总体(或样本)中具有某种属性的单位与全部单位总数之比。例如
- 不同性别的人与全部人数之比
- 合格品(或不合格品) 与全部产品总数之比
总体比例可以表示为\( \pi=\frac{N_{0}}{N} \) 或 \( 1 - \pi=\frac{N_{1}}{N} \)
样本比例可以表示为\( p=\frac{n_{0}}{n} \) 或 \( 1-p=\frac{n_{1}}{n} \)

6.5 样本比例的抽样分布

在重复选取容量为𝑛的样本时，由样本比例的所有可能取值形成的相对频数分布。

当样本容量很大时，样本比例的抽样分布可用正态分布近似；他是推断总体比例\( \pi \)的理论基础。

样本比例的数学期望\( E(p)=\pi \)

样本比例的方差

\( \sigma_{p}^{2}=\frac{\pi(1-\pi)}{n} \)（重复抽样）

\( \sigma_{p}^{2}=\frac{\pi(1-\pi)}{n} \times\left(\frac{N-n}{N-1}\right) \)（不重复抽样）

6.5 两个样本均值之差的抽样分布

两个总体都是正态分布，即\( X_{1} \sim N\left(\mu_{1}, \sigma_{1}^{2}\right) \)，\( X_{2} \sim N\left(\mu_{2}, \sigma_{2}^{2}\right) \)，那么两个样本均值之差\( \overline{X}_{1}-\overline{X}_{2} \)的抽样分布服从正态分布，其分布的数学期望为两个总体均值之差，即\( E\left(\overline{X}_{1}-\overline{X}_{2}\right)=\mu_{1}-\mu_{2} \)，方差为各自的方差之和，即\( \sigma_{\overline{X}_{1}-\overline{X}_{2}}^{2}=\frac{\sigma_{1}^{2}}{n_{1}}+\frac{\sigma_{2}^{2}}{n_{2}} \)。

\[ \overline{X}_{1}-\overline{X}_{2} \sim N\left(\mu_{1}-\mu_{2}, \frac{\sigma_{1}^{2}}{n_{1}}+\frac{\sigma_{2}^{2}}{n_{2}}\right) \]

6.5 两个样本均值之差的抽样分布

设有甲、乙两所著名高校在某年录取新生时，甲校的平均分为655分，且服从正态分布，标准差为20分；乙校的平均分为625分，也是正态分布，标准差为25分。现从甲、乙两校各随机抽取8名新生计算其平均分数，出现甲校比乙校的平均分低的可能性有多大？

根据\( \overline{X}_{1}-\overline{X}_{2} \sim N\left(\mu_{1}-\mu_{2}, \frac{\sigma_{1}^{2}}{n_{1}}+\frac{\sigma_{2}^{2}}{n_{2}}\right) \)，得\( \overline{X}_{1}-\overline{X}_{2} \sim N(30,128.125) \)

\( \begin{array}{l}{P\left(\overline{X}_{1}-\overline{X}_{2}<0\right)=P\left(\frac{\left(\overline{X}_{1}-\overline{X}_{2}\right)-30}{\sqrt{128.125}}<\frac{0-30}{\sqrt{128.125}}\right)} \\ {=\Phi(-2.6504)}\end{array} \)

6.6 两个样本比例之差的抽样分布

设分别从具有参数\( \pi_1 \)和参数\( \pi_2 \)的二项总体中抽取包含\( n_1 \)个观测值和\( n_2 \)个观测值的独立样本，则两个样本比例差的抽样分布的数学期望为\( E\left(\hat{p}_{1}-\hat{p}_{2}\right)=\pi_{1}-\pi_{2} \)，方差为\( D\left(\hat{p}_{1}-\hat{p}_{2}\right)=\frac{\pi_{1}\left(1-\pi_{1}\right)}{n_{1}}+\frac{\pi_{2}\left(1-\pi_{2}\right)}{n_{2}} \)。

6.6 两个样本比例之差的抽样分布

一项抽样调查表明甲城市的消费者中有15%的人喝过商标为“圣洁”牌的矿泉水，而乙城市的消费者中只有8%的人喝过该种矿泉水。如果这些数据是真实的，那么当我们分别从甲城市抽取120人，乙城市抽取140人组成两个独立随机样本时，样本比例差𝑝_1−𝑝_2不低于0.08的概率有多大？

\( \hat{p}_{1} \sim N\left(0.15,0.0326^{2}\right) \)，\( \hat{p}_{2} \sim N\left(0.08,0.0248^{2}\right) \)

\( \hat{p}_{1}-\hat{p}_{2} \sim N\left(0.07,0.0399^{2}\right) \)

\( \begin{array}{l}{P\left(\hat{p}_{1}-\hat{p}_{2}<0.08\right)=P\left(\frac{\left(\hat{p}_{1}-\hat{p}_{2}\right)-0.07}{0.0399}<\frac{0.08-0.07}{0.0399}\right)} \\ {=\Phi(0.2509)}\end{array} \)

6.7 关于样本方差的抽样分布

样本方差的抽样分布
两个样本方差比的抽样分布

6.7.1 样本方差的抽样分布

在重复选取容量为\( n \)的样本时，由样本方差的所有可能取值形成的相对频数分布。对于来自正态总体的简单随机样本，则比值\( \frac{(n-1) s^{2}}{\sigma^{2}} \)的抽样分布服从自由度为\( n-1 \)的\( \chi^2 \)分布，即\( \frac{(n-1) s^{2}}{\sigma^{2}} \sim \chi^{2}(n-1) \)。

6.7.2 两个样本方差比的抽样分布

两个总体都为正态分布，即\( X_{1} \sim N\left(\mu_{1}, \sigma_{1}^{2}\right) \)，\( X_{2} \sim N\left(\mu_{2}, \sigma_{2}^{2}\right) \)，从两个总体中分别抽取容量为\( n_1 \)和\( n_2 \)的独立样本，两个样本方差比的抽样分布，服从分子自由度为\( n_1-1 \)，分母自由度为\( n_2-1 \)的\( F \)分布。即\( \frac{s_{1}^{2}}{s_{2}^{2}} \sim F\left(n_{1}-1, n_{2}-1\right) \)。

统计学

第六章 统计量及其抽样分布

学习目标

6.1 统计量

6.1 统计量

统计量

6.1 统计量

次序统计量

6.2 关于分布的几个概念

6.2 关于分布的几个概念

6.2 关于分布的几个概念

6.2 关于分布的几个概念

6.3 由正态分布导出的几个重要分布

6.3.1 卡方分布

6.3.1 卡方分布

\( \chi^2 \)分布的性质和特点

6.3.1 卡方分布

6.3.2 t分布

6.3.2 t分布

6.3.3 F分布

6.3.3 F分布

不同自由度F分布示意图

6.4 样本均值的分布与中心极限定理

6.4.1 样本均值的抽样分布

样本均值的抽样分布

6.4.1 样本均值的抽样分布

6.4.1 样本均值的抽样分布

总体分布

6.4.1 样本均值的抽样分布

6.4.1 样本均值的抽样分布

6.4.1 样本均值的抽样分布

6.4.2 中心极限定理

6.4.2 中心极限定理

6.4.2 中心极限定理

6.4.2 中心极限定理

6.4.2 中心极限定理

6.4.2 中心极限定理

6.4.2 中心极限定理

6.5 样本比例的抽样分布

6.5 样本比例的抽样分布

6.5 样本比例的抽样分布

6.5 两个样本均值之差的抽样分布

6.5 两个样本均值之差的抽样分布

6.6 两个样本比例之差的抽样分布

6.6 两个样本比例之差的抽样分布

6.7 关于样本方差的抽样分布

6.7.1 样本方差的抽样分布

6.7.2 两个样本方差比的抽样分布

第六章统计量及其抽样分布