统计学

黄晗
Spring 2019

第六章 统计量及其抽样分布

  • 统计量
  • 关于分布的几个概念
  • 由正态分布导出的几个重要分布
  • 样本均值的分布与中心极限定理
  • 样本比例的抽样分布
  • 两个样本平均值之差的分布
  • 关于样本方差的分布

学习目标

  • 了解统计量及其分布的几个概念
  • 了解由正态分布导出的几个重要分布
  • 理解样本均值的分布与中心极限定理
  • 掌握单样本比例和样本方差的抽样分布

6.1 统计量

  • 统计量的概念
  • 常用统计量
  • 次序统计量
  • 充分统计量

6.1 统计量

统计量

设\( X_1, X_2, ... , X_n \)是从总体\( X \)中抽取的容量为\( n \)的一个样本,如果由此样本构造一个函数\( T(X_1,X_2,…,X_n) \),不依赖于任何未知参数,则称函数\( T(X_1,X_2,…,X_n) \)是一个统计量。

  • 样本均值、样本比例、样本方差等都是统计量

  • 统计量是样本的一个函数

  • 统计量是统计推断的基础

6.1 统计量

次序统计量

一组样本观测值\( X_1, X_2, ... , X_n \)由小到大的排序 \[ X_{(1)} \leq X_{(2)} \leq ... \leq X_{(n)} \] 后,称\( X_{(1)}, X_{(2)}, \ldots, X_{(\mathrm{n})} \)为次序统计量。

  • 中位数、分位数、四分位数等都是次序统计量

  • 关于次序统计量的分布不在本课程讨论

6.2 关于分布的几个概念

  • 抽样分布
  • 渐进分布
  • 随机模拟获得的近似分布

6.2 关于分布的几个概念

  • 总体分布

    • 总体中各元素的观察值所形成的分布
    • 分布通常是未知的
    • 可以假定它服从某种分布
  • 样本分布

    • 一个样本中各观察值的分布 ,也称经验分布
    • 当样本容量𝑛逐渐增大时,样本分布逐渐接近总体的分布

6.2 关于分布的几个概念

  • 抽样分布
    • 在总体\( X \)的分布类型已知时,若对任意自然数\( n \),都能导出统计量\( T=T\left(X_{1}, X_{2}, \dots, X_{n}\right) \),的分布的数学表达式,这种分布成为抽样分布。

6.2 关于分布的几个概念

  • 样本统计量的概率分布,是一种理论分布
    • 在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布
  • 随机变量是样本统计量
    • 样本均值, 样本比例,样本方差等
  • 结果来自容量相同的所有可能样本
  • 提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据

6.3 由正态分布导出的几个重要分布

  • \( \chi^2 \)分布
  • \( t \)分布
  • \( F \)分布

6.3.1 卡方分布

由阿贝(Abbe) 于1863年首先给出,后来由海尔墨特(Hermert)和卡·皮尔逊(K·Pearson) 分别于1875年和1900年推导出来。

设\( X \sim N\left(\mu, \sigma^{2}\right) \),则\( z=\frac{X-\mu}{\sigma} \sim N(0,1) \),令\( Y=z^{2} \),则\( Y \)服从自由度为1的\( \chi^2 \)分布,即\( Y \sim \chi^{2}(1) \)。

当总体\( X \sim N\left(\mu, \sigma^{2}\right) \),从中抽取容量为\( n \)的样本,则\[ \frac{\sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)^{2}}{\sigma^{2}} \sim \chi^{2}(n-1) \]

6.3.1 卡方分布

\( \chi^2 \)分布的性质和特点

  • 分布的变量值始终为正
  • 分布的形状取决于其自由度\( n \)的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称
  • 期望为:\( E\left(\chi^{2}\right)=n \),方差为:\( D\left(\chi^{2}\right)=2 n \)(\( n \)为自由度)
  • 可加性:若\( U \)和\( V \)为两个独立的\( \chi^2 \)分布随机变量,\( U \sim \chi^{2}\left(n_{1}\right) \),\( V \sim \chi^{2}\left(n_{2}\right) \)则\( U+V \)这一随机变量服从自由度为\( n_1+n_2 \)的\( \chi^2 \)分布

6.3.1 卡方分布

不同自由度的卡方分布

plot of chunk unnamed-chunk-1

6.3.2 t分布

  • 高塞特(W. S. Gosset)于1908年在一篇以“Student”(学生)为笔名的论文中首次提出。
  • \( t \)分布是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散。
  • 一个特定的分布依赖于称之为自由度的参数。
  • 随着自由度的增大,分布也逐渐趋于正态分布。

6.3.2 t分布

plot of chunk unnamed-chunk-2

6.3.3 F分布

  • 由统计学家费希尔(R. A. Fisher) 提出的,以其姓氏的第一个字母来命名。
  • 设随机变量\( Y \)与\( Z \)相互独立,且\( Y \)和\( Z \)分别服从自由度为\( m \)和\( n \)的\( \chi^2 \)分布,随机变量\( X \)有如下表达式:\[ X=\frac{Y/m}{Z/n}=\frac{nY}{mZ} \] 则称\( X \)服从第一自由度为\( m \),第二自由度为\( n \)的\( F \)分布,记为\( F(m,n) \),简记为\( X \sim F(m,n) \)。

6.3.3 F分布

不同自由度F分布示意图

plot of chunk unnamed-chunk-3

6.4 样本均值的分布与中心极限定理

  • 样本均值的抽样分布
  • 中心极限定理
  • F分布

6.4.1 样本均值的抽样分布

样本均值的抽样分布

当总体分布为正态分布\( N\left(\mu, \sigma^{2}\right) \)时,可以得到下面的结果:

\( \bar{X} \)的抽样分布仍为正态分布,\( \bar{X} \)的数学期望为\( \mu \),方差为\( \sigma^{2} \),则\[ \bar{X} \sim N\left(\mu, \frac{\sigma^{2}}{n}\right) \]

  • 抽样分布是一种理论概率分布,是推断总体均值\( \mu \)的理论基础。

6.4.1 样本均值的抽样分布

设一个总体,含有4个元素,即总体单位数\( N=4 \)。4个元素分别为\( x_1=1 \),\( x_2=2 \),\( x_3=3 \),\( x_4=4 \)。总体的均值、方差和分布如下: \[ \mu=\frac{\sum_{i=1}^{N} x_{i}}{N}=2.5 \] \[ \sigma^{2}=\frac{\sum_{i=1}^{N}\left(x_{i}-\mu\right)^{2}}{N}=1.25 \]

6.4.1 样本均值的抽样分布

总体分布

plot of chunk unnamed-chunk-4

6.4.1 样本均值的抽样分布

现从总体中抽取\( n=2 \)的简单随机样本,在重复抽样条件下,共有\( 4^2=16 \)个样本,所有样本的结果为:

1 2 3 4
1 1,1 1,2 1,3 1,4
2 2,1 2,2 2,3 2,4
3 3,1 3,2 3,3 3,4
4 4,1 4,2 4,3 4,4

6.4.1 样本均值的抽样分布

计算出各样本的均值,如下表。并给出样本均值的抽样分布。

1 2 3 4
1 1.0 1.5 2.0 2.5
2 1.5 2.0 2.5 3.0
3 2.0 2.5 3.0 3.5
4 2.5 3.0 3.5 4.0

6.4.1 样本均值的抽样分布

plot of chunk unnamed-chunk-5

平均值的均值和标准差如下:\( \mu_{\overline{x}}=2.5 \),\( \sigma_{\overline{x}}^{2}=0.625 \)。

6.4.2 中心极限定理

从均值为\( \mu \),方差为\( \sigma^2 \)的任意一个总体中抽取样本量为\( n \)的样本,当\( n \)充分大时,样本均值\( \bar{X} \)的抽样分布近似服从均值为\( \mu \),方差为\( \frac{\sigma^2}{n} \)的正态分布。

6.4.2 中心极限定理

设从一个均值\( \mu=10 \),标准差\( \sigma=0.6 \)的总体中随机选取容量为\( n=36 \)的样本。假定该总体不是很偏,要求:

  1. 计算样本均值\( \bar{X} \)小于9.9的近似概率。
  2. 计算样本均值\( \bar{X} \)超过9.9的近似概率。
  3. 计算样本均值\( \bar{X} \)在总体均值\( \mu=10 \)附近0.1范围内的近似概率。

6.4.2 中心极限定理

  1. \( P(\overline{X}<9.9)=P\left(\frac{\overline{X}-\mu}{\sigma}<\frac{9.9-\mu}{\sigma}\right)=P\left(\frac{\overline{X}-10}{0.6}<\frac{9.9-10}{0.6}\right)=\Phi\left(\frac{1}{6}\right) \)
  2. \( P(\overline{X}>9.9)=P\left(\frac{\overline{X}-\mu}{\sigma}>\frac{9.9-\mu}{\sigma}\right)=P\left(\frac{\overline{X}-9.9}{0.6}>\frac{1}{6}\right)=1-\Phi\left(\frac{1}{6}\right) \)
  3. \( P(9.9<\overline{X}<10.1)=P\left(\frac{9.9-\mu}{\sigma}<\frac{\overline{X}-\mu}{\sigma}<\frac{10.1-\mu}{\sigma}\right)=2 \Phi\left(\frac{1}{6}\right)-1 \)

6.4.2 中心极限定理

某汽车电瓶商声称其生产的电瓶具有均值为60个月、标准差为6个月的寿命分布。现假设质检部门决定检验该厂的说法是否准确,为此随机抽取了50个该厂生产的电瓶进行寿命试验。

(1)假定厂商声称是正确的,试描述50个电瓶的平均寿命的抽样分布。

(2)假定厂商声称正确,则50个样品组成的样本的平均寿命不超过57个月的概率为多少?

6.4.2 中心极限定理

  1. \( \overline{X} \sim N\left(60, \frac{36}{50}\right) \)

  2. \( P(\overline{X}<57)=P\left(\frac{\overline{X}-60}{\sqrt{0.72}}<\frac{57-60}{\sqrt{0.72}}\right)=\Phi(-3.5357) \)

6.4.2 中心极限定理

从某地区统计中得知,该地区郊区平均每一家庭年收入为3160元,标准差为800元。从此郊区抽取50个家庭为一随机样本,平均每年收入为以下数字的平均概率是多少:(1)多于3000元;(2)少于3000元;(3)在3200元到3300元之间。

\( X \sim N\left(3160,800^{2}\right), \overline{X} \sim N\left(3160, \frac{800^{2}}{50}\right) \)

  1. \( P(\overline{X}>3000)=P\left(\frac{\overline{X}-3160}{800 / \sqrt{50}}>\frac{3000-3160}{800 / \sqrt{50}}\right)=1-\Phi(-1.414) \)

  2. \( P(\overline{X}<3000)=P\left(\frac{\overline{X}-3160}{800 / \sqrt{50}}<\frac{3000-3160}{800 / \sqrt{50}}\right)=\Phi(-1.414) \)

6.4.2 中心极限定理

\( \begin{array}{l}{P(3200<\overline{X}<3300)} \\ {=P\left(\frac{300-3200}{800 / \sqrt{50}}<\frac{\overline{X}-3200}{800 / \sqrt{50}}<\frac{3000-3300}{800 / \sqrt{50}}\right)} \\ {=\Phi(-2.652)-\Phi(-1.768)}\end{array} \)

6.5 样本比例的抽样分布

  • 样本均值的抽样分布
  • 中心极限定理
  • F分布

6.5 样本比例的抽样分布

  • 总体(或样本)中具有某种属性的单位与全部单位总数之比。例如

    • 不同性别的人与全部人数之比
    • 合格品(或不合格品) 与全部产品总数之比
  • 总体比例可以表示为\( \pi=\frac{N_{0}}{N} \) 或 \( 1 - \pi=\frac{N_{1}}{N} \)

  • 样本比例可以表示为\( p=\frac{n_{0}}{n} \) 或 \( 1-p=\frac{n_{1}}{n} \)

6.5 样本比例的抽样分布

在重复选取容量为𝑛的样本时,由样本比例的所有可能取值形成的相对频数分布。

当样本容量很大时,样本比例的抽样分布可用正态分布近似;他是推断总体比例\( \pi \)的理论基础。

样本比例的数学期望\( E(p)=\pi \)

样本比例的方差

\( \sigma_{p}^{2}=\frac{\pi(1-\pi)}{n} \)(重复抽样)

\( \sigma_{p}^{2}=\frac{\pi(1-\pi)}{n} \times\left(\frac{N-n}{N-1}\right) \)(不重复抽样)

6.5 两个样本均值之差的抽样分布

两个总体都是正态分布,即\( X_{1} \sim N\left(\mu_{1}, \sigma_{1}^{2}\right) \),\( X_{2} \sim N\left(\mu_{2}, \sigma_{2}^{2}\right) \),那么两个样本均值之差\( \overline{X}_{1}-\overline{X}_{2} \)的抽样分布服从正态分布,其分布的数学期望为两个总体均值之差,即\( E\left(\overline{X}_{1}-\overline{X}_{2}\right)=\mu_{1}-\mu_{2} \),方差为各自的方差之和,即\( \sigma_{\overline{X}_{1}-\overline{X}_{2}}^{2}=\frac{\sigma_{1}^{2}}{n_{1}}+\frac{\sigma_{2}^{2}}{n_{2}} \)。

\[ \overline{X}_{1}-\overline{X}_{2} \sim N\left(\mu_{1}-\mu_{2}, \frac{\sigma_{1}^{2}}{n_{1}}+\frac{\sigma_{2}^{2}}{n_{2}}\right) \]

6.5 两个样本均值之差的抽样分布

设有甲、乙两所著名高校在某年录取新生时,甲校的平均分为655分,且服从正态分布,标准差为20分;乙校的平均分为625分,也是正态分布,标准差为25分。现从甲、乙两校各随机抽取8名新生计算其平均分数,出现甲校比乙校的平均分低的可能性有多大?

根据\( \overline{X}_{1}-\overline{X}_{2} \sim N\left(\mu_{1}-\mu_{2}, \frac{\sigma_{1}^{2}}{n_{1}}+\frac{\sigma_{2}^{2}}{n_{2}}\right) \),得\( \overline{X}_{1}-\overline{X}_{2} \sim N(30,128.125) \)

\( \begin{array}{l}{P\left(\overline{X}_{1}-\overline{X}_{2}<0\right)=P\left(\frac{\left(\overline{X}_{1}-\overline{X}_{2}\right)-30}{\sqrt{128.125}}<\frac{0-30}{\sqrt{128.125}}\right)} \\ {=\Phi(-2.6504)}\end{array} \)

6.6 两个样本比例之差的抽样分布

设分别从具有参数\( \pi_1 \)和参数\( \pi_2 \)的二项总体中抽取包含\( n_1 \)个观测值和\( n_2 \)个观测值的独立样本,则两个样本比例差的抽样分布的数学期望为\( E\left(\hat{p}_{1}-\hat{p}_{2}\right)=\pi_{1}-\pi_{2} \),方差为\( D\left(\hat{p}_{1}-\hat{p}_{2}\right)=\frac{\pi_{1}\left(1-\pi_{1}\right)}{n_{1}}+\frac{\pi_{2}\left(1-\pi_{2}\right)}{n_{2}} \)。

6.6 两个样本比例之差的抽样分布

一项抽样调查表明甲城市的消费者中有15%的人喝过商标为“圣洁”牌的矿泉水,而乙城市的消费者中只有8%的人喝过该种矿泉水。如果这些数据是真实的,那么当我们分别从甲城市抽取120人,乙城市抽取140人组成两个独立随机样本时,样本比例差𝑝_1−𝑝_2不低于0.08的概率有多大?

\( \hat{p}_{1} \sim N\left(0.15,0.0326^{2}\right) \),\( \hat{p}_{2} \sim N\left(0.08,0.0248^{2}\right) \)

\( \hat{p}_{1}-\hat{p}_{2} \sim N\left(0.07,0.0399^{2}\right) \)

\( \begin{array}{l}{P\left(\hat{p}_{1}-\hat{p}_{2}<0.08\right)=P\left(\frac{\left(\hat{p}_{1}-\hat{p}_{2}\right)-0.07}{0.0399}<\frac{0.08-0.07}{0.0399}\right)} \\ {=\Phi(0.2509)}\end{array} \)

6.7 关于样本方差的抽样分布

  • 样本方差的抽样分布

  • 两个样本方差比的抽样分布

6.7.1 样本方差的抽样分布

在重复选取容量为\( n \)的样本时,由样本方差的所有可能取值形成的相对频数分布。对于来自正态总体的简单随机样本,则比值\( \frac{(n-1) s^{2}}{\sigma^{2}} \)的抽样分布服从自由度为\( n-1 \)的\( \chi^2 \)分布,即\( \frac{(n-1) s^{2}}{\sigma^{2}} \sim \chi^{2}(n-1) \)。

6.7.2 两个样本方差比的抽样分布

两个总体都为正态分布,即\( X_{1} \sim N\left(\mu_{1}, \sigma_{1}^{2}\right) \),\( X_{2} \sim N\left(\mu_{2}, \sigma_{2}^{2}\right) \),从两个总体中分别抽取容量为\( n_1 \)和\( n_2 \)的独立样本,两个样本方差比的抽样分布,服从分子自由度为\( n_1-1 \),分母自由度为\( n_2-1 \)的\( F \)分布。即\( \frac{s_{1}^{2}}{s_{2}^{2}} \sim F\left(n_{1}-1, n_{2}-1\right) \)。