黄晗
Spring 2019
设\( X_1, X_2, ... , X_n \)是从总体\( X \)中抽取的容量为\( n \)的一个样本,如果由此样本构造一个函数\( T(X_1,X_2,…,X_n) \),不依赖于任何未知参数,则称函数\( T(X_1,X_2,…,X_n) \)是一个统计量。
样本均值、样本比例、样本方差等都是统计量
统计量是样本的一个函数
统计量是统计推断的基础
一组样本观测值\( X_1, X_2, ... , X_n \)由小到大的排序 \[ X_{(1)} \leq X_{(2)} \leq ... \leq X_{(n)} \] 后,称\( X_{(1)}, X_{(2)}, \ldots, X_{(\mathrm{n})} \)为次序统计量。
中位数、分位数、四分位数等都是次序统计量
关于次序统计量的分布不在本课程讨论
总体分布
样本分布
由阿贝(Abbe) 于1863年首先给出,后来由海尔墨特(Hermert)和卡·皮尔逊(K·Pearson) 分别于1875年和1900年推导出来。
设\( X \sim N\left(\mu, \sigma^{2}\right) \),则\( z=\frac{X-\mu}{\sigma} \sim N(0,1) \),令\( Y=z^{2} \),则\( Y \)服从自由度为1的\( \chi^2 \)分布,即\( Y \sim \chi^{2}(1) \)。
当总体\( X \sim N\left(\mu, \sigma^{2}\right) \),从中抽取容量为\( n \)的样本,则\[ \frac{\sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)^{2}}{\sigma^{2}} \sim \chi^{2}(n-1) \]
不同自由度的卡方分布
当总体分布为正态分布\( N\left(\mu, \sigma^{2}\right) \)时,可以得到下面的结果:
\( \bar{X} \)的抽样分布仍为正态分布,\( \bar{X} \)的数学期望为\( \mu \),方差为\( \sigma^{2} \),则\[ \bar{X} \sim N\left(\mu, \frac{\sigma^{2}}{n}\right) \]
设一个总体,含有4个元素,即总体单位数\( N=4 \)。4个元素分别为\( x_1=1 \),\( x_2=2 \),\( x_3=3 \),\( x_4=4 \)。总体的均值、方差和分布如下: \[ \mu=\frac{\sum_{i=1}^{N} x_{i}}{N}=2.5 \] \[ \sigma^{2}=\frac{\sum_{i=1}^{N}\left(x_{i}-\mu\right)^{2}}{N}=1.25 \]
现从总体中抽取\( n=2 \)的简单随机样本,在重复抽样条件下,共有\( 4^2=16 \)个样本,所有样本的结果为:
| 1 | 2 | 3 | 4 | |
|---|---|---|---|---|
| 1 | 1,1 | 1,2 | 1,3 | 1,4 |
| 2 | 2,1 | 2,2 | 2,3 | 2,4 |
| 3 | 3,1 | 3,2 | 3,3 | 3,4 |
| 4 | 4,1 | 4,2 | 4,3 | 4,4 |
计算出各样本的均值,如下表。并给出样本均值的抽样分布。
| 1 | 2 | 3 | 4 | |
|---|---|---|---|---|
| 1 | 1.0 | 1.5 | 2.0 | 2.5 |
| 2 | 1.5 | 2.0 | 2.5 | 3.0 |
| 3 | 2.0 | 2.5 | 3.0 | 3.5 |
| 4 | 2.5 | 3.0 | 3.5 | 4.0 |
平均值的均值和标准差如下:\( \mu_{\overline{x}}=2.5 \),\( \sigma_{\overline{x}}^{2}=0.625 \)。
从均值为\( \mu \),方差为\( \sigma^2 \)的任意一个总体中抽取样本量为\( n \)的样本,当\( n \)充分大时,样本均值\( \bar{X} \)的抽样分布近似服从均值为\( \mu \),方差为\( \frac{\sigma^2}{n} \)的正态分布。
设从一个均值\( \mu=10 \),标准差\( \sigma=0.6 \)的总体中随机选取容量为\( n=36 \)的样本。假定该总体不是很偏,要求:
某汽车电瓶商声称其生产的电瓶具有均值为60个月、标准差为6个月的寿命分布。现假设质检部门决定检验该厂的说法是否准确,为此随机抽取了50个该厂生产的电瓶进行寿命试验。
(1)假定厂商声称是正确的,试描述50个电瓶的平均寿命的抽样分布。
(2)假定厂商声称正确,则50个样品组成的样本的平均寿命不超过57个月的概率为多少?
\( \overline{X} \sim N\left(60, \frac{36}{50}\right) \)
\( P(\overline{X}<57)=P\left(\frac{\overline{X}-60}{\sqrt{0.72}}<\frac{57-60}{\sqrt{0.72}}\right)=\Phi(-3.5357) \)
从某地区统计中得知,该地区郊区平均每一家庭年收入为3160元,标准差为800元。从此郊区抽取50个家庭为一随机样本,平均每年收入为以下数字的平均概率是多少:(1)多于3000元;(2)少于3000元;(3)在3200元到3300元之间。
\( X \sim N\left(3160,800^{2}\right), \overline{X} \sim N\left(3160, \frac{800^{2}}{50}\right) \)
\( P(\overline{X}>3000)=P\left(\frac{\overline{X}-3160}{800 / \sqrt{50}}>\frac{3000-3160}{800 / \sqrt{50}}\right)=1-\Phi(-1.414) \)
\( P(\overline{X}<3000)=P\left(\frac{\overline{X}-3160}{800 / \sqrt{50}}<\frac{3000-3160}{800 / \sqrt{50}}\right)=\Phi(-1.414) \)
\( \begin{array}{l}{P(3200<\overline{X}<3300)} \\ {=P\left(\frac{300-3200}{800 / \sqrt{50}}<\frac{\overline{X}-3200}{800 / \sqrt{50}}<\frac{3000-3300}{800 / \sqrt{50}}\right)} \\ {=\Phi(-2.652)-\Phi(-1.768)}\end{array} \)
总体(或样本)中具有某种属性的单位与全部单位总数之比。例如
总体比例可以表示为\( \pi=\frac{N_{0}}{N} \) 或 \( 1 - \pi=\frac{N_{1}}{N} \)
样本比例可以表示为\( p=\frac{n_{0}}{n} \) 或 \( 1-p=\frac{n_{1}}{n} \)
在重复选取容量为𝑛的样本时,由样本比例的所有可能取值形成的相对频数分布。
当样本容量很大时,样本比例的抽样分布可用正态分布近似;他是推断总体比例\( \pi \)的理论基础。
样本比例的数学期望\( E(p)=\pi \)
样本比例的方差
\( \sigma_{p}^{2}=\frac{\pi(1-\pi)}{n} \)(重复抽样)
\( \sigma_{p}^{2}=\frac{\pi(1-\pi)}{n} \times\left(\frac{N-n}{N-1}\right) \)(不重复抽样)
两个总体都是正态分布,即\( X_{1} \sim N\left(\mu_{1}, \sigma_{1}^{2}\right) \),\( X_{2} \sim N\left(\mu_{2}, \sigma_{2}^{2}\right) \),那么两个样本均值之差\( \overline{X}_{1}-\overline{X}_{2} \)的抽样分布服从正态分布,其分布的数学期望为两个总体均值之差,即\( E\left(\overline{X}_{1}-\overline{X}_{2}\right)=\mu_{1}-\mu_{2} \),方差为各自的方差之和,即\( \sigma_{\overline{X}_{1}-\overline{X}_{2}}^{2}=\frac{\sigma_{1}^{2}}{n_{1}}+\frac{\sigma_{2}^{2}}{n_{2}} \)。
\[ \overline{X}_{1}-\overline{X}_{2} \sim N\left(\mu_{1}-\mu_{2}, \frac{\sigma_{1}^{2}}{n_{1}}+\frac{\sigma_{2}^{2}}{n_{2}}\right) \]
设有甲、乙两所著名高校在某年录取新生时,甲校的平均分为655分,且服从正态分布,标准差为20分;乙校的平均分为625分,也是正态分布,标准差为25分。现从甲、乙两校各随机抽取8名新生计算其平均分数,出现甲校比乙校的平均分低的可能性有多大?
根据\( \overline{X}_{1}-\overline{X}_{2} \sim N\left(\mu_{1}-\mu_{2}, \frac{\sigma_{1}^{2}}{n_{1}}+\frac{\sigma_{2}^{2}}{n_{2}}\right) \),得\( \overline{X}_{1}-\overline{X}_{2} \sim N(30,128.125) \)
\( \begin{array}{l}{P\left(\overline{X}_{1}-\overline{X}_{2}<0\right)=P\left(\frac{\left(\overline{X}_{1}-\overline{X}_{2}\right)-30}{\sqrt{128.125}}<\frac{0-30}{\sqrt{128.125}}\right)} \\ {=\Phi(-2.6504)}\end{array} \)
设分别从具有参数\( \pi_1 \)和参数\( \pi_2 \)的二项总体中抽取包含\( n_1 \)个观测值和\( n_2 \)个观测值的独立样本,则两个样本比例差的抽样分布的数学期望为\( E\left(\hat{p}_{1}-\hat{p}_{2}\right)=\pi_{1}-\pi_{2} \),方差为\( D\left(\hat{p}_{1}-\hat{p}_{2}\right)=\frac{\pi_{1}\left(1-\pi_{1}\right)}{n_{1}}+\frac{\pi_{2}\left(1-\pi_{2}\right)}{n_{2}} \)。
一项抽样调查表明甲城市的消费者中有15%的人喝过商标为“圣洁”牌的矿泉水,而乙城市的消费者中只有8%的人喝过该种矿泉水。如果这些数据是真实的,那么当我们分别从甲城市抽取120人,乙城市抽取140人组成两个独立随机样本时,样本比例差𝑝_1−𝑝_2不低于0.08的概率有多大?
\( \hat{p}_{1} \sim N\left(0.15,0.0326^{2}\right) \),\( \hat{p}_{2} \sim N\left(0.08,0.0248^{2}\right) \)
\( \hat{p}_{1}-\hat{p}_{2} \sim N\left(0.07,0.0399^{2}\right) \)
\( \begin{array}{l}{P\left(\hat{p}_{1}-\hat{p}_{2}<0.08\right)=P\left(\frac{\left(\hat{p}_{1}-\hat{p}_{2}\right)-0.07}{0.0399}<\frac{0.08-0.07}{0.0399}\right)} \\ {=\Phi(0.2509)}\end{array} \)
样本方差的抽样分布
两个样本方差比的抽样分布
在重复选取容量为\( n \)的样本时,由样本方差的所有可能取值形成的相对频数分布。对于来自正态总体的简单随机样本,则比值\( \frac{(n-1) s^{2}}{\sigma^{2}} \)的抽样分布服从自由度为\( n-1 \)的\( \chi^2 \)分布,即\( \frac{(n-1) s^{2}}{\sigma^{2}} \sim \chi^{2}(n-1) \)。
两个总体都为正态分布,即\( X_{1} \sim N\left(\mu_{1}, \sigma_{1}^{2}\right) \),\( X_{2} \sim N\left(\mu_{2}, \sigma_{2}^{2}\right) \),从两个总体中分别抽取容量为\( n_1 \)和\( n_2 \)的独立样本,两个样本方差比的抽样分布,服从分子自由度为\( n_1-1 \),分母自由度为\( n_2-1 \)的\( F \)分布。即\( \frac{s_{1}^{2}}{s_{2}^{2}} \sim F\left(n_{1}-1, n_{2}-1\right) \)。