黄晗
Spring, 2019
参数估计的一般问题
一个总体参数的区间估计
两个总体参数的区间估计
用样本统计量(\( \hat{\theta} \))去估计总体的参数(\( \theta \))。例如:
用来估计总体参数的统计量,用符号\( \theta \)表示。
根据一个样本计算出来的估计量的数值。
用样本统计量(\( \hat{\theta} \))的某个取值直接作为总体参数(\( \theta \))的估计值。例如:
在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减估计误差而得到。
根据样本均值的抽样分布可知,样本均值\( \bar x \)落在总体均值\( \mu \)的两侧各为\( 1 \)个抽样标准差范围内的概率为\( 0.6827 \);落在\( 2 \)个抽样标准差范围内的概率为\( 0.9545 \);落在\( 3 \)个抽样标准差范围内的概率为\( 0.9973 \),等等。
在总体分布已知的情况下,可以求出样本均值\( \bar x \)落在总体均值\( \mu \)两侧任何一个抽样标准差范围内的概率。但是,实际情况中,\( \bar x \)是已知的,而\( \mu \)是未知的,也正是需要估计的。
由于\( \bar x \)与\( \mu \)的距离是对称的,那么:
上图中,重复构造出的\( \mu \)的\( 20 \)个置信区间,每一个特定的区间“总是包含”或“绝对不包含”参数的真值,不存在以多大的概率包含总体参数的问题。
对于总体均值的估计,可以用样本均值,也可以用样本中位数,那么究竟应该用哪一种呢?从以下三个方面进行判断。
样本均值\( \bar{x} \)的抽样分布为正态分布,其数学期望为总体均值\( \mu \),方差为\( \sigma^2/n \),样本均值经过标准化以后的随机变量则服从标准正态分布,即 \[ z=\frac{\bar{x}-\mu}{\sigma/\sqrt n} \sim N(0,1) \]
根据上式和正态分布的性质,可以得出:总体均值\( \mu \)在\( 1-\alpha \)置信水平下的置信区间为: \[ \bar x \pm z_{\alpha/2} \frac{\sigma}{\sqrt n} \] 其中:
总体均值的置信区间由两部分组成:
用样本方差\( s^2 \)代替总体方差\( \sigma^2/n \),此时总体均值\( \mu \)在\( 1-\alpha \)置信水平下的置信区间为: \[ \bar x \pm z_{\alpha/2} \frac{s}{\sqrt n} \]
一家食品生产企业以生产袋装食品为主,为对食品质量进行监测,企业质检部门经常要进行抽检,以分析每袋重量是否符合要求。现从某天生产的一批食品中随机抽取了\( 25 \)袋,测得每袋重量如下表所示。已知产品重量的分布服从正态分布,且总体标准差为\( 10g \)。试估计该批产品平均重量的置信区间,置信水平为\( 95\% \)。已知产品重量服从正态分布,且总体标准差为\( 10g \)。试估计该天产品平均重量的置信区间,置信水平为\( 95\% \)。
| 113 | 101 | 103 | 102 | 101 |
| 103 | 108 | 95 | 109 | 116 |
| 100 | 124 | 102 | 102 | 102 |
| 117 | 95 | 98 | 109 | 105 |
| 137 | 103 | 102 | 98 | 93 |
解:已知\( \sigma=10, n=25, 1-\alpha=95\%,z_{\alpha/2}=1.96 \)。由于总体方差未知,但为大样本,可用样本方差来代替总体方差。根据样本数据计算的样本均值为: \[ \bar x = \frac{\sum_{i=1}^n x_i}{n}=\frac{2634}{25}=105.36 \] \[ \bar x \pm z_{\alpha/2} \frac{\sigma}{\sqrt n}=105.36 \pm 1.96 \times \frac{10}{\sqrt{25}}=105.36 \pm 3.92 \] 该批食品平均重量\( 95\% \)的置信区间为101.44克~109.28克。
思考:该天生产的食品的平均重量是否一定在101.44克至109.28克之间。
一家保险公司收集到由\( 36 \)个投保人组成的随机样本,得到每个投保人的年龄(单位:周岁)数据如下表。试建立投保人年龄\( 90\% \)的置信区间。
| 23 | 35 | 39 | 27 | 36 | 44 |
| 36 | 42 | 46 | 43 | 31 | 33 |
| 42 | 53 | 45 | 54 | 47 | 24 |
| 34 | 28 | 39 | 36 | 44 | 40 |
| 39 | 49 | 38 | 34 | 48 | 50 |
| 34 | 39 | 45 | 48 | 45 | 32 |
解:已知\( n=36, 1-\alpha=90\%,z_{\alpha/2}=1.645 \)。由于总体方差未知,但为大样本,可用样本方差来代替总体方差。根据样本数据计算的样本均值和标准差如下: \[ \bar x = \frac{\sum_{i=1}^n x_i}{n}=39.5 \] \[ s= \sqrt{ \frac{\sum_{i=1}^n (x_i-\bar x)^2}{n-1}}=7.77 \] \[ \bar x \pm z_{\alpha/2} \frac{s}{\sqrt n}=39.5 \pm 1.645 \times \frac{7.77}{\sqrt{36}} = 39.5 \pm 2.13 \] 因此,投保人的平均年龄\( 90\% \)的置信区间为37.4岁~41.6岁。
样本均值经过标准化以后的随机变量服从自由度为\( n-1 \)的\( t \)分布,即 \[ t=\frac{\bar x - \mu}{s/\sqrt n} \sim t(n-1) \] 因此采用\( t \)分布来建立总体均值\( \mu \)的置信区间。
根据\( t \)分布建立的总体均值\( \mu \)在\( 1-\alpha \)置信水平下的置信区间为: \[ \bar x \pm t_{\alpha/2} \frac{s}{\sqrt n} \] 式中:
已知某种灯泡的寿命服从正态分布,现从一批灯泡中随机抽取\( 16 \)只,测得其使用寿命(单位:\( h \))如下。建立该批灯泡平均使用寿命\( 95\% \)的置信区间。
| 1510 | 1520 | 1480 | 1500 |
| 1450 | 1480 | 1510 | 1520 |
| 1480 | 1490 | 1530 | 1510 |
| 1460 | 1460 | 1470 | 1470 |
解:根据抽样结果计算得到 \[ \bar x = 1490 \] \[ s = 24.77 \] 根据\( \alpha=0.05 \),查\( t \)分布表得\( t_{\alpha/2}(n-1)=t_{0.025}(15)=2.131 \),因此平均使用寿命的置信区间为: \[ \bar x \pm t_{\alpha/2} \frac{s}{\sqrt n}=1490 \pm 2.131 \times \frac{24.77}{\sqrt{16}}=1490 \pm 13.2 \] 那么,这种灯泡的平均使用寿命\( 95\% \)的置信区间为1476.8小时~1503.2小时。
| 总体分布 | 样本量 | \( \sigma \)已知 | \( \sigma \)未知 |
|---|---|---|---|
| 正态分布 | 大样本 | \( \bar x \pm z_{\alpha/2} \frac{\sigma}{\sqrt n} \) | \( \bar x \pm z_{\alpha/2} \frac{s}{\sqrt n} \) |
| 正态分布 | 小样本 | \( \bar x \pm z_{\alpha/2} \frac{\sigma}{\sqrt n} \) | \( \bar x \pm z_{\alpha/2} \frac{s}{\sqrt n} \) |
| 非正态分布 | 大样本 | \( \bar x \pm z_{\alpha/2} \frac{\sigma}{\sqrt n} \) | \( \bar x \pm z_{\alpha/2} \frac{s}{\sqrt n} \) |
在本课程中,只讨论大样本情况下总体比例的估计问题。
当样本量足够大时,比例\( p \)的抽样分布可用正态分布近似。\( p \)的数学期望为\( E(p)=\pi \);\( p \)的方差为\( \sigma_p^2=\frac{\pi(1-\pi)}{n} \)。样本比例经过标准化后的随机变量服从标准正态分布,即 \[ z=\frac{p-\pi}{\sqrt{\pi(1-\pi)/\sqrt{n}}} \sim N(0,1) \]
与总体均值的区间估计类似,在样本比例\( p \)的基础上加减估计误差\( z_{\alpha/2}\sigma_p \),即可得到总体比例\( \pi \)在\( 1-\alpha \)的置信水平下的置信区间: \[ p \pm z_{\alpha/2} \sqrt{\frac{\pi(1-\pi)}{n}} \] 式中:
某城市想要估计下岗职工中女性所占的比例,随机地抽取了\( 100 \)名下岗职工,其中\( 65 \)人为女性职工。试以\( 95\% \)的置信水平估计该城市下岗职工中女性比例的置信区间。
解:已知\( n=100,z_{0.025}=1.96 \)。根据抽样结果计算的样本比例为: \[ p=\frac{65}{100}=65\% \] 根据总体比例的置信区间公式,得 \[ \begin{aligned} p \pm z_{\alpha/2} \sqrt{\frac{\pi(1-\pi)}{n}} &= 65\% \pm 1.96 \times \sqrt{\frac{65\%\times(1-65\%)}{100}} \\ &= 65\% \pm 9.35\% \end{aligned} \] 因此,该城市下岗职工中女性比例的\( 95\% \)的置信区间为\( 55.65\% \sim 74.35\% \)。
在本课程中,只讨论正态总体方差的估计问题。
根据样本方差的抽样分布可知,样本方差服从自由度为\( n-1 \)的\( \chi^2 \)分布,因此,用\( \chi^2 \)分布构造总体方差的置信区间。
一家食品生产企业以生产袋装食品为主,为对食品质量进行监测,企业质检部门经常要进行抽检,以分析每袋重量是否符合要求。现从某天生产的一批食品中随机抽取了\( 25 \)袋,测得每袋重量如下表所示。已知产品重量的分布服从正态分布,且总体标准差为\( 10g \)。以\( 95\% \)的置信水平建立食品重量方差的置信区间。
25袋食品的重量
| 112.5 | 101 | 103 | 102 | 100.5 |
| 102.6 | 107.5 | 95 | 108.8 | 115.6 |
| 100 | 123.5 | 102 | 101.6 | 102.2 |
| 116.6 | 95.4 | 97.8 | 108.6 | 105 |
| 136.8 | 102.8 | 101.5 | 98.4 | 93.3 |
解:根据样本数据计算的样本方差为: \[ s^2=\frac{{\sum_{i=1}^n (x_i - \bar{x})}^2}{n-1} = \frac {2237.02} {25-1} = 93.21 \] 根据显著性水平 \( \alpha = 0.05 \) 和自由度 \( n-1=24 \),查询\( \chi^2 \)分布表可得: \[ \chi^2_{\alpha/2} (n-1) = \chi^2_{0.025} (25-1)=39.3641 \] \[ \chi^2_{1-\alpha/2}(n-1) = \chi^2_{0.975}(25-1)=12.4011 \] 所得总体方差\( \sigma^2 \)的置信区间为: \[ \frac{(25-1) \times 93.21}{39.3641} \leq \sigma^2 \leq \frac{(25-1) \times 93.21}{12.4011} \] 即\( 56.83 \leq \sigma^2 \leq 180.39 \),相应的标准差置信区间为\( 7.54 \leq \sigma \leq 13.43 \)。
两个总体都服从正态分布,或者不是正态分布,可以用正态分布来近似(\( n_1 \geq 30 \)和\( n_2 \geq 30 \))
两个样本是独立的随机样本
两个总体方差\( \sigma_1^2 \)和\( \sigma_2^2 \)都已知,两个总体均值之差\( \mu_1-\mu_2 \)在\( 1-\alpha \)置信水平下的置信区间为:\[ \left(\overline{x}_{1}-\overline{x}_{2}\right) \pm z_{\alpha / 2} \sqrt{\frac{\sigma_{1}^{2}}{n_{1}}+\frac{\sigma_{2}^{2}}{n_{2}}} \]
两个总体方差\( \sigma_1^2 \)和\( \sigma_2^2 \)都未知,两个总体均值之差\( \mu_1-\mu_2 \)在\( 1-\alpha \)置信水平下的置信区间为:\[ \left(\overline{x}_{1}-\overline{x}_{2}\right) \pm z_{\alpha / 2} \sqrt{\frac{s_{1}^{2}}{n_{1}}+\frac{s_{2}^{2}}{n_{2}}} \]
某地区教育管理部门想估计两所中学的学生高考时的英语平均分数之差,为此在两所中学独立抽取两个随机样本,有关数据如表 。建立两所中学高考英语平均分数之差95%的置信区间。
| 中学1 | 中学2 |
|---|---|
| \( n_1 \)=46 | \( n_2 \)=33 |
| \( \bar x_1 = 86 \) | \( \bar x_2 =78 \) |
| \( s_1=5.8 \) | \( s_2=7.2 \) |
由于总体方差未知,使用\( s^2 \)代替。
\[ \begin{array}{l}{\left(\overline{x}_{1}-\overline{x}_{2}\right) \pm z_{\alpha / 2} \sqrt{\frac{s_{1}^{2}}{n_{1}}+\frac{s_{2}^{2}}{n_{2}}}=(86-78) \pm 1.96 \times \sqrt{\frac{5.8^{2}}{46}+\frac{7.2^{2}}{33}}} \\ {=8 \pm 2.97}\end{array} \]
即\( (5.03,10.97) \),两所中学高考英语平均分数之差\( 95\% \)的置信区间为\( 5.03 \)分~\( 10.97 \)分。
两个总体都服从正态分布
两个随机样本独立地分别抽自两个总体
在上述假定下,无论样本量大小,两个样本均值之差服从正态分布。分为以下两种情况计算:
两个总体方差\( \sigma_{1}^{2} \)、\( \sigma_{2}^{2} \)已知
两个总体方差\( \sigma_{1}^{2} \)、\( \sigma_{2}^{2} \)未知
计算合并方差,使用\( t \)统计量
计算自由度\( v \)
两个总体方差\( \sigma_{1}^{2} \)、\( \sigma_{2}^{2} \)未知且相等,需要用两个样本的方差\( s_1^2 \)和\( s_2^2 \)来估计,需要将两个样本的数据组合在一起,以给出总体方差的合并估计量\( s_p^2 \),计算公式为:\[ s_{p}^{2}=\frac{\left(n_{1}-1\right) s_{1}^{2}+\left(n_{2}-1\right) s_{2}^{2}}{n_{1}+n_{2}-2} \]
两个总体均值之差\( \mu_1-\mu_2 \)在\( 1-\alpha \)置信水平下的置信区间为:\[ \left(\overline{x}_{1}-\overline{x}_{2}\right) \pm t_{\alpha / 2}\left(n_{1}+n_{2}-2\right) \sqrt{s_{p}^{2}\left(\frac{1}{n_{1}}+\frac{1}{n_{2}}\right)} \]
例7.7
为估计两种方法组装产品所需时间的差异,分别对两种不同的组装方法各随机安排12个工人,每个工人组装一件产品所需的时间如表所示。假定两种方法组装产品的时间服从正态分布,且方差相等,试以95%的置信水平建立两种方法组装产品所需平均时间之差的置信区间。
| 方法1 | 方法2 | ||
|---|---|---|---|
| 28.3 | 36 | 27.6 | 31.7 |
| 30.1 | 37.2 | 22.2 | 26 |
| 29 | 38.5 | 31 | 32 |
| 37.6 | 34.4 | 33.8 | 31.2 |
| 32.1 | 28 | 20 | 33.4 |
| 28.8 | 30 | 30.2 | 26.5 |
根据样本数据计算得到
方法1:\( \overline{x}_{1}=32.5, s_{1}^{2}=15.996 \)
方法2:\( \overline{x}_{2}=28.8, s_{2}^{2}=19.358 \)
总体方差的合并估计量为:\[ \begin{array}{l}{\mathrm{s}_{p}^{2}=\frac{\left(n_{1}-1\right) s_{1}^{2}+\left(n_{2}-1\right) s_{2}^{2}}{n_{1}+n_{2}-2}} \\ {=\frac{(12-1) \times 15.996+(12-1) \times 19.358}{12+12-2}=17.677}\end{array} \]
根据\( \alpha=0.05 \),自由度为22,查\( t \)分布表可得\( t_{0.05/2}(22)=2.0739 \)。因此置信区间为:
\[ \begin{array}{l}{\left(\overline{x}_{1}-\overline{x}_{2}\right) \pm t_{\alpha / 2}\left(n_{1}+n_{2}-2\right) \sqrt{s_{p}^{2}\left(\frac{1}{n_{1}}+\frac{1}{n_{2}}\right)}} \\ {=(32.5-28.8) \pm 2.0739 \times \sqrt{17.677 \times\left(\frac{1}{12}+\frac{1}{12}\right)}=3.7 \pm 3.56}\end{array} \]
两种方法组装产品平均时间之差的\( 95\% \)的置信区间为\( 0.14 \sim 7.26 \)。
两个总体方差\( \sigma_{1}^{2} \)、\( \sigma_{2}^{2} \)未知且不等,两个样本均值之差经过标准化后近似服从自由度为\( v \)的\( t \)分布,自由度\( v \)计算公式为:
\[ v=\frac{\left(\frac{s_{1}^{2}}{n_{1}}+\frac{s_{2}^{2}}{n_{2}}\right)^{2}}{\frac{\left(\frac{s_{1}^{2}}{n_{1}}\right)^{2}}{n_{1}-1}+\frac{\left(\frac{s_{2}^{2}}{n_{2}}\right)^{2}}{n_{2}-1}} \]
两个总体均值之差\( \mu_1-\mu_2 \)在\( 1-\alpha \)置信水平下的置信区间为:
\[ \left(\overline{x}_{1}-\overline{x}_{2}\right) \pm t_{\alpha / 2}(v) \sqrt{\frac{s_{1}^{2}}{n_{1}}+\frac{s_{2}^{2}}{n_{2}}} \]
例7.8
沿用前例。假定第一种方法随机安排\( 12 \)名工人,第二种方法随机安排8名工人,即\( n_1=12 \),\( n_2=8 \),所得的有关数据如表。假定两种方法组装产品的时间服从正态分布,且方差不相等。以\( 95\% \)的置信水平建立两种方法组装产品所需平均时间差值的置信区间。
| 方法1 | 方法2 | ||
|---|---|---|---|
| 28.3 | 36 | 27.6 | 31.7 |
| 30.1 | 37.2 | 22.2 | 26.5 |
| 29 | 38.5 | 31 | |
| 37.6 | 34.4 | 33.8 | |
| 32.1 | 28 | 20 | |
| 28.8 | 30 | 30.2 |
根据样本数据计算得到
方法1:\( \overline{x}_{1}=32.5, s_{1}^{2}=15.996 \)
方法2:\( \overline{x}_{2}=27.875, s_{2}^{2}=23.014 \)
自由度为:\[ v=\frac{\left(\frac{15.996}{12}+\frac{23.014}{8}\right)^{2}}{\frac{\left(\frac{15.996}{12}\right)^{2}}{12-1}+\frac{\left(\frac{23.014}{8}\right)^{2}}{8-1}}=13.188 \approx 13 \]
根据自由度\( 13 \)查\( t \)分布表得到\( t_{0.05 / 2}(13)=2.1604 \),两个总体均值之差\( \mu_1-\mu_2 \)在\( 1-\alpha \)置信水平下的置信区间为:\[ \begin{array}{l}{\left(\overline{x}_{1}-\overline{x}_{2}\right) \pm t_{\alpha / 2}(v) \sqrt{\frac{s_{1}^{2}}{n_{1}}+\frac{s_{2}^{2}}{n_{2}}}} \\ {=(32.5-27.875) \pm 2.1604 \times \sqrt{\frac{15.996}{12}+\frac{23.014}{8}}=4.625 \pm 4.433}\end{array} \]
即\( (0.192,9.058) \),两种方法组装产品所需平均时间之差的\( 95\% \)的置信区间为\( 0.192 \)分钟 \( \sim 9.058 \)分钟。
匹配样本,即一个样本中的数据与另一个样本中的数据相对应。
两个匹配的大样本
两个总体各观察值的配对差服从正态分布
使用匹配样本进行估计时,在大样本条件下,两个总体均值之差\( \mu_{d}=\mu_{1}-\mu_{2} \)在\( 1-\alpha \)置信水平下的置信区间为:\[ \overline{d} \pm z_{\frac{\alpha}{2}} \frac{\sigma_{d}}{\sqrt{n}} \]
\( d \)表示两个匹配样本对应数据的差值
\( \overline d \)表示各差值的均值
\( \sigma_d \)表示各差值的标准差,\( \sigma_d \)未知时,可用\( s_d \)代替
在小样本条件下,假定两个总体各观察值的配对差服从正态分布。两个总体均值之差\( \mu_{d}=\mu_{1}-\mu_{2} \)在\( 1-\alpha \)置信水平下的置信区间为:\[ \overline{d} \pm t_{\alpha / 2}(n-1) \frac{s_{d}}{\sqrt{n}} \]
例7.9
由10名学生组成一个随机样本,让他们分别采用A和B两套试卷进行测试,结果如下表 。试建立两种试卷分数之差\( \mu_d \)的\( 95\% \)的置信区间。
| 学生编号 | 试卷A | 试卷B | 差值d |
|---|---|---|---|
| 1 | 78 | 71 | 7 |
| 2 | 63 | 44 | 19 |
| 3 | 72 | 61 | 11 |
| 4 | 89 | 84 | 5 |
| 6 | 91 | 74 | 17 |
| 5 | 49 | 51 | -2 |
| 7 | 68 | 55 | 13 |
| 8 | 76 | 60 | 16 |
| 9 | 85 | 77 | 8 |
| 10 | 55 | 39 | 16 |
根据样本数据计算得到
\[ \overline{d}=\frac{\sum_{i=1}^{n} d_{i}}{n_{d}}=\frac{110}{10}=11 \]
\[ s_{d}=\sqrt{\frac{\sum_{i=1}^{n}\left(d_{i}-\overline{d}\right)^{2}}{n_{d}-1}}=6.53 \]
根据自由度\( (10−1)=9 \)查\( t \)分布表得到\( t_{0.05 / 2}(9)=2.2622 \)。两套试卷平均分数之差\( \mu_{d}=\mu_{1}-\mu_{2} \)在\( 95\% \)置信水平下的置信区间为:\[ \overline{d} \pm t_{\frac{\alpha}{2}}(n-1) \frac{s_{d}}{\sqrt{n}}=11 \pm 2.2622 \times \frac{6.53}{\sqrt{10}}=11 \pm 4.67 \]
即(6.3,15.7),两套试卷平均分数之差的95%的置信区间为6.3分~15.7分。
\[ Z=\frac{\left(p_{1}-p_{2}\right)-\left(\pi_{1}-\pi_{2}\right)}{\sqrt{\frac{\pi_{1}\left(1-\pi_{1}\right)}{n_{1}}+\frac{\pi_{2}\left(1-\pi_{2}\right)}{n_{2}}}} \sim N(0,1) \]
当两个总体比例\( \pi_1 \)、\( pi_2 \)未知时,可用样本比例\( p_1 \)、\( p_2 \)代替,因此两个总体比例之差\( \pi_1-\pi_2 \)在\( 1-\alpha \)置信水平下的置信区间为:\[ \left(p_{1}-p_{2}\right) \pm z_{\frac{\alpha}{2}} \sqrt{\frac{p_{1}\left(1-p_{1}\right)}{n_{1}}+\frac{p_{2}\left(1-p_{2}\right)}{n_{2}}} \]
例7.10
在某个电视节目的收视率调查中,农村随机调查了400人,有32%的人收看了该节目;城市随机调查了500人,有45%的人收看了该节目。试以95%的置信水平估计城市与农村收视率差别的置信区间。
设城市收视率\( p_1=45\% \),农村收视率\( p_2=32% \)。当\( \alpha=0.05 \)时,\( z_{\alpha/2}=1.96 \)。因此置信区间为:
\[ \begin{array}{l}{ \left(p_{1}-p_{2}\right) \pm z_{\frac{\alpha}{2}} \sqrt{\frac{p_{1}\left(1-p_{1}\right)}{n_{1}}+\frac{p_{2}\left(1-p_{2}\right)}{n_{2}}}=(45 \%-32 \%) \pm 1.96 \times} \\ {\sqrt{\frac{45 \% \times(1-45 \%)}{500}+\frac{32 \% \times(1-32 \%)}{400}}=13 \% \pm 6.32 \%}\end{array} \]
即(6.68%,19.32%),城市与农村收视率之差的95%的置信区间为6.68%~19.32%。
实际中,如果希望比较两种不同方法生产产品性能的稳定性,不同测量工具的精度等等
由于两个样本方差比的抽样分布服从\( F\left(n_{1}-1, n_{2}-1\right) \)分布,因此可用\( F \)分布来构造两个总体方差比\( \frac{\sigma_{1}^{2}}{\sigma_{2}^{2}} \)的置信区间
建立总体方差比的置信区间,也就是要找到一个\( F \)值,,使其满足\( F_{1-\alpha / 2} \leq F \leq F_{\alpha / 2} \),由于\( \frac{s_{1}^{2}}{s_{2}^{2}} \cdot \frac{\sigma_{2}^{2}}{\sigma_{1}^{2}} \sim F\left(n_{1}-1, n_{2}-1\right) \),可用它代替\( F \),于是有\( F_{1-\alpha / 2} \leq \frac{s_{1}^{2}}{s_{2}^{2}} \cdot \frac{\sigma_{2}^{2}}{\sigma_{1}^{2}} \leq F_{\alpha / 2} \),可推导出\[ \frac{s_{1}^{2} / s_{2}^{2}}{F_{\alpha / 2}} \leq \frac{\sigma_{2}^{2}}{\sigma_{1}^{2}} \leq \frac{s_{1}^{2} / s_{2}^{2}}{F_{1-\alpha / 2}} \]
由于\( F \)分布表中只给出面积较小的右分位数,此时可利用下面的关系求得\( F_{1-\alpha / 2} \)的分位数值: \[ F_{1-\frac{\alpha}{2}}\left(n_{1}, n_{2}\right)=\frac{1}{F_{\alpha}\left(n_{2}, n_{1}\right)} \]
为了研究男女学生在生活费支出(单位:元)上的差异,在某大学各随机抽取25名男学生和25名女学生,得到下面的结果:
试以90%置信水平估计男女学生生活费支出方差比的置信区间。
根据自由度\( n_{1}=25-1=24 \)和\( n_{2}=25-1=24 \),查\( F \)分布表,得\( F_{\frac{\alpha}{2}}(24,24)=F_{0.05}(24,24)=1.98 \),\( F_{1-\frac{\alpha}{2}}(24,24)=F_{0.95}(24,24)=\frac{1}{1.98}=0.505 \),因此 \[ \frac{260}{\frac{280}{1.98}} \leq \frac{\sigma_{1}^{2}}{\sigma_{2}^{2}} \leq \frac{\frac{260}{280}}{0.505} \]
即\( 0.47 \leq \frac{\sigma_{1}^{2}}{\sigma_{2}^{2}} \leq 1.84 \),男女学生生活费支出方差比的\( 90\% \)的置信区间为\( 0.47 \)~\( 1.84 \)。
估计总体均值时样本量的确定
估计总体比例时样本量的确定
估计总体均值时样本量为\( n=\frac{\left(\frac{Z \alpha}{2}\right)^{2} \sigma^{2}}{E^{2}} \)
样本量\( n \)与总体方差\( \sigma^2 \)、边际误差\( E \)、可靠性系数\( z \)或\( t \)之间的关系为:
样本量的圆整法则:当计算出的样本量不是整数时,将小数点后面的数值一律进位成整数,如\( 24.68 \)取\( 25 \),\( 24.32 \)也取\( 25 \)等等
例7.12
拥有工商管理学士学位的大学毕业生年薪的标准差大约为2000元,假定想要估计年薪95%的置信区间,希望边际误差为400元,应抽取多大的样本量?
已知\( \sigma=2000 \),\( E=400 \),\( Z_{\alpha / 2}=1.96 \)
因此\( n=\frac{\left(^{Z} \frac{\alpha}{2}\right)^{2} \sigma^{2}}{E^{2}}=\frac{1.96^{2} \times 2000^{2}}{400^{2}}=96.04 \)
即应抽取97人作为样本。(注意:不能取96)
重复抽样或者无限总体抽样条件下,估计总体比例时样本量为\[ n=\frac{\left(z_{\alpha / 2}\right)^{2} \pi(1-\pi)}{E^{2}} \]
\( E \)的取值一般小于\( 0.1 \)
\( \pi \)未知时,可取使方差达到最大的值\( 0.5 \)
例 7.13
根据以往的生产统计,某种产品的合格率约为90%,现要求边际误差为5%,在求95%的置信区间时,应抽取多少个产品作为样本?
已知\( \pi=90\% \),\( E=5\% \),\( z_{\alpha / 2}=1.96 \)
根据公式,得\[ \begin{array}{l}{n=\frac{\left(z_{\alpha / 2}\right)^{2} \pi(1-\pi)}{E^{2}}=\frac{1.96^{2} \times 0.9 \times(1.0 .9)^{2}}{0.05^{2}}} \\ {=138.3}\end{array} \]
即应抽取139个产品作为样本。