黄晗
Spring, 2019
通过分析数据的误差判断各总体均值是否相等
为了对几个行业的服务质量进行评价,消费者协会在4个行业分别抽取了不同的企业作为样本。最近一年中消费者对总共23家企业投诉的次数如下表。
| 观测值 | 零售业 | 旅游业 | 航空公司 | 家电制造业 |
|---|---|---|---|---|
| 1 | 57 | 68 | 31 | 44 |
| 2 | 66 | 39 | 49 | 51 |
| 3 | 49 | 29 | 21 | 65 |
| 4 | 40 | 45 | 34 | 77 |
| 5 | 34 | 56 | 40 | 58 |
| 6 | 53 | 51 | ||
| 7 | 44 |

判断行业对投诉次数是否有显著影响,实际上也就是检验具有同方差的4个正态总体的均值是否相等
如果4个总体的均值相等,可以期望4个样本的均值也会很接近
设因素有\( k \)个水平,每个水平的均值分别用\( \mu_1 \), \( \mu_2 \), \( \ldots \), \( \mu_k \)表示,要检验\( k \)个水平(总体)的均值是否相等,需要提出如下假设:
设\( \mu_1 \)为零售业被投诉次数的均值,\( \mu_2 \)为旅游业被投诉次数的均值,\( \mu_3 \)为航空公司被投诉次数的均值,\( \mu_4 \)为家电制造业被投诉次数的均值,提出的假设为:
如果原假设成立,即\( H_0: \mu_{1}=\mu_{2}=\ldots=\mu_{k} \),意味着:
若备择假设成立,即\( H_1: \mu_{1}, \mu_{2}, \dots, \quad \mu_{k} \)不全相等
方差分析的主要目的是判断____。
组间误差是衡量不同水平下各样本数据之间的误差,它____。
方差分析中,某一水平下样本数据之间的误差称为____。
在下面的假定中,哪一个不属于方差分析中的假定____。
在方差分析中,数据的误差是用平方和来表示的。其中反映一个样本中各观测值误差大小的平方和称为____。
\( H_{0} : \mu_{1}=\mu_{2}=\ldots=\mu_{k} \)
\( H_{1} : \mu_{1}, \quad \mu_{2}, \dots, \quad \mu_{k} \)不全相等
沿用例10.1,计算零售业的样本均值:\[ \overline{x}_{1}=\frac{\sum_{j=1}^{7} x_{1 j}}{n_{1}}=\frac{57+66+49+40+34+53+44}{7}=49 \]
依此类推,可以得到旅游业、航空公司、家电制造业的均值,如表所示:
| 序号 | 零售业 | 旅游业 | 航空公司 | 家电制造业 |
|---|---|---|---|---|
| 1 | 57 | 68 | 31 | 44 |
| 2 | 66 | 39 | 49 | 51 |
| 3 | 49 | 29 | 21 | 65 |
| 4 | 40 | 45 | 34 | 77 |
| 5 | 34 | 56 | 40 | 58 |
| 6 | 53 | 51 | ||
| 7 | 44 | |||
| 平均值 | \( \overline{x}_{1}=49 \) | \( \overline{x}_{2}=48 \) | \( \overline{x}_{3}=35 \) | \( \overline{x}_{4}=59 \) |
它是全部观测值的总和除以观测值的总个数的结果。
\[ \overline{\overline{x}}=\frac{\sum_{i=1}^{k} \sum_{j=1}^{n_{i}} x_{i j}}{n}=\frac{57+66+\cdots+77+58}{23}=47.869565 \]
计算结果如表所示:
| 序号 | 零售业 | 旅游业 | 航空公司 | 家电制造业 |
|---|---|---|---|---|
| 1 | 57 | 68 | 31 | 44 |
| 2 | 66 | 39 | 49 | 51 |
| 3 | 49 | 29 | 21 | 65 |
| 4 | 40 | 45 | 34 | 77 |
| 5 | 34 | 56 | 40 | 58 |
| 6 | 53 | 51 | ||
| 7 | 44 | |||
| 观测值个数 | 7 | 6 | 5 | 5 |
| \( \overline{\overline{x}}=47.869565 \) |
总平方和、组间平方和(因素平方和)、组内平方和(误差平方和或残差平方和)
全部观察值\( x_{ij} \)与总均值\( \overline{\overline{x}} \)的误差平方和
\( S S T=\sum_{i=1}^{k} \sum_{j=1}^{n_{i}}\left(x_{i j}-\overline{\overline{x}}\right)^{2} \)
各组均值\( \overline{x}_i \)与总均值\( \overline{\overline{x}} \)的误差平方和,反映各样本均值之间的差异程度
\( S S A=\sum_{i=1}^{k} n_{i}\left(\overline{x}_{i}-\overline{\overline{x}}\right)^{2} \)
每个水平或组的各样本数据与其组均值的误差平方和,反映每个样本各观测值的离散状况。
\( S S E=\sum_{i=1}^{k} \sum_{j=1}^{n_{i}}\left(x_{i j}-\overline{x}_{i}\right)^{2} \)
| �序号 | 零售业 | 旅游业 | 航空公司 | 家电制造业 |
|---|---|---|---|---|
| 1 | 57 | 68 | 31 | 44 |
| 2 | 66 | 39 | 49 | 51 |
| 3 | 49 | 29 | 21 | 65 |
| 4 | 40 | 45 | 34 | 77 |
| 5 | 34 | 56 | 40 | 58 |
| 6 | 53 | 51 | ||
| 7 | 44 | |||
| 组平均值 | \( \overline{x}_{1}=49 \) | \( \overline{x}_{2}=48 \) | \( \overline{x}_{3}=35 \) | \( \overline{x}_{4}=59 \) |
| 总平均值 | \( \overline{\overline{x}}=47.869565 \) |
SSA是对随机误差和系统误差大小的度量,反映自变量(行业)对因变量(被投诉次数)的影响,也称为自变量效应或因子效应
SSE是对随机误差大小的度量,反映除了自变量对因变量的影响之外,其他因素对因变量的总影响,也称为残差效应
SST是对全部数据总误差程度的度量,反映自变量和残差变量的共同影响,等于自变量效应加残差效应
各误差平方和的大小与观察值的多少有关,为消除观察值多少对误差平方和大小的影响,需要将其平均,由误差平方和除以相应的自由度求得,这就是均方,也称为方差
SST 的自由度为n-1,其中n为全部观察值的个数
SSA的自由度为k-1,其中k为因素水平(总体)的个数
SSE 的自由度为n-k
由于要比较的是组间均方和组内均方之间的差异,所以通常只计算SSA的均方和SSE的均方
SSA的均方也称为组间均方或组建方差,记为MSA
\( MSA=\frac{组间平方和}{自由度}=\frac{SSA}{k-1} \)
\( MSE=\frac{组内平方和}{自由度}=\frac{SSE}{n-k} \)
将上述MSA和MSE进行对比,即得到所需要的检验统计量F
当原假设为真时,二者的比值服从分子自由度为k-1,分母自由度为n-k的F分布
\( F=\frac{M S A}{M S E} \sim F(k-1, n-k) \)
表明没有系统误差
组间方差MSA与组内方差MSE的比值接近1
组间方差显著大于组内方差
各水平之间的差异不仅有随机误差,还有系统误差
