统计学

黄晗
Spring, 2019

第10章 方差分析

  • 方差分析引论
  • 单因素方差分析
  • 双因素方差分析
  • 试验初步设计

10.1 方差分析引论

  • 方差分析及其有关术语
  • 方差分析的基本思想和原理
  • 方差分析的基本假设
  • 问题的一般提法

10.1 方差分析引论

什么是方差分析(ANOVA,analysis of variance)

检验多个总体均值是否相等

通过分析数据的误差判断各总体均值是否相等

双因素方差分析:涉及两个分类的自变量

  • 一个或多个分类型自变量
  • 两个或多个 (k 个) 处理水平或分类
  • 一个数值型因变量

有单因素方差分析和双因素方差分析

  • 单因素方差分析:涉及一个分类的自变量
  • 双因素方差分析:涉及两个分类的自变量

为了对几个行业的服务质量进行评价,消费者协会在4个行业分别抽取了不同的企业作为样本。最近一年中消费者对总共23家企业投诉的次数如下表。

观测值 零售业 旅游业 航空公司 家电制造业
1 57 68 31 44
2 66 39 49 51
3 49 29 21 65
4 40 45 34 77
5 34 56 40 58
6 53 51
7 44
  • 分析4个行业之间的服务质量是否有显著差异,也就是要判断“行业”对“投诉次数”是否有显著影响
  • 作出这种判断最终被归结为检验这四个行业被投诉次数的均值是否相等
  • 若它们的均值相等,则意味着“行业”对投诉次数是没有影响的,即它们之间的服务质量没有显著差异;若均值不全相等,则意味着“行业”对投诉次数是有影响的,它们之间的服务质量有显著差异

10.1 方差分析引论

方差分析中的有关术语

因素或因子(factor)

  • 所要检验的对象
  • 分析行业对投诉次数的影响,行业是要检验的因子

水平或处理(treatment)

  • 因子的不同表现
  • 零售业、旅游业、航空公司、家电制造业

观察值

  • 在每个因素水平下得到的样本数据
  • 每个行业被投诉的次数

试验

  • 这里只涉及一个因素,因此称为单因素4水平的试验

总体

  • 因素的每一个水平可以看作是一个总体
  • 零售业、旅游业、航空公司、家电制造业是4个总体

样本数据

  • 被投诉次数可以看作是从这4个总体中抽取的样本数据

图形描述

E9yTJK.png

从散点图上可以看出

  • 不同行业被投诉的次数有明显差异
  • 同一个行业,不同企业被投诉的次数也明显不同
  • 家电制造被投诉的次数较高,航空公司被投诉的次数较低

行业与被投诉次数之间有一定的关系

  • 如果行业与被投诉次数之间没有关系,那么它们被投诉的次数应该差不多相同,在散点图上所呈现的模式也就应该很接近

误差来源

  • 散点图观察不能提供充分的证据证明不同行业被投诉的次数之间有显著差异
  • 这种差异可能是由于①抽样的随机性所造成的,也有可能确实是②行业差异导致的

为何称为方差分析

  • 之所以叫方差分析,因为虽然我们感兴趣的是均值,但在判断均值之间是否有差异时则需要借助于方差
  • 这个名字也表示:它是通过对数据误差来源的分析判断不同总体的均值是否相等

误差分解

组内误差

  • 因素的同一水平(总体)下,样本各观察值之间的差异。比如,同一行业下不同企业被投诉次数之间的差异
  • 这种差异可以看成是随机因素的影响,称为随机误差,也称为组内误差

组间误差

  • 因素的不同水平(不同总体)之间观察值的差异。比如,不同行业之间的被投诉次数之间的差异
  • 这种差异可能是由于抽样的随机性所造成的随机误差,也可能是由于行业本身的系统性因素造成的系统误差
  • 组间误差是随机误差和系统误差的总和

误差的表达

数据的误差用平方和(sum of squares)表示

  • 包括总平方和SST,组内平方和SSE,组间平方和SSA
  • \( SST=SSE+SSA \)

总平方和\( SST \)

  • 反映全部数据误差大小的平方和,反映全部观测值的离散程度

组内平方和

  • 反映组内误差大小的平方和,也称为误差平方和或残差平方和
  • 反映每个样本内各观测值的离散状况

组间平方和

  • 反映组间误差大小的平方和,也称为因素平方和;反映样本均值之间的差异程度
  • 比如,4个行业被投诉次数之间的误差平方和

误差分析

如果不同行业对被投诉次数没有影响

  • 组间误差中只包含随机误差,没有系统误差
  • 组间误差与组内误差经过平均后的数值就应该很接近,比值接近1

如果不同行业对被投诉次数有影响

  • 组间误差中除了包含随机误差,也包括系统误差
  • 组间误差平均后的数值大于组内误差平均后的数值,比值大于1

方差分析问题的实质

  • 当这个比值大到某种程度时,就认为因素的不同水平之间存在着显著差异,也就是自变量对因变量有显著影响
  • 判断行业对被投诉次数是否有显著影响,实际上也就是检验被投诉次数的差异主要是由什么原因引起的
  • 如果这种差异主要是系统误差,就认为不同行业对被投诉次数有显著影响
  • 要检验行业(分类变量)对被投诉次数(数值变量)是否有显著影响,就是检验四个行业被投诉次数的均值是否相等

基本假定

每个总体都应服从正态分布

  • 对于因素的每一个水平,其观察值是来自服从正态分布总体的简单随机样本
  • 比如,每个行业被投诉的次数必须服从正态分布

各个总体的方差必须相同

  • 各组观察数据是从具有相同方差的总体中抽取的
  • 比如,4个行业被投诉次数的方差都相等

观察值是独立的

  • 比如,每个行业被投诉的次数与其他行业被投诉的次数独立

上述假定的推论

  • 判断行业对投诉次数是否有显著影响,实际上也就是检验具有同方差的4个正态总体的均值是否相等

  • 如果4个总体的均值相等,可以期望4个样本的均值也会很接近

    • 4个样本的均值越接近,推断4个总体均值相等的证据也就越充分
    • 样本均值越不同,推断总体均值不同的证据就越充分

方差分析假设的提出

设因素有\( k \)个水平,每个水平的均值分别用\( \mu_1 \), \( \mu_2 \), \( \ldots \), \( \mu_k \)表示,要检验\( k \)个水平(总体)的均值是否相等,需要提出如下假设:

  • \( H_0: \mu_{1}=\mu_{2}=\ldots=\mu_{k} \)
  • \( H_1: \mu_{1}, \mu_{2}, \dots, \quad \mu_{k} \)不全相等

设\( \mu_1 \)为零售业被投诉次数的均值,\( \mu_2 \)为旅游业被投诉次数的均值,\( \mu_3 \)为航空公司被投诉次数的均值,\( \mu_4 \)为家电制造业被投诉次数的均值,提出的假设为:

  • \( H_0: \mu_{1}=\mu_{2}=\ldots=\mu_{k} \)
  • \( H_1: \mu_{1}, \mu_{2}, \dots, \quad \mu_{k} \)不全相等

如果原假设成立,即\( H_0: \mu_{1}=\mu_{2}=\ldots=\mu_{k} \),意味着:

  • 4个行业被投诉次数的均值都相等
  • 意味着每个样本都来自均值为\( \mu \)、方差为\( \sigma^2 \)的同一正态总体

若备择假设成立,即\( H_1: \mu_{1}, \mu_{2}, \dots, \quad \mu_{k} \)不全相等

  • 至少有一个总体的均值是不同的
  • 4个样本分别来自均值不同的4个正态总体

练习

方差分析的主要目的是判断____。

  • A.各总体是否存在方差
  • B.各样本数据之间是否有显著差异
  • C.分类型自变量对数值型因变量的影响是否显著
  • D.分类型因变量对数值型自变量的影响是否显著

组间误差是衡量不同水平下各样本数据之间的误差,它____。

  • A.只包括随机误差
  • B.只包括系统误差
  • C.既包括随机误差也包括系统误差
  • D.有时包括随机误差有时包括系统误差

方差分析中,某一水平下样本数据之间的误差称为____。

  • A.随机误差
  • B.非随机误差
  • C.系统误差
  • D.非系统误差

在下面的假定中,哪一个不属于方差分析中的假定____。

  • A.每个总体都服从正态分布
  • B.各总体的方差相等
  • C.观测值是独立的
  • D.各总体的方差等于0

在方差分析中,数据的误差是用平方和来表示的。其中反映一个样本中各观测值误差大小的平方和称为____。

  • A.组间平方和
  • B.组内平方和
  • C.总平方和
  • D.误差项平方和

10.2 单因素方差分析

单因素方差分析的数据结构

EFxi2q.md.png

10.2.2 分析步骤

  1. 提出假设
  2. 构造检验统计量
  3. 统计决策
  4. 方差分析表

提出假设

一般提法

\( H_{0} : \mu_{1}=\mu_{2}=\ldots=\mu_{k} \)

  • 自变量对因变量没有显著影响

\( H_{1} : \mu_{1}, \quad \mu_{2}, \dots, \quad \mu_{k} \)不全相等

  • 自变量对因变量有显著影响

拒绝原假设,只表明至少有两个总体的君之不相等,并不意味着所有的均值都不相等

计算各样本的均值

沿用例10.1,计算零售业的样本均值:\[ \overline{x}_{1}=\frac{\sum_{j=1}^{7} x_{1 j}}{n_{1}}=\frac{57+66+49+40+34+53+44}{7}=49 \]

依此类推,可以得到旅游业、航空公司、家电制造业的均值,如表所示:

序号 零售业 旅游业 航空公司 家电制造业
1 57 68 31 44
2 66 39 49 51
3 49 29 21 65
4 40 45 34 77
5 34 56 40 58
6 53 51
7 44
平均值 \( \overline{x}_{1}=49 \) \( \overline{x}_{2}=48 \) \( \overline{x}_{3}=35 \) \( \overline{x}_{4}=59 \)

计算全部观测值的总均值

它是全部观测值的总和除以观测值的总个数的结果。

\[ \overline{\overline{x}}=\frac{\sum_{i=1}^{k} \sum_{j=1}^{n_{i}} x_{i j}}{n}=\frac{57+66+\cdots+77+58}{23}=47.869565 \]

计算结果如表所示:

序号 零售业 旅游业 航空公司 家电制造业
1 57 68 31 44
2 66 39 49 51
3 49 29 21 65
4 40 45 34 77
5 34 56 40 58
6 53 51
7 44
观测值个数 7 6 5 5
\( \overline{\overline{x}}=47.869565 \)

计算各项误差平方和

三项误差平方和

总平方和、组间平方和(因素平方和)、组内平方和(误差平方和或残差平方和)

总平方和SST

全部观察值\( x_{ij} \)与总均值\( \overline{\overline{x}} \)的误差平方和

\( S S T=\sum_{i=1}^{k} \sum_{j=1}^{n_{i}}\left(x_{i j}-\overline{\overline{x}}\right)^{2} \)

组间平方和SSA

各组均值\( \overline{x}_i \)与总均值\( \overline{\overline{x}} \)的误差平方和,反映各样本均值之间的差异程度

\( S S A=\sum_{i=1}^{k} n_{i}\left(\overline{x}_{i}-\overline{\overline{x}}\right)^{2} \)

组内平方和SSE

每个水平或组的各样本数据与其组均值的误差平方和,反映每个样本各观测值的离散状况。

\( S S E=\sum_{i=1}^{k} \sum_{j=1}^{n_{i}}\left(x_{i j}-\overline{x}_{i}\right)^{2} \)

�序号 零售业 旅游业 航空公司 家电制造业
1 57 68 31 44
2 66 39 49 51
3 49 29 21 65
4 40 45 34 77
5 34 56 40 58
6 53 51
7 44
组平均值 \( \overline{x}_{1}=49 \) \( \overline{x}_{2}=48 \) \( \overline{x}_{3}=35 \) \( \overline{x}_{4}=59 \)
总平均值 \( \overline{\overline{x}}=47.869565 \)

SST、SSA、SSE三者之间的关系

  • 总平方和SST=组间平方和SSA + 组内平方和SSE

三个平方和分别反映

  • SSA是对随机误差和系统误差大小的度量,反映自变量(行业)对因变量(被投诉次数)的影响,也称为自变量效应或因子效应

  • SSE是对随机误差大小的度量,反映除了自变量对因变量的影响之外,其他因素对因变量的总影响,也称为残差效应

  • SST是对全部数据总误差程度的度量,反映自变量和残差变量的共同影响,等于自变量效应加残差效应

计算统计量

计算方差

各误差平方和的大小与观察值的多少有关,为消除观察值多少对误差平方和大小的影响,需要将其平均,由误差平方和除以相应的自由度求得,这就是均方,也称为方差

三个平方和对应的自由度分别是

  • SST 的自由度为n-1,其中n为全部观察值的个数

  • SSA的自由度为k-1,其中k为因素水平(总体)的个数

  • SSE 的自由度为n-k

计算公式

  • 由于要比较的是组间均方和组内均方之间的差异,所以通常只计算SSA的均方和SSE的均方

  • SSA的均方也称为组间均方或组建方差,记为MSA

  • \( MSA=\frac{组间平方和}{自由度}=\frac{SSA}{k-1} \)

    • 前例计算结果\( M S A=\frac{S S A}{k-1}=485.536232 \)
  • \( MSE=\frac{组内平方和}{自由度}=\frac{SSE}{n-k} \)

    • 前例计算结果\( M S E=\frac{S S E}{n-k}=142.526316 \)

计算统计量

  • 将上述MSA和MSE进行对比,即得到所需要的检验统计量F

  • 当原假设为真时,二者的比值服从分子自由度为k-1,分母自由度为n-k的F分布

  • \( F=\frac{M S A}{M S E} \sim F(k-1, n-k) \)

    • 前例计算结果\( F=\frac{M S A}{M S E}=\frac{485.536232}{142.526316}=3.406643 \)

统计决策

若原假设成立

  • 表明没有系统误差

  • 组间方差MSA与组内方差MSE的比值接近1

若原假设不成立

  • 组间方差显著大于组内方差

  • 各水平之间的差异不仅有随机误差,还有系统误差

前例结果

  • 分子自由度为3,分母自由度为19,查表可知\( F_{0.05}(3,19)=3.13 \),因此\( F>F_{\alpha} \),拒绝原假设。

EWovrt.md.png

方差分析表

EWTdiD.png