第04章 误差

在经济学、社会科学与健康科学领域,诸多研究都围绕着获取总体相关的见解展开。本文语境中的总体,指一项研究中所关注的全部个体、事件或对象,涵盖所有符合特定标准的成员或事件。从该总体中挖掘信息的过程,大致可分为两类:参数估计与假设检验。

参数估计旨在确定各类总体参数的数值,包括均值、方差、标准差、中位数、比例、极差、偏度与峰度。此外,参数估计还包括计算相关系数、协方差与模型系数,这些指标对量化模型中不同变量间的关系至关重要。另一方面,假设检验是一种统计方法,用于评估反对原假设的证据强度,通常将原假设与备择假设进行对比。它通过统计学方法判断观测数据是否显著偏离原假设下的预期结果,以此探究特定事件或特征在总体中出现的可能性。这一过程对于验证或质疑现有关于总体特征与行为的理论、假设具有关键作用。

尽管假设检验与参数估计是研究总体的基础方法,但误差在这些过程中的作用同样不容忽视,它会显著影响统计模型与机器学习模型的准确性和可靠性。

在统计学与机器学习中,误差指计算值、估计值或预测值与真实值、实际值之间的偏差。误差包含多种类型:

在统计学中,误差常是模型本身的一部分,例如线性回归模型中的误差项,代表无法通过估计模型解释的数据部分。

抽样误差产生的原因是样本无法完美代表总体特征,致使观测得到的样本统计量,与总体未知的真实参数之间存在偏差。在机器学习中,预测误差是模型预测值与实际值的差值,它是评估模型性能的核心指标,分为两类:训练误差,出现在训练数据集上,反映模型的学习准确率;泛化误差(测试误差),出现在全新的未知数据上,体现模型将所学知识应用于不同场景的能力。尽可能减小这两类误差,是构建精准、可靠的机器学习模型的关键。

模型误差指模型的假设与其试图拟合的真实世界数据之间的偏差,其成因包括模型假设错误、过度简化,或是未能捕捉数据中复杂的关联关系。算法误差源于数据处理与分析所用算法的局限性与偏差。此外,统计和机器学习模型中的误差通常分为不可约误差可约误差

理解并尽可能减小这些误差,对于依托数据分析、统计学和机器学习开展有效且合乎伦理的决策至关重要。本书将探究各类统计学与机器学习中的误差,本章将重点讲解作为统计分析基石的估计误差,以及以训练数据为基础的机器学习中的预测误差。

假设你想要调查本市居民的平均受教育年限,同时研究受教育水平对收入的影响。直接收集该市总体中每位居民的相关数据通常不具备可行性,更可行的方法是选取部分人群(例如主街道的路人)作为样本,利用样本估算平均受教育年限(采用矩估计法),并估算受教育水平对收入的影响(采用普通最小二乘法估算系数)。为简化分析,假设你收集的样本是随机的,且能够代表总体。

由样本(即观测到的数据)得出的估算平均值,是我们尝试推断总体参数(本例中为平均受教育年限)的结果。借助样本数据,你还可以计算受教育水平与收入的相关系数,并通过普通线性回归模型(下文将介绍相关假设)估算回归系数,分析受教育年限对收入的影响。在该案例中,你能够估算平均受教育年限、受教育水平与收入的相关系数,以及受教育水平对收入的回归系数。

矩估计与系数估算的推导过程,需要选定估计量——即用于估算未知总体参数的统计方法或准则。尽管无论获取何种样本,估计量本身保持不变,且理想情况下需在抽样前确定,但具体的估算结果会随样本变化而不同。最理想的情况是,样本估算值与未知的真实总体参数完全一致。由于总体真实参数永远无法确切得知,我们依靠统计性质证明估算值与真实参数近似相等。这一过程的核心前提与要求是:获取具有代表性的样本,并选定无偏估计量。即便是无偏估计量,也存在”最优选择”的争议,由此引出估计误差的概念。例如,估算的平均受教育年限与总体真实平均受教育年限之间的差值,或是体现受教育对收入回报率的系数偏差,都属于估计误差。在利用统计分析近似总体参数时,估计误差是核心要素。

同理,利用收集到的数据预测个人或群体的受教育年限时,过程中不可避免会产生一定程度的预测误差,该误差体现了预测值与实际结果的偏差。人们很容易认为,预测误差主要出现在变量有限的模型中,例如通过样本估算平均受教育年限这类单一参数。但下文案例将说明,即便是包含海量数据、众多变量的模型,预测误差仍是固有难题。

我们换一个场景,更直观地阐释预测误差。假设你正在构建一个模型,基于受教育水平、职业、工作经验,以及其他你认为会影响收入的因素来预测个人收入。你利用样本数据训练该预测模型,模型首先会对训练数据内个体的收入做出预测。样本内个体的预测收入与实际收入之间的差值,被称为样本内预测误差,它反映了模型基于训练数据预测结果的准确度。

即便模型十分精密,也无法完全考虑所有影响未来收入的变量,例如经济形势变化、个人职业偏好、数据错报,或是能力、机遇这类难以用数值量化的因素。此外,当你使用该模型预测训练数据集之外的新个体收入时,模型预测结果与这些新个体的实际收入之间很可能存在偏差,该偏差即为样本外预测误差,它对于评估模型向全新未知数据泛化的能力至关重要。

样本内与样本外预测误差,对理解模型有效性均意义重大。减小这类预测误差(尤其是样本外误差)是机器学习领域的核心研究方向,该领域重点关注模型对全新未知数据结果的精准预测能力。

传统统计方法侧重于精准的参数估计,我们将跳出这一范畴,探讨估计误差与均方误差(MSE),随后介绍预测误差与均方预测误差(MSPE),阐释二者在统计与机器学习技术中的重要意义。

4.1 估计误差

本节将介绍估计误差的概念,通过模拟实验理解不同估计量如何用于估算平均受教育年限这类总体参数。我们将探究多种估计量,检验其无偏性,并探讨有效性与均方误差(MSE)在选取最优估计量、实现精准总体参数估计中的重要性。该模拟实验还将阐明统计估计中无偏性与方差之间的权衡关系。

我们的核心目标是估算未知的总体参数,记作\(\theta\)。该参数\(\theta\)可以是某一变量(或特征)的简单均值\(\mu_x\),也可以是普通最小二乘法(OLS)估计得到的斜率系数\(\beta_1\)(例如,受教育水平对收入的OLS回归系数)。我们使用估计量来估算\(\theta\),数据来自随机样本,但样本可能无法完美代表整个总体,潜在原因包括抽样误差、测量误差或其他因素。因此,我们的估计值(记作\(\hat{\theta}\))可能无法与真实参数\(\theta\)完全匹配,二者的差值即为估计误差(即误差\(=\hat{\theta}-\theta\))。此外需要注意,当我们提及随机样本时,意味着这些样本同样服从来自总体的独立同分布。

我们模拟前文讨论的场景,旨在估算本市居民的平均受教育年限。由于收集全体居民的数据不具备可行性,我们选取 \(10\) 组具有代表性的样本。在本次模拟中:仅完成义务教育者受教育年限为 \(9\) 年,高中毕业生为 \(12\) 年,大学毕业生为 \(16\) 年;假设报告的受教育年限为 \(9\)\(16\) 之间的任意离散数值,每组代表性样本包含 \(5000\) 名个体。

如前文所述,估算参数\(\theta\)需要选定估计量。估计量是用于估算未知总体参数的统计方法或准则。

在本次模拟中,我们要估算的总体均值\(\mu_x\)即为特定参数\(\theta\),可选用以下三种不同估计量:

第一种,采用所有受访者的平均受教育年限(样本均值)作为估计量。均值是一种简单常用的估计量,因为它利用了全部可用数据点,公式如下: \[\bar{X} = \frac{1}{n}\sum_{i=1}^n x_i\]

第二种,仅取首位与末位受访者受教育年限的平均值。该估计量更简便、计算量更低,通过考虑极值(首个与最后一个数据点)体现数据的变异性。尽管它未使用全部数据点,但在数据服从均匀分布时,可作为快速有效的估计量,公式如下: \[\hat{X}=0.5x_1 + 0.5x_n\]

第三种,对首位与末位受访者的受教育年限进行加权平均。相比等权重方法,该估计量可实现更细致的估算;通过调整权重(首位权重 \(0.25\) 、末位权重 \(0.75\)),可贴合数据分布的特定假设,在特定条件下实现更精准的估计。需要说明的是,只要权重为正数且总和为 \(1\),即可构成无偏估计量,公式如下: \[\hat{X}=0.25x_1 + 0.75x_2\]

除以上三种估计量外,估算平均受教育年限还可选用其他方法:例如使用样本众数,即统计出现频次最高的受教育年限;或是截尾均值,剔除两端极值后计算平均值,降低异常值的影响;也可从样本中随机选取单个数值作为估计量。尽管最后一种方法看似过于简单,且方差较大,但在需要快速、基于单一数据做决策的场景中具备实用价值。

因此,我们需要明确:何种估计量是最优估计量。

假设我们抽取了多组代表总体的随机样本,针对每组样本,计算各项参数的单一数值(如样本均值、样本方差)。所有样本的计算结果将形成分布,即样本均值的抽样分布样本方差的抽样分布。抽样分布是统计学术语,指从特定总体中抽取大量样本后,某一参数(如均值、方差、系数)的分布。简单来说,它代表基于总体多组随机样本计算出的估计量,对应各类结果的可能性(概率分布)。分析该参数估计的分布,结合上述任意估计量,有助于建立筛选最优估计量的核心准则。首先我们需要探讨该分布的期望均值与方差,以此确立相关准则的基础原理。

首要且最重要的准则是:通过多组随机样本得到的所有估计值,其期望值(即均值)应等于未知的总体参数\(\theta\)。满足该条件的估计量称为无偏估计量,即\(\text{偏差}(\hat{\theta})=\mathbb{E}[\hat{\theta}]-\theta=0\),因此\(\mathbb{E}[\hat{\theta}]=\theta\)。 无偏估计量不代表单个样本的估计值能精准匹配总体参数,但意味着:使用同一估计量,对重复抽取的随机样本计算估计值并取平均,结果会无限接近真实的总体参数。我们在上一节已给出理论证明。同时需要注意,该概念是理论层面的,实际应用中我们通常仅使用一组随机样本,并依赖渐近(大样本)性质,后续会展开讲解

众多计量经济学教材(包括本章最后一节)均通过代数证明:在特定假设条件下,均值、方差、相关系数、OLS回归系数(一元与多元模型)等统计参数的估计量均为无偏估计。这些证明通常基于线性性、独立性、误差项正态性等假设。 而本文将通过模拟实验,证明上述三种估计量均为无偏估计。该方法能更直观地阐释概念,分步可视化的模拟过程更便于理解。通过本次模拟,我们可从直观与数值层面,验证独立同分布与无偏估计量的核心统计性质。

我们设定一个总体,其中受教育年限范围为 \(9\)\(16\) 年。假定该总体中,受教育年限为 \(9\)\(16\) 年的个体数量均等。由此可得,该总体的平均受教育年限\(\boldsymbol{\mu_x}\)\(12.5\),该均值由受教育年限区间(\(9\)\(16\) 年)计算得出。

我们生成 \(10\) 组随机样本,每组包含 \(5000\) 个观测值,观测值从上述设定的总体中随机抽取。下文展示 \(5000\) 个个体中的前 \(6\) 行:每行代表一组独立样本,每列代表该样本内的所有数据点。

populationX <- c(9,10,11,12,13,14,15,16)  # 定义原始有限总体,共8个数值,作为抽样数据源
samples <- matrix(0, 5000, 10)             # 创建5000行10列零矩阵,存放5000组样本,每组10个观测
colnames(samples) <- c("X1", "X2", "X3", "X4", "X5", "X6", "X7", "X8", "X9", "X10") # 矩阵列命名,代表单样本内10个样本单元
set.seed(123)                              # 设置随机种子,固定随机序列,保证抽样结果可重复复现
for (i in 1:nrow(samples)) {
  samples[i,] <- sample(populationX, 10, replace = TRUE) # 循环5000次,从总体中有放回抽取10个值存入矩阵单行
}
head(samples)  # 输出数据集前6行,预览抽样结果;整套代码用于仿真重复抽样,支撑抽样分布、中心极限定理验证
     X1 X2 X3 X4 X5 X6 X7 X8 X9 X10
[1,] 15 15 11 14 11 10 10 14 11  13
[2,] 12 14 14  9 10 11 16 13 11  11
[3,]  9 12  9  9 13 11 16 10 15  10
[4,]  9 14 11 12 14  9 11 15 13  12
[5,] 15 16 10 13 15  9  9 10 15  11
[6,] 12 13 15 13 11 16 14  9 10  13

我们可验证以下两点:

  1. 变量\(X\)是否服从独立同分布? 我们需要验证样本内不同数据点的均值与方差保持一致。换言之,同分布要求满足\(\mathrm{E}(x_1)=\mathrm{E}(x_2)=…=\mathrm{E}(x_{10})\),且\(\mathrm{Var}(x_1)=\mathrm{Var}(x_2)=…=\mathrm{Var}(x_{10})\)。此外,任意两个不同数据点间的相关系数为\(0\)(即\(i≠j\)时,\(\mathrm{Corr}(x_i,x_j)=0\)),以此进一步验证独立性。

  2. 三个估计量\(\boldsymbol{\bar{X}}\)\(\boldsymbol{\hat{X}}\)\(\boldsymbol{\tilde{X}}\)是否为无偏估计? 若一个估计量的期望值(即多组样本所得参数的平均值)等于真实总体均值\(\boldsymbol{\mu_x}\)(本例中为 \(12.5\)),则该估计量为无偏估计。该真实值在模拟实验中为已知,但在现实场景中无法直接观测。

接下来我们进行验证:

# 检验 E(x_1)=E(x_2)=...=E(x_10),结果保留两位小数
colMeans <- round(colMeans(samples), 2)
print(colMeans)
   X1    X2    X3    X4    X5    X6    X7    X8    X9   X10 
12.48 12.51 12.48 12.57 12.54 12.51 12.45 12.50 12.51 12.45 
# 检验 Var(x_1)=Var(x_2)=...=Var(x_10),结果保留两位小数
variances <- apply(samples, 2, var)
variances <- round(variances, 2)
print(variances)
  X1   X2   X3   X4   X5   X6   X7   X8   X9  X10 
5.22 5.17 5.28 5.30 5.18 5.31 5.21 5.20 5.27 5.31 
# 检验相关性,结果保留两位小数
correlations <- cor(samples)
correlations <- round(correlations, 2)
print(correlations)
       X1    X2    X3    X4    X5    X6    X7    X8    X9   X10
X1   1.00  0.02  0.00  0.00  0.01  0.00 -0.01  0.00  0.00 -0.02
X2   0.02  1.00  0.01  0.02  0.00  0.00  0.01 -0.01  0.01 -0.02
X3   0.00  0.01  1.00  0.01  0.01  0.00 -0.02  0.02 -0.01  0.00
X4   0.00  0.02  0.01  1.00 -0.02  0.00  0.00  0.02  0.01 -0.01
X5   0.01  0.00  0.01 -0.02  1.00 -0.01  0.00  0.01  0.00  0.01
X6   0.00  0.00  0.00  0.00 -0.01  1.00  0.01  0.02 -0.02 -0.01
X7  -0.01  0.01 -0.02  0.00  0.00  0.01  1.00 -0.01  0.01  0.00
X8   0.00 -0.01  0.02  0.02  0.01  0.02 -0.01  1.00  0.01  0.06
X9   0.00  0.01 -0.01  0.01  0.00 -0.02  0.01  0.01  1.00  0.01
X10 -0.02 -0.02  0.00 -0.01  0.01 -0.01  0.00  0.06  0.01  1.00

请注意,若仅使用唯一样本集,可通过以下代码得到精确结果:

# 提取唯一样本集,获取精确结果
uniqsam <- unique(samples)
colMeans(uniqsam)
     X1      X2      X3      X4      X5      X6      X7      X8      X9     X10 
12.4802 12.5106 12.4758 12.5694 12.5352 12.5094 12.4474 12.4958 12.5138 12.4518 
apply(uniqsam, 2, var)
      X1       X2       X3       X4       X5       X6       X7       X8 
5.215851 5.168121 5.275669 5.304244 5.181397 5.313774 5.211075 5.199022 
      X9      X10 
5.271664 5.308739 
cor(uniqsam)
               X1           X2            X3           X4           X5
X1   1.0000000000  0.019035237  0.0005187863 -0.003009403  0.012697691
X2   0.0190352374  1.000000000  0.0129212837  0.022095728  0.001996026
X3   0.0005187863  0.012921284  1.0000000000  0.008561261  0.007489914
X4  -0.0030094032  0.022095728  0.0085612611  1.000000000 -0.020250816
X5   0.0126976912  0.001996026  0.0074899136 -0.020250816  1.000000000
X6  -0.0012185505  0.003950908  0.0017053482 -0.004192274 -0.006258127
X7  -0.0050727838  0.012249661 -0.0158850355 -0.002273334 -0.004128538
X8   0.0004449995 -0.007632492  0.0158319052  0.015406963  0.006831127
X9  -0.0002149225  0.006525461 -0.0085471951  0.011092057 -0.003824813
X10 -0.0154635584 -0.015980621  0.0032570724 -0.006079606  0.006750404
              X6           X7            X8            X9          X10
X1  -0.001218551 -0.005072784  0.0004449995 -0.0002149225 -0.015463558
X2   0.003950908  0.012249661 -0.0076324918  0.0065254614 -0.015980621
X3   0.001705348 -0.015885036  0.0158319052 -0.0085471951  0.003257072
X4  -0.004192274 -0.002273334  0.0154069633  0.0110920570 -0.006079606
X5  -0.006258127 -0.004128538  0.0068311271 -0.0038248132  0.006750404
X6   1.000000000  0.008001039  0.0171339484 -0.0160498563 -0.005940823
X7   0.008001039  1.000000000 -0.0056535157  0.0060161208  0.002218198
X8   0.017133948 -0.005653516  1.0000000000  0.0053987471  0.059894331
X9  -0.016049856  0.006016121  0.0053987471  1.0000000000  0.013852075
X10 -0.005940823  0.002218198  0.0598943307  0.0138520754  1.000000000

各随机样本的观测期望值(均值)与方差几乎相等。值得注意的是,若将单一样本内的观测数量从 \(5000\) 扩大,均值与方差的相似度会进一步提升。此外,样本间的相关系数近似为 \(0\),由此可证明数据满足独立同分布条件。

下一步验证三个估计量是否为无偏估计。我们将每个估计量应用于随机样本,估算总体未知参数;下方代码用于计算多个样本下变量的平均值,再分别对三个估计量求整体均值。

# 1. 第一个估计量 X_bar:样本均值
X_bar <- rep(0, nrow(samples)) # 存储所有样本均值
for(i in 1:nrow(samples)){
  X_bar[i] <- sum(samples[i,])/ncol(samples)
}
EX_bar <- sum(X_bar)/length(X_bar)
EX_bar
[1] 12.49894
## [1] 12.49894
# 2. 第二个估计量 X_hat:首位与末位受教育年限的均值
X_hat <- rep(0, nrow(samples))
for(i in 1:nrow(samples)){
  X_hat[i] <- 0.5*samples[i,1] + 0.5*samples[i,10]
}
EX_hat <- sum(X_hat)/length(X_hat)
EX_hat
[1] 12.466
# 3. 第三个估计量 X_tilde:首位、第二位受教育年限的加权均值(权重0.25、0.75)
X_tilde <- rep(0, nrow(samples))
for(i in 1:nrow(samples)){
  X_tilde[i] <- 0.25*samples[i,1] + 0.75*samples[i,2]
}
EX_tilde <- sum(X_tilde)/length(X_tilde)
EX_tilde
[1] 12.503

由此可得出结论:\(\mathrm{E}(\bar{X}) \approx \mathrm{E}(\hat{X}) \approx \mathrm{E}(\tilde{X}) \approx \mu_x \approx 12.5\),即三个估计量均为无偏估计。

增加单一样本内的观测数量、同时增加随机样本组数,会使这些期望值更趋近于已知的总体均值 \(12.5\)。但需要注意,样本均值与总体均值并非完全相等。样本估计值与总体真实值之间的差值即为误差,理想状态下误差为 \(0\)。 当样本内观测数量趋近于总体规模时,误差会逐渐减小。由于我们永远无法完全获取总体的全部特征,因此假定:样本量越大,误差越趋近于 \(0\)

4.2 有效性

至此我们已经证明,三个估计量均为无偏估计。这意味着无偏性不能作为筛选最优估计量的唯一标准。我们需要寻找能以更高概率精准逼近总体参数的估计量,由此引出第二个筛选准则:相对有效估计量。简单来说,该估计量的概率密度函数应集中分布在未知的真实总体参数附近,即该估计量具备有效性。

在探讨有效性前,需要明确区分样本均值、样本方差抽样均值、抽样方差

假设我们抽取了多组代表总体的随机样本,针对每组样本,可计算各项参数的单一数值,例如样本均值、样本方差。我们此前定义样本均值\(\bar{X} = \frac{1}{n}\sum_{i=1}^n x_i=\mu_x\),它是未知总体均值\(\mu_x\)的无偏估计量。公式\(\hat{\sigma}_X^2=\frac{1}{n-1}\sum_{i=1}^n (x_i-\bar{X})^2\)是未知总体方差\(Var(X)=\sigma_x^2\)的估计量,该估计量同样无偏(我们将在最后一节给出证明),这一指标称为样本方差,通过计算每个观测值与样本均值差值的平方的平均值得到。我们在分母使用\(n-1\)而非\(n\),以此实现对未知总体方差\(\sigma_x^2\)的无偏估计。

所有单样本参数会形成一个分布,其中我们重点分析的核心参数为均值。从足够多的随机样本中得到的所有样本均值,构成样本均值的抽样分布。该分布是从同一总体中抽取相同规模样本后,所有可能样本均值的概率分布,它在统计假设检验与置信区间构建中起到关键作用。 样本均值的抽样分布存在均值与方差:其中,样本均值抽样分布的均值称为抽样均值,样本均值抽样分布的方差称为抽样方差

抽样分布指从特定总体中抽取大量样本后,某一参数(如均值、方差、系数)的分布。估计量结果的这一分布包含抽样均值(用于检验无偏性)与抽样方差(用于检验有效性)。抽样分布的标准差即标准误,为抽样方差的平方根,且会随样本量的增大而减小。

若将均值为\(\mu_x\)、方差为\(\sigma_X^2\)的每组随机样本记作\(X_i\),则抽样均值为\(\mathrm{E}(\bar{X})=\frac{1}{n}\sum_{i=1}^n X_i=\mu_x\),抽样方差为\(\mathrm{Var}(\bar{X})=\frac{1}{n}\sum_{i=1}^n (\bar{X}_i-\mu_x)^2=\frac{\sigma_x^2}{n}\)(推导过程见最后一节)。

综上,当我们从均值为\(\mu_x\)、方差为\(\mathrm{Var}(X)=\sigma_x^2\)的总体中抽取多组随机样本时,抽样均值与总体均值相等;而抽样方差等于总体方差\(\sigma_x^2\)除以样本量\(n\)。因此,随着样本量增大,抽样方差趋近于 \(0\),该性质称为一致性

一般而言,根据大数定律,估计量的方差会随样本量增大而减小。但如果方差由不同样本量计算得出,我们不能仅依据方差更小就判定某一估计量更有效。当对比同一参数的两个无偏估计量时,方差更小的估计量相对更有效;在所有无偏估计量中,方差最小的即为最优估计量。 若一个估计量是线性、无偏的,且在给定数据集的所有无偏线性估计量中方差最小,则称其为最佳线性无偏估计量(BLUE)

相对有效性用于对比利用相同信息的不同估计量,即它们基于相同数据、相同样本量;该概念不适用于对比同一估计量在不同样本量下的方差。

因此,方差最小的无偏估计量是未知总体参数的最优估计。但需要注意:即便一个无偏估计量的有效性高于另一个,也不代表它的估计结果一定更精准,只是其结果精准的概率更高(见\(图4.1\))。

接下来我们通过本次模拟实验,验证三个无偏估计量中方差最小的那一个。

var(X_bar) ## [1] 0.5385286
[1] 0.5385286
var(X_hat) ## [1] 2.590462
[1] 2.590462
var(X_tilde) ## 3.27012
[1] 3.27012

通过对比方差可以发现,样本均值\(\boldsymbol{\bar{X}}\)的方差最小。由此可知,在所有无偏估计量中,样本均值的有效性最高。

4.3 均方误差

均方误差(MSE)是衡量不同估计量有效性的核心指标,它同时包含估计量的方差与可能存在的偏差。这种双重考量至关重要,因为它兼顾了估计的精度准确度,使均方误差成为对比估计量的综合性准则。

展开之前,我们需要明确本文的术语界定:部分文献会混用均方误差指代估计量预测值,本文将严格区分二者以避免歧义。在本章中,MSE仅针对估计量的性能指标;下一节将介绍均方预测误差(MSPE),它在概念和数学形式上与MSE存在区别,但常被其他文献混淆。本文严格区分二者,以保证论述的清晰性与严谨性。

当估计量并非全部无偏时,该如何评估、对比它们?

一个方差较大的无偏估计量,未必优于方差更小的有偏估计量,不能仅凭借无偏性判定优劣。对比估计量(尤其存在有偏估计量时)的选择并不简单。例如,针对同一总体特征,可能存在两种估计量:一种无偏但方差大,另一种有偏但方差更小,选择取决于研究需求。 在应用微观经济学与社会科学中,若估计误差不是核心顾虑,我们通常优先选择无偏估计量。原因是我们假定:估计误差在平均意义上会相互抵消,该假设基于误差项的期望值为 \(0\)\(\mathrm{E}[\epsilon]=0\))、方差为\(\sigma^2\)

该选择哪种估计量?

估计量 \(A\) 无偏但方差大,估计量 \(B\) 方差更小但存在偏差(见\(图4.1\))。从随机抽取的总体样本来看,即便估计量 \(B\) 存在偏差,用它得到的\(\theta\)估计值往往比 \(A\) 更接近真实的\(\theta\)。我们将在下一章通过进一步模拟验证这一点。

在无法容忍巨大误差的场景中,可选择方差更小的估计量,即便它带有轻微偏差。例如天气预报领域,略微有偏但结果稳定的预测模型,往往优于无偏但每日剧烈波动的模型。对于农业、航空等依赖稳定气象预报的行业,预报不准确会引发严重运营问题,因此稳定性至关重要。 在医学诊断中,初步筛查场景也常优先选择轻微有偏、但方差更小的检测方法。疾病诊断测试可校准为轻微偏向假阳性,即可能误判健康者患病,但能确保几乎不漏诊所有真实病例。 这类场景下,巨大误差的成本极高,因此需要牺牲部分无偏性、优先最小化方差。简言之,估计量的选择往往取决于误差成本与误差大小的相对关系,该成本可通过损失函数量化。在经济学、社会科学、健康科学中,最常用的损失函数就是均方误差。

估计量\(\hat{\theta}\)的均方误差,量化了误差平方的平均值,即估计值与真实值\(\theta\)之间平方差值的均值。其正式定义为:估计量\(\hat{\theta}\)与真实参数\(\theta\)差值平方的期望值: \[\mathrm{MSE}(\hat{\theta})=\mathbb{E}\left[(\hat{\theta}-\theta)^2\right] \tag{4.1}\]

参数\(\theta\)可根据研究场景代表各类统计量,如变量(特征)的均值、方差\(\mu_x\),或普通最小二乘(OLS)回归的斜率系数\(\beta\)

在计量经济学等学科常用的OLS回归中,均方误差是系数估计的核心。以简单线性回归模型 \(y=\beta_0+\beta_1 X+\epsilon\) 为例:\(y\)为因变量,\(X\)为自变量,\(\beta_0、\beta_1\)为待估系数,\(\epsilon\)为误差项(通常假定均值为 \(0\)、方差恒定,正态分布为可选假设)。 OLS回归的目标是最小化均方误差,针对残差项\(\epsilon_i\)的均方误差公式为: \[\mathrm{MSE}=\frac{1}{n}\sum_{i=1}^n (\epsilon_i)^2=\frac{1}{n}\sum_{i=1}^n (y_i-\hat{y}_i)^2 \tag{4.2}\]式中\(\hat{y}_i=\hat{\beta}_0+\hat{\beta}_1 X_i\)为回归方程得到的\(y\)预测值;系数\(\beta_0、\beta_1\)的估计以最小化该均方误差为目标。 需要说明:OLS在技术上最小化的是残差平方和 \(\mathrm{RSS}=\sum_{i=1}^n (y_i-\hat{y}_i)^2\),但最小化残差平方和等价于最小化均方误差。其中残差定义为观测值与预测值的差值,即 \(y_i-\hat{y}_i\)

均方误差是对比不同估计量有效性的核心指标,它同时包含估计量的方差与可能的偏差。这种双重考量兼顾了精度与准确度,因此均方误差是对比估计量的综合性准则。

均方误差可分解为方差偏差平方\[\mathrm{MSE}(\hat{\theta})=\mathbb{E}_{\hat{\theta}}\left[(\hat{\theta}-\theta)^2\right]=[\mathrm{bias}(\hat{\theta})]^2+\mathrm{Var}(\hat{\theta}) \tag{4.3}\]

该公式同样适用于OLS回归的误差项: \[\mathrm{MSE}(\hat{\epsilon})=\mathbb{E}_\epsilon\left[(\hat{\epsilon}-\epsilon)^2\right]=[\mathrm{bias}(\hat{\epsilon})]^2+\mathrm{Var}(\hat{\epsilon}) \tag{4.4}\]式中\(\hat{\epsilon}\)为估计的误差项,\(\epsilon\)为真实误差项。最小化误差项的均方误差,是实现最优模型拟合的关键,目标是做到零偏差、最小方差

同理,系数\(\hat{\beta}_1\)的均方误差分解为: \[\mathrm{MSE}(\hat{\beta}_1)=\mathbb{E}\left[(\hat{\beta}_1-\beta_1)^2\right]=\mathrm{Bias}^2(\hat{\beta}_1)+\mathrm{Var}(\hat{\beta}_1) \tag{4.5}\]

理想的估计量是无偏且方差最小。在绝大多数应用研究与基础计量经济学教材中,所用方法均旨在生成无偏估计量,因此通常假定最终估计结果无偏。此时均方误差直接等同于方差,方差的平方根即标准误,用于衡量估计精度。在入门阶段,一般不强调均方误差为”偏差平方+方差”的完整分解形式。

结束本节前,需要说明均方误差在统计学中的其他含义

  1. 回归分析MSE可指代误差方差的无偏估计,计算方式为残差平方和除以自由度。该定义和前文广义定义不同。具体来说,未观测误差方差的无偏估计量 = 残差平方和 ÷ 自由度,其中自由度 \(\mathrm{df}=n-p-1\)\(n\)为样本观测数,\(p\)为模型中除截距外的待估参数数量。该公式得到的无偏估计量,常被直接称为MSE

  2. 方差分析(ANOVA):作为分析样本组间均值差异的统计方法,MSE在此有专属定义。ANOVA中的误差项代表组内变异或”未解释的随机误差”。方差分析的核心目标是检验 \(3\) 个及以上独立组别间的均值是否存在显著差异,它将数据的总变异分为组间变异组内变异

    • 总平方和(SST):衡量数据总方差,为各观测值与总体均值差值的平方和;

    • 组间平方和(SSB):量化组别均值差异带来的方差,反映自变量对因变量的影响,计算方式为各组均值与总体均值差值的平方,乘以该组观测数后求和;

    • 组内平方和(SSW,即误差项):衡量各组内部的方差,为每组内各观测值与该组均值差值的平方和。

    三者满足:\(\boldsymbol{\mathrm{SST}=\mathrm{SSB}+\mathrm{SSW}}\)。基于平方和,方差分析计算均方:

    • 组间均方(MSB):\(\mathrm{MSB}=\mathrm{SSB}/(k-1)\)\(k\)为组别数量,衡量组间平均方差;

    • 均方误差(MSE,即组内均方MSW):衡量组内误差(残差)平方的平均值,计算公式为\(\boldsymbol{\mathrm{MSE}=\mathrm{SSW}/(n-k)}\)\(n\)为总观测数。

    MSE代表各组内数据相对于本组均值的平均方差。MSE越小,说明组内数据越集中于组均值,组内变异越小。 组间均方与均方误差的比值为 \(F\) 统计量,将其与 \(F\) 分布的临界值对比,即可判断组间均值差异是否具有统计显著性。显著的 \(F\) 统计量说明组间均值差异显著,即自变量对因变量存在影响。详细讨论可参考 \(Gelman(2005)\),完整文献引用见脚注¹。

4.3.1 从单个随机样本到总体参数

在进入下一节探讨均方预测误差前,本节我们需要解决一个关键问题:在实际研究中,我们通常仅有一组样本可用,而非前文模拟、\(图4.1\)中使用的多组随机样本。图中展示了估计量\(A\)\(B\),利用多组样本得到的估计值分析总体参数\(\theta\),包含估计均值、方差、分布,并对估计量进行可视化。这引出了核心问题:如何仅通过总体的一组随机样本,估计总体参数\(\theta\)

我们的目标是利用样本内的数据,推断总体参数的取值。“推断”是指通过证据与逻辑推导得出结论。统计推断是基于随机抽样,对总体参数、统计关系可靠性进行判断的理论、方法与实践²。本质上,统计推断就是从总体的部分样本数据中推导结论。 需要注意:没有任何研究结论可以做到普适性推广。作为分析人员,你的职责是阐明研究结果可用于推断的适用场景与不适用场景,这要求在解读结果、开展推断时,清晰描述样本的特征。

首先,我们需要从目标总体中收集并验证一组随机样本。随机性保证总体中每个个体被抽中的概率均等,使样本具备代表性。我们从这单一样本中计算样本统计量,如样本均值、方差、标准差、回归系数,将其作为对应总体参数的估计值。通过估计、假设检验开展统计推断,我们利用这组随机样本得到的参数估计值,对总体参数进行合理推测。

需要重点关注估计量的渐近(大样本)性质,理想的估计量应具备一致性。一致性是估计量的渐近性质,指随样本量增大,估计量收敛于真实总体参数一个估计量具备一致性,需满足两个核心条件:一是无偏(或偏差随样本量增大趋近于0);二是方差随样本量增大减小至 \(0\)证明估计量具有一致性,即证明其依概率收敛于样本量趋于无穷时的真实参数,该概念与大数定律(LLN)密切相关。

一致性表明:样本量越大,估计量的分布越集中在真实参数附近。但该概念无法体现特定样本量下的分布形态。为开展区间估计与假设检验,我们依靠中心极限定理(CLT)近似估计量的分布,假定其渐近服从正态分布。 中心极限定理描述了抽样分布:通过假想的重复抽样,给出估计量的分布信息,降低估计的不确定性,使我们能够衡量统计量与参数的接近程度。

接下来,区间估计是计算大概率包含总体参数的置信区间。例如,总体均值的 \(95\%\) 置信区间含义为:抽取 \(100\) 组不同样本、计算 \(100\) 个置信区间,其中约 \(95\) 个区间会包含真实的总体均值。该方法基于中心极限定理,可通过已知置信水平的样本推断总体特征³。 尽管常说样本量达到 \(30\) 即可满足中心极限定理,这只是经验法则,并非严格标准;抽样分布近似正态所需的实际样本量,取决于总体原始分布的形态与离散程度。

中心极限定理是统计学的基础概念,它指出:无论总体分布如何,样本均值的分布随样本量增大近似服从正态分布。该定理适用于独立同分布的随机变量,在大样本下效果最佳。 中心极限定理的核心意义在于:即便原始总体不服从正态分布,统计方法仍可使用正态分布假设。回归分析(尤其是普通最小二乘法)常假定误差项服从正态分布,该假设的合理性在于:误差项实际是大量独立微小误差的总和;即便单个误差不服从正态分布,中心极限定理仍可保证误差项总和近似服从正态分布。该近似是回归分析中统计推断的核心。

多项研究与主流教材指出,人们对中心极限定理存在一些常见误解: 一是认为该定理适用于任意随机变量的随机抽样,而实际上它仅针对独立同分布随机变量的均值(或和); 二是认为大样本下任意随机变量都会呈现正态分布,而实际上抽样仅渐近复刻总体分布特征,并非所有情况都会生成正态分布。准确理解该区别,是在统计分析中正确运用、解读中心极限定理的关键。

简单来说,若单一样本的观测数量足够大,当总体方差未知时,样本均值\(\bar{X} \sim \mathcal{T}(\mu_x,\sigma_x^2/n)\),其中\(S\)为样本标准差,\(\mathcal{T}\)学生 \(t\) 分布

为什么这很重要?因为它如同“魔法”:仅通过一组具有代表性的样本,我们就能将结果推广至总体。本文不深入区间估计细节,但已知样本均值\(\bar{X}\)与样本方差\(S\),可得到总体均值\(\mu_x\)的置信区间: \[\left(\bar{x}-t^*\frac{s}{\sqrt{n}},\ \bar{x}+t^*\frac{s}{\sqrt{n}}\right)\]其中\(t^*\)\(t\)分布的临界值;对于 \(95\%\) 置信水平、样本量大于 \(100\) 的情况,\(t^*\)通常约为 \(1.96\)。 若 \(\mathbb{E}(\bar{X}) \neq \mu_x\),该区间将完全错误、产生误导;若区间过宽(方差过大),则该区间毫无意义。这也是我们不喜欢大方差的原因。

用一段话总结推断的逻辑:我们用样本统计量估计总体参数,即基于随机样本数据计算的统计量,作为未知总体参数的估计量。我们依靠中心极限定理的公理,描述抽样分布,搭建样本统计量与总体参数的桥梁。通过中心极限定理,我们使抽样分布服从正态分布;再次利用该定理,以样本均值为中心,结合样本标准差计算抽样分布的标准误;再将正态概率分布的性质应用于抽样分布,最终得到总体参数的估计值。(摘自中心极限定理相关文献⁴,完整来源见脚注)。

开展这类推断时,必须考虑所用统计方法的前提假设。不同方法对抽样总体有特定条件要求,例如假定总体服从正态分布、样本内观测值相互独立。从样本中得到的推断,其准确性、可靠性高度依赖这些假设是否成立。 通过严格验证假设、运用合适的统计推断技术,我们可以将单组随机样本的研究结论,推广至整个总体。

提示

假定真实线性模型 \(y = X\beta+\varepsilon\),估计\(\hat{\beta}\)并得到预测值\(\hat{y}=X\hat{\beta}\)。以\(\|\cdot\|\)代表均方误差范数,可定义:

  • 估计误差\(\|\boldsymbol{\beta}-\hat{\boldsymbol{\beta}}\|\)

  • 预测误差(残差)\(\|y-\hat{y}\|=\|X(\boldsymbol{\beta}-\hat{\boldsymbol{\beta}})\|\)(该定义不含与误差项相关的部分)

假设真实线性模型为 \(\boldsymbol{y = X\beta+\varepsilon}\),我们对 \(\boldsymbol{\beta_i}\) 进行估计。高斯‑马尔可夫定理指出:若线性回归模型满足前六条经典假设,则普通最小二乘(OLS)回归得到的估计量,是所有线性估计量中方差最小的无偏估计量,即OLS最佳线性无偏估计量(BLUE)。关于OLS的性质与推导的详细讲解,可参见本章末尾的技术章节。

OLS经典假设

  1. 假设1:回归模型对参数(系数)呈线性,且模型设定正确。
  2. 假设2:误差项的均值为\(0\)
  3. 假设3:所有自变量(解释变量)与误差项不相关。
  4. 假设4:矩阵\(\boldsymbol{X}\)中的解释变量均线性无关。
  5. 假设5:误差项方差恒定(即不存在异方差)。
  6. 假设6:不存在某一自变量是其他解释变量的完全线性函数(即无多重共线性)。
  7. 假设7:误差项服从正态分布(可选假设)。

4.4 预测误差:均方预测误差

上一节我们定义了均方误差(MSE),专门用于衡量估计量的性能,并将其分解为方差与偏差。部分文献会混用MSE指代估计量与预测值,而本文严格区分二者以避免歧义,在专门讨论预测问题时,统一使用均方预测误差(MSPE)。 预测函数可定义为:将任意输入映射至某随机变量样本取值的函数。本节旨在针对各类函数的预测过程,专门定义预测层面的均方误差,即MSPE。本章中,我们尝试多种预测函数,利用给定样本数据集寻找最优预测函数:计算每个函数的样本内均方预测误差,选择误差最小的函数。

我们的目标是预测结果变量\(Y\),典型场景为监督学习,即回归问题中结果已知且为非二分类变量。我们将响应变量\(Y\)建模为特征\(X\)的函数,叠加随机噪声: \[Y = f(X)+\varepsilon \tag{4.6}\]

我们拥有一组样本(训练集),包含数据点\(x_1,\dots,x_n\)及对应真实值\(y_i\)。假定数据由真实函数\(f(x)\)生成,并叠加噪声\(\varepsilon\),该噪声均值为 \(0\)、方差恒定。我们的目标是利用训练集,通过学习算法找到尽可能逼近\(f(x)\)的预测函数\(\hat{f}(x)\)。 但如何定义逼近?通常通过最小化平均平方误差损失实现。 损失函数为\((Y-f(X))^2\)平均平方损失函数是该损失的期望值,称为风险函数\[\text{风险函数}=\mathbb{E}\left[(Y-f(X))^2\right] \tag{4.7}\]

因此,我们的目标是最小化风险函数,利用\(X\)预测\(Y\)。但真实函数\(f(X)\)未知,因此我们寻找预测函数\(\hat{f}(X)\),作为未知函数\(f\)的估计。由此产生利用\(\hat{f}(X)\)预测\(Y\)时的期望预测误差,最终目标为最小化该误差的平方均值,即均方预测误差(MSPE)\[\text{MSPE}=\mathbb{E}\left[(Y-\hat{f}(X))^2\right] \tag{4.8}\]

该函数的性能通过均方预测误差\((y-\hat{f}(x))^2\)衡量,不仅针对训练数据,也针对全新、未观测的数据。该模型允许我们使用各类监督学习算法,找到在训练数据外泛化能力良好的函数\(\hat{f}\);其期望误差可拆解为特定部分。但由于\(y_i\)存在噪声,预测始终会存在不可消除误差

性能优良的\(\hat{f}(X)\)具备较小的MSPE。该误差可拆解为两部分:

  • 可消除误差(即均方误差MSE):在固定\(X\)取值时,利用\(\hat{f}(X)\)估计\(f(X)\)的期望平方误差损失;

  • 不可消除误差:本质为给定\(X=x\)\(Y\)的方差,代表我们无法通过学习消除的噪声。

给定\(X=x\)时的可消除误差: \[\text{MSE}(f(x),\hat{f}(x))=\underbrace{(f(x)-\mathbb{E}[\hat{f}(x)])^2}_{\text{偏差}^2(f(x))}+\underbrace{\mathbb{E}\left[(\hat{f}(x)-\mathbb{E}[\hat{f}(x)])^2\right]}_{\text{方差}(\hat{f}(x))} \tag{4.9}\]

均方预测误差表达式为: \[\text{MSPE}=\mathbb{E}\left[(Y-\hat{f}(X))^2\right]=\text{Bias}[\hat{f}(X)]^2+\text{Var}[\hat{f}(X)]+\sigma^2 \tag{4.10}\]其中\(\boldsymbol{\sigma^2=\mathbb{E}[\varepsilon^2]}\)代表噪声的方差。

此外,\(\hat{f}\)偏差平方+方差称为可消除误差。因此均方预测误差可简写为: \[\boldsymbol{\text{MSPE}=\text{可消除误差}+\text{不可消除误差}} \tag{4.11}\]

我们着重区分MSEMSPE,以及二者基于方差、偏差的分解形式。尽管估计量的MSE与预测函数的MSE公式十分相似,但用途完全不同:

  • MSE的偏差、方差来自参数估计

  • MSPE的偏差、方差来自预测函数

我们尝试不同预测函数,寻找最优预测函数。在文献中,估计参数称为点估计\(\theta\)为正则空间中的点);而确定函数\(f\)称为函数估计\(f\)为函数空间中的函数)。 二者易混淆的核心原因是:估计与预测的MSE在概念上相似,导致在偏差‑方差分解的讨论中常被混用。我们将在下一章展开讨论。均方预测误差最小的预测函数即为最优选择。但我们还面临另一个问题:过拟合,将在第 \(6\) 章详细讨论。均方预测误差的完整拆解可参见本章末尾的技术小节。

我们的任务是挑选最优预测函数,即在所有备选函数中均方预测误差最小的那个。理想情况下,我们希望预测函数零偏差、低方差,实现最小MSPE,但现实中无法达成。 与估计量不同,预测中可接受一定偏差,只要能降低MSPE。更具体地说:只要方差的降低幅度大于偏差的增加幅度,我们就可以允许预测函数存在偏差。我们将在 \(5.3\) 节举例说明。

由此可见,与参数估计不同,预测可通过权衡方差与偏差,降低均方预测误差,下一章将具体说明如何实现。 例如:预测函数可为常数(有偏但方差为 \(0\));或取\(X\)的均值(零偏差但方差较大);或选择同时存在一定偏差与方差的预测函数。我们将通过模拟示例展示这三种预测函数。

沿用前文的模拟案例,本次任务发生变化:我们要利用现有数据,预测下一个人的受教育年限。现将本次模拟中与MSPE相关的核心要点总结如下:

  1. \(x_0\)为待预测值,\(\hat{f}\)为预测函数,可采用 \(4.1\) 节中的\(\mathbb{E}(\bar{X})\)\(\mathbb{E}(\hat{X})\)\(\mathbb{E}(\tilde{X})\),或其他任意预测函数。

  2. \(x_0\)建模为\(x_0=\mu_x+\varepsilon_0\),其中\(f=\mu_x\)\(x_0\)的系统成分。因此\(\mathbb{E}[x_0]=f\),且随机误差\(\varepsilon_0\)的期望值为 \(0\),即\(\mathbb{E}[\varepsilon_0]=0\)

  3. 由于\(f\)被建模为常数\(\mu_x\)\(f\)的期望值为其本身:\(\mathbb{E}[f]=f\),即\(\mathbb{E}[\mu_x]=\mu_x\)

  4. \(x_0\)的方差计算如下:\[\begin{align*} \text{Var}[x_0]&=\mathbb{E}\left[(x_0-\mathbb{E}[x_0])^2\right]=\mathbb{E}\left[(x_0-f)^2\right]=\mathbb{E}\left[(\mu_x+\varepsilon_0-\mu_x)^2\right]\\ &=\mathbb{E}[\varepsilon_0^2]=\text{Var}[\varepsilon_0]=\sigma^2 \tag{4.12} \end{align*}\]这说明:在\(\mathbb{E}[\varepsilon_0]=0\)的前提下,\(x_0\)的方差完全由\(\varepsilon_0\)的方差决定。

我们的目标是预测未观测的\(X\)值,而非估计\(\mu_x\),因此需要的是预测函数而非估计量。

要评估不同预测函数,需对比其MSPE或其平方根(均方预测根误差RMSPE)。本文案例为连续结果的预测,因此使用MSPE;二分类问题中损失函数的代数形式与MSPE不同,分类问题的性能评估指标与方法将在第 \(10\) 章介绍。

多数发达国家规定 \(6-16\) 岁必须接受义务教育。

  • 第一个预测函数:直接预测下一个人的受教育年限为 \(10\) 年,该函数简单实用,对部分个体可实现精准预测。

  • 第二个预测函数:利用数据中受教育年限的平均值预测下一个人的水平。

由此得到两个预测函数:

  • 函数 \(1\):常数 \(10\),存在偏差、方差为 \(0\)

  • 函数 \(2\):每行样本的均值,偏差更小、方差更大。

为简化分析,本次模拟使用 \(1\) 组包含 \(5000\) 名个体的样本

两个预测函数分别为: \[\boldsymbol{\hat{f}_1=10},\quad \boldsymbol{\hat{f}_2=\bar{X}}\]

我们沿用之前的案例,多次从该总体中抽样。本次任务是:利用每组样本构建一个预测函数(预测规则),用于预测从同一总体中抽取的一个或多个数值。

# 设定总体
populationX <- c(9,10,11,12,13,14,15,16)
# 设定重复抽样的样本数量(5000)
Ms <- 5000
samples <- matrix(0, Ms, 10)
colnames(samples) <- c("X1", "X2", "X3", "X4", "X5", "X6", "X7", "X8", "X9", "X10")
# 进行有放回抽样
set.seed(123)
for (i in 1:nrow(samples)) {
  samples[i,] <- sample(populationX, 10, replace = TRUE)
}
head(samples)
     X1 X2 X3 X4 X5 X6 X7 X8 X9 X10
[1,] 15 15 11 14 11 10 10 14 11  13
[2,] 12 14 14  9 10 11 16 13 11  11
[3,]  9 12  9  9 13 11 16 10 15  10
[4,]  9 14 11 12 14  9 11 15 13  12
[5,] 15 16 10 13 15  9  9 10 15  11
[6,] 12 13 15 13 11 16 14  9 10  13

可以看到,本次使用的样本与之前的模拟一致。你可以通过设置不同随机种子或改变样本量 \(Ms\) 来调整数据。接下来,我们使用不同的预测函数,计算各自的均方预测误差(MSPE)。

# 存储所有预测值的容器
predictions <- matrix(0, Ms, 2)

# 预测函数1:常数10
for (i in 1:Ms) {
  predictions[i,1] <- 10
}

# 预测函数2:样本均值
for (i in 1:Ms) {
  predictions[i,2] <- sum(samples[i,])/length(samples[i,])
}

head(predictions)
     [,1] [,2]
[1,]   10 12.4
[2,]   10 12.1
[3,]   10 11.4
[4,]   10 12.0
[5,]   10 12.3
[6,]   10 12.6
# 计算均方预测误差 MSPE
MSPE <- matrix(0, Ms, 2)
for (i in 1:Ms) {
  MSPE[i,1] <- mean((populationX - predictions[i,1])^2)
  MSPE[i,2] <- mean((populationX - predictions[i,2])^2)
}
head(MSPE)
     [,1] [,2]
[1,] 11.5 5.26
[2,] 11.5 5.41
[3,] 11.5 6.46
[4,] 11.5 5.50
[5,] 11.5 5.29
[6,] 11.5 5.26

无偏预测函数\(\boldsymbol{\hat{f}_2}\)的均方预测误差(MSPE)更小,因此表现更优。 那么,什么样的预测函数才是优秀的?无偏性是必备条件吗? 有偏的估计量就一定是糟糕的预测函数吗? 仅靠最小的均方预测误差,就足以判定它是最优预测函数吗? 我们通过下面的模拟来解答最后一个问题。

下面的示例将通过模拟,展示不同阶数多项式预测函数的均方预测误差表现。

在本次模拟中,我们生成包含随机变量\(x\)\(y\)的数据集,构建多个预测函数(最高至 \(10\) 次多项式),评估各自的均方预测误差。

尽管真实模型为 \(3\) 次多项式,但我们可以发现:随着多项式阶数提高,均方预测误差不断下降。这符合预期,因为高阶多项式对数据的拟合效果更好,带来更低的预测误差。 但这种精度提升是以模型复杂度增加为代价的,进而可能引发过拟合,该内容将在后续两章展开讲解。 该结果体现了模型复杂度与预测精度之间的权衡,凸显了选择合适模型、平衡二者的重要性。 在实际应用中,必须通过均方预测误差等指标评估不同模型性能,为给定数据集挑选最优模型。该流程能保证所选模型预测精准,同时避免过拟合或欠拟合。

什么样的预测函数才是优秀的?有偏的预测函数就一定不好吗? 在预测问题中,我们可以通过权衡方差与偏差,降低均方预测误差,这一权衡关系将在下一章讨论。 复杂的预测函数一定优于简单函数吗?我们将在下一章探讨,并继续沿用本次模拟,直观展示这些概念。

# 设定随机种子,保证结果可复现
set.seed(123)

# 观测样本量
# n <- 5000 (增大N,不可消除误差将趋近于σ²)
n <- 100
# 总体均值
mean <- 0
# 总体标准误(其平方为未知误差项的方差)
sigma <- 8
# 生成随机自变量X
X <- rnorm(n, 0, 1)
# x_1为第一个随机样本(训练样本)
x_1 <- X
# 利用给定的三次回归系数生成lnw数据
b0 <- 1; b1 <- 2; b2 <- -2; b3 <- 3
Truefx <- b0 + b1*x_1 + b2*I(x_1^2) + b3*(x_1^3)
RandomError <- rnorm(n, mean , sigma)
Y <- Truefx + RandomError

# 计算均方预测误差 MSPE 的函数
calculate_mspe <- function(Outcome, PredictedOutcome) {mean((Outcome - PredictedOutcome)^2)}
# 计算均方误差 MSE(可消除误差)的函数
calculate_mse <- function(truefx, pred) {mean((truefx - pred)^2)}
# 计算不可消除误差的函数
calculate_IrrErr <- function(y, truefx) {mean((y - truefx)^2)}

# 初始化MSPE结果存储数据框
results <- data.frame(
  Degree = integer(),
  MSPE = numeric(),
  ReducibleError = numeric(),
  IrreducibleError = numeric(),
  stringsAsFactors = FALSE
)

# 拟合1‑10阶多项式模型,并计算MSPE
PolyDegree <- 10
for (degree in 1:PolyDegree) {
  model <- lm(Y ~ poly(x_1, degree, raw = TRUE))
  predictions <- predict(model, newdata = data.frame(x_1 = x_1))
  
  mspe <- calculate_mspe(Y, predictions)
  mse <- calculate_mse(Truefx, predictions)
  IrrError <- calculate_IrrErr(Y, Truefx)
  results <- rbind(results, data.frame(
    Degree = degree,
    MSPE = mspe,
    ReducibleError = mse,
    IrreducibleError = IrrError
  ))
}

# 输出结果
print(results)
   Degree     MSPE ReducibleError IrreducibleError
1       1 86.57600      23.336065         59.98584
2       2 79.56354      20.547115         59.98584
3       3 58.40780       1.578044         59.98584
4       4 57.70779       2.278051         59.98584
5       5 57.70180       2.284042         59.98584
6       6 57.59455       2.391297         59.98584
7       7 57.20530       2.780540         59.98584
8       8 55.74635       4.239495         59.98584
9       9 55.74594       4.239899         59.98584
10     10 55.19262       4.793224         59.98584

我们仅有一组样本,同时构建了 \(10\) 个不同的预测函数。可以看到,随着多项式阶数升高,均方预测误差(MSPE)不断下降。这符合预期,因为高阶多项式对数据的拟合效果更好,因此预测误差更低。 但这种精度提升是以模型复杂度增加为代价的,进而可能引发过拟合,该内容将在后续两章展开讲解。

我们只能基于现有样本计算均方预测误差,这被称为经验均方预测误差、训练样本均方预测误差或样本内均方预测误差。我们无法计算总体层面的均方预测误差;同时,由于真实函数、均值与方差等总体参数未知,我们也无法将均方预测误差拆解为可消除误差与不可消除误差。

我们的目标是通过最小化可消除误差,从而最小化均方预测误差。但需要同时考虑偏差‑方差权衡、可能引发过拟合的模型复杂度,以及样本外预测误差。以上内容我们将在后续章节展开讨论。

4.5 技术要点与数学证明

4.5.1 参数的无偏性

为估计未知总体参数\(\boldsymbol{\theta}\),我们使用随机样本得到数据,记\(\boldsymbol{\hat{\theta}}\)\(\theta\)估计量。 挑选“最优”估计量的首要核心准则为:从不同随机样本得到的所有估计值,其期望值(均值)等于未知总体参数\(\boldsymbol{\theta}\)。满足该条件的估计量称为无偏估计量,即: \[\text{Bias}(\hat{\theta})=\mathbb{E}[\hat{\theta}]-\theta=0 \quad \Rightarrow \quad \mathbb{E}[\hat{\theta}]=\theta\]

无偏估计量不保证单一样本的估计值完全等于总体参数,但意味着:对多次重复抽取的随机样本,使用同一估计量计算,所有估计值的平均值会无限接近真实总体参数需注意该性质是理论层面的,现实研究中我们通常只有一组样本,因此依赖渐近(大样本)性质。

4.5.2 样本均值估计量的无偏性

我们估计变量(特征)的总体均值,通常用\(\boldsymbol{\mu_x}\)代替\(\theta\),用样本均值\(\boldsymbol{\bar{X}}\)作为估计量。 下面证明样本均值估计量的无偏性:\(\boldsymbol{\mathbb{E}[\bar{X}]=\mu_x}\)。 样本均值\(\bar{X}\)是随机样本中\(n\)个观测的平均值: \[\hat{\theta}=\bar{X}=\frac{1}{n}\sum_{i=1}^n x_i\]

样本均值的期望值: \[\mathbb{E}[\bar{X}]=\mathbb{E}\left[\frac{1}{n}\sum_{i=1}^n x_i\right]=\mathbb{E}\left[\frac{1}{n}(x_1+x_2+\dots+x_n)\right]=\frac{1}{n}\big(\mathbb{E}[x_1]+\mathbb{E}[x_2]+\dots+\mathbb{E}[x_n]\big)\]

根据期望的线性性质,期望算子可分配至加法运算。 假定每个\(x_i\)来自均值为\(\mu_x\)的独立同分布总体,则: \[\mathbb{E}[x_1]=\mathbb{E}[x_2]=\dots=\mathbb{E}[x_n]=\mu_x\]

因此式子可化简为: \[\mathbb{E}[\bar{X}]=\frac{1}{n}\big(\mathbb{E}[x_1]+\mathbb{E}[x_2]+\dots+\mathbb{E}[x_n]\big)=\frac{1}{n}(n\mu_x)=\mu_x\]

这说明:样本均值\(\boldsymbol{\bar{X}}\)是总体均值\(\boldsymbol{\mu_x}\)的无偏估计量,因为\(\bar{X}\)的期望值等于\(\mu_x\)

4.5.3 样本均值抽样分布的方差(抽样方差)

抽样分布:从特定总体中抽取大量样本,参数(如均值、方差、系数)的估计值所服从的分布。 估计量的抽样分布包含抽样均值(用于检验无偏性)与抽样方差(用于检验有效性)。

抽样方差:衡量不同样本的估计值围绕真实总体参数的波动程度;抽样方差越小,估计量精度越高、不同样本的估计结果越稳定。

利用方差定义与期望的线性性质,推导样本均值的方差: \[\text{Var}(\bar{X})=\text{Var}\left(\frac{1}{n}\sum_{i=1}^n X_i\right)\]

常数乘以随机变量的方差 = 常数的平方 × 随机变量的方差: \[\text{Var}\left(\frac{1}{n}\sum_{i=1}^n X_i\right)=\frac{1}{n^2}\text{Var}\left(\sum_{i=1}^n X_i\right)\]

对于独立随机变量,和的方差 = 方差之和: \[\text{Var}\left(\sum_{i=1}^n X_i\right)=\text{Var}(X_1)+\text{Var}(X_2)+\dots+\text{Var}(X_n)\]

由于\(x_i\)独立同分布,方差均为\(\sigma_x^2\),即对所有\(i\)\(\text{Var}(X_i)=\sigma_x^2\)。因此: \[\text{Var}\left(\sum_{i=1}^n X_i\right)=\sigma_x^2+\sigma_x^2+\dots+\sigma_x^2=n\sigma_x^2\]

代回样本均值方差公式: \[\text{Var}(\bar{X})=\frac{1}{n^2}\cdot n\sigma_x^2=\frac{\sigma_x^2}{n}\]

该推导证明:样本均值\(\boldsymbol{\bar{X}}\)的方差为\(\boldsymbol{\frac{\sigma_x^2}{n}}\),即样本量\(n\)越大,样本均值的波动越小。

4.5.4 样本方差估计量的无偏性

我们估计变量(特征)的总体方差,通常用\(\boldsymbol{\sigma_x^2}\)表示总体方差,\(\boldsymbol{\hat{\sigma}_X^2}\)表示其估计量。 下面证明样本方差估计量的无偏性:\(\boldsymbol{\mathbb{E}[\hat{\sigma}_X^2]=\sigma_x^2}\)。 样本方差计算公式: \[\hat{\sigma}_X^2=\frac{1}{n-1}\sum_{i=1}^n (x_i-\bar{X})^2\] 式中\(\bar{X}\)为样本均值。该公式除以\(\boldsymbol{n-1}\)而非\(n\),修正了简单方差估计量的偏差,补偿了用样本估计均值时损失的自由度。样本方差的期望值推导: \[\begin{align*} \mathbb{E}[\hat{\sigma}_X^2]&=\mathbb{E}\left[\frac{1}{n-1}\sum_{i=1}^n (x_i-\bar{X})^2\right]=\frac{1}{n-1}\mathbb{E}\left[\sum_{i=1}^n (x_i-\bar{X})^2\right]=\frac{1}{n-1}\sum_{i=1}^n \mathbb{E}\big[(x_i-\bar{X})^2\big] \\ &=\frac{1}{n-1}\sum_{i=1}^n \mathbb{E}\big[x_i^2-2x_i\bar{X}+\bar{X}^2\big] \\ &=\frac{1}{n-1}\sum_{i=1}^n \big(\mathbb{E}[x_i^2]-2\mathbb{E}[x_i\bar{X}]+\mathbb{E}[\bar{X}^2]\big)=\sigma_x^2 \end{align*}\]

分别计算上式中的各项:

  1. 项1:\(\boldsymbol{\mathbb{E}[x_i^2]=\sigma_x^2+\mu_x^2}\) \(x_i\)独立同分布,均值\(\mu_x\)、方差\(\sigma_x^2\),由方差分解公式可得。

  2. 项2:\(\boldsymbol{\mathbb{E}[x_i\bar{X}]=\mathbb{E}[x_i]\mathbb{E}[\bar{X}]=\mu_x^2}\) 由定义\(\mathbb{E}[x_i]=\mu_x\),且前文已证\(\mathbb{E}[\bar{X}]=\mu_x\)

  3. 项3:\(\boldsymbol{\mathbb{E}[\bar{X}^2]=\text{Var}(\bar{X})+\big[\mathbb{E}[\bar{X}]\big]^2=\frac{\sigma_x^2}{n}+\mu_x^2}\) 前文已证\(\mathbb{E}[\bar{X}]=\mu_x\)\(\text{Var}(\bar{X})=\frac{\sigma_x^2}{n}\),结合方差分解公式可得。

将各项代入平方差的期望: \[\mathbb{E}[x_i^2]-2\mathbb{E}[x_i\bar{X}]+\mathbb{E}[\bar{X}^2]=(\sigma_x^2+\mu_x^2)-2\mu_x^2+\left(\frac{\sigma_x^2}{n}+\mu_x^2\right)=\sigma_x^2-\frac{\sigma_x^2}{n}\]

因此样本方差的期望值: \[\mathbb{E}[\hat{\sigma}_X^2]=\frac{1}{n-1}\sum_{i=1}^n \mathbb{E}\big[(x_i-\bar{X})^2\big]=\frac{1}{n-1}\cdot n\left(\sigma_x^2-\frac{\sigma_x^2}{n}\right)=\sigma_x^2\]

这证明:样本方差公式是总体方差\(\boldsymbol{\sigma_x^2}\)的无偏估计量,因为样本方差的期望值等于总体方差。

方差分解公式

随机变量\(x\)的方差定义: \[\text{Var}(x)=\sigma_X^2=\mathbb{E}\big[(x-\mu_x)^2\big]=\mathbb{E}\big[x^2-2x\mu_x+\mu_x^2\big]=\mathbb{E}[x^2]-2\mu_x\mathbb{E}[x]+\mathbb{E}[\mu_x^2]\] \(\mu_x\)\(x\)的期望值(均值)。由期望的线性性质,期望算子可分配至加法运算;\(\mathbb{E}[x]=\mu_x\),常数的期望为自身,常数平方的期望为常数的平方。因此: \[\boldsymbol{\text{Var}(x)=\mathbb{E}[x^2]-\mu_x^2 \quad \text{或} \quad \text{Var}(x)=\mathbb{E}[x^2]-\big(\mathbb{E}[x]\big)^2}\]

变形可得前文用到的公式: \[\boldsymbol{\mathbb{E}[x^2]=\text{Var}(x)+\mu_x^2}\]该式说明:随机变量平方的期望值 = 变量的方差 + 变量均值的平方,是统计分析的基础公式,用于理解分布的方差、均值与二阶矩的关系。

估计量方差‑偏差分解的证明

未知参数\(\theta\)对应的估计量\(\hat{\theta}\),其均方误差(MSE)定义为: \[\boldsymbol{\text{MSE}(\hat{\theta})=\mathbb{E}_\theta\big[(\hat{\theta}-\theta)^2\big]=\text{Var}(\hat{\theta})+\text{Bias}(\hat{\theta})^2}\]

估计量\(\hat{\theta}\)是样本统计量,用于估计总体参数,因此期望针对样本统计量的抽样分布。 均方误差可拆解为估计量的方差估计量偏差的平方。 均方误差本质是估计量\(\hat{\theta}\)与真实参数\(\theta\)差值平方的期望值: \[\text{MSE}(\hat{\theta})=\mathbb{E}\big[(\hat{\theta}-\theta)^2\big]\]

通过加减\(\boldsymbol{\mathbb{E}[\hat{\theta}]}\)改写平方项,将估计量的方差与偏差分离,简化推导: \[=\mathbb{E}\Big[\big(\hat{\theta}-\mathbb{E}[\hat{\theta}]+\mathbb{E}[\hat{\theta}]-\theta\big)^2\Big]\]

利用和的平方公式展开,得到三项:估计量的方差、交叉项、偏差的平方: \[=\mathbb{E}\Big[\big(\hat{\theta}-\mathbb{E}[\hat{\theta}]\big)^2+2\big(\hat{\theta}-\mathbb{E}[\hat{\theta}]\big)\big(\mathbb{E}[\hat{\theta}]-\theta\big)+\big(\mathbb{E}[\hat{\theta}]-\theta\big)^2\Big]\]

根据期望的线性性质,分别计算展开式中各项的期望: \[=\underbrace{\mathbb{E}\Big[\big(\hat{\theta}-\mathbb{E}[\hat{\theta}]\big)^2\Big]}_{\text{方差}}+\underbrace{\mathbb{E}\Big[2\big(\hat{\theta}-\mathbb{E}[\hat{\theta}]\big)\big(\mathbb{E}[\hat{\theta}]-\theta\big)\Big]}_{\text{交叉项}}+\underbrace{\mathbb{E}\Big[\big(\mathbb{E}[\hat{\theta}]-\theta\big)^2\Big]}_{\text{偏差平方}}\]

  • 第一项:为估计量\(\hat{\theta}\)的方差;
  • 中间交叉项:\(\big(\hat{\theta}-\mathbb{E}[\hat{\theta}]\big)\)为估计量与其期望的偏离,\(\big(\mathbb{E}[\hat{\theta}]-\theta\big)\)为估计量的偏差(常数,可提出期望算子);
  • 第三项:为偏差的平方,常数平方的期望为常数本身。

由于偏离项\(\hat{\theta}-\mathbb{E}[\hat{\theta}]\)的期望值为0,因此交叉项为\(0\)\[2\big(\mathbb{E}[\hat{\theta}]-\theta\big)\mathbb{E}\big[\hat{\theta}-\mathbb{E}[\hat{\theta}]\big]=2\big(\mathbb{E}[\hat{\theta}]-\theta\big)\cdot0=0\]

因此均方误差最终表达式为估计量的方差 + 偏差的平方,直观体现偏差‑方差权衡\[\begin{align*} &=\mathbb{E}\Big[\big(\hat{\theta}-\mathbb{E}[\hat{\theta}]\big)^2\Big]+\big(\mathbb{E}[\hat{\theta}]-\theta\big)^2 \\ &=\boldsymbol{\text{Var}(\hat{\theta})+\text{Bias}(\hat{\theta})^2} \end{align*}\]

简洁版证明

利用随机变量恒等式:\(\boldsymbol{\mathbb{E}(X^2)=\text{Var}(X)+\big(\mathbb{E}(X)\big)^2}\)。 令\(X=\hat{\theta}-\theta\),代入得: \[\begin{align*} \text{MSE}(\hat{\theta})&=\mathbb{E}\big[(\hat{\theta}-\theta)^2\big] \\ &=\text{Var}(\hat{\theta}-\theta)+\big(\mathbb{E}[\hat{\theta}-\theta]\big)^2 \\ &=\text{Var}(\hat{\theta})+\text{Bias}^2(\hat{\theta}) \end{align*}\]方差不受常数平移(此处为\(\theta\))影响;偏差定义为\(\text{Bias}(\hat{\theta})=\mathbb{E}[\hat{\theta}]-\theta\)

对于无偏估计量\(\mathbb{E}(\hat{\theta})=\theta\),因此均方误差简化为估计量的方差。 此时评估无偏估计量的性能,等价于对比方差,选择方差最小的估计量即可。 前文模拟中,估计量\(\hat{\theta}=\bar{X}\)\(\theta=\mu_x\)\(\mathbb{E}(\hat{\theta})=\mu_x\),为无偏估计量。因此可直接通过均方误差对比方差,挑选精度最高的估计量。

OLS 回顾

简单线性回归模型

\[Y_i=\beta_0+\beta_1X_i+\epsilon_i\]其中\(Y_i\)为因变量,\(X_i\)为自变量,\(\beta_0、\beta_1\)为系数,\(\epsilon_i\)为未知误差项,假定均值为0、方差恒定。

我们的目标是最小化均方误差: \[\text{MSE}=\frac{1}{n}\sum_{i=1}^n (Y_i-\hat{Y}_i)^2\] 式中\(\hat{Y}_i=\hat{\beta}_0+\hat{\beta}_1X_i\)为回归方程得到的\(Y\)预测值;\(Y_i=\hat{Y}_i+\hat{\epsilon}_i\),即每个\(Y_i\)可拆解为拟合值与残差。 系数\(\beta_0、\beta_1\)的估计以最小化均方误差为目标。 对\(\beta_0、\beta_1\)求偏导并令其为0,求解得到估计量。 OLS中更常用残差平方和(RSS),其定义为观测值与预测值之差的平方和: \[\text{RSS}=\sum_{i=1}^n (\hat{\epsilon}_i)^2=\sum_{i=1}^n (Y_i-\hat{Y}_i)^2\]最小化残差平方和等价于最小化均方误差。

推导过程

\(\boldsymbol{\hat{\beta}_0}\)求偏导: \[\frac{\partial}{\partial\hat{\beta}_0}\left(\frac{1}{n}\sum_{i=1}^n (Y_i-(\hat{\beta}_0+\hat{\beta}_1X_i))^2\right)=-\frac{2}{n}\sum_{i=1}^n (Y_i-\hat{\beta}_0-\hat{\beta}_1X_i)\]

令偏导为\(0\)\[\sum_{i=1}^n Y_i-n\hat{\beta}_0-\hat{\beta}_1\sum_{i=1}^n X_i=0\] \[n\hat{\beta}_0=\sum_{i=1}^n Y_i-\hat{\beta}_1\sum_{i=1}^n X_i\] \[\boldsymbol{\hat{\beta}_0=\bar{Y}-\hat{\beta}_1\bar{X}}\] \(\bar{Y}、\bar{X}\)分别为\(Y、X\)的样本均值。

\(\boldsymbol{\hat{\beta}_1}\)求偏导: \[\frac{\partial}{\partial\hat{\beta}_1}\left(\frac{1}{n}\sum_{i=1}^n (Y_i-(\hat{\beta}_0+\hat{\beta}_1X_i))^2\right)=-\frac{2}{n}\sum_{i=1}^n X_i(Y_i-\hat{\beta}_0-\hat{\beta}_1X_i)\]

令偏导为0: \[\sum_{i=1}^n X_iY_i-\hat{\beta}_0\sum_{i=1}^n X_i-\hat{\beta}_1\sum_{i=1}^n X_i^2=0\]

代入\(\hat{\beta}_0=\bar{Y}-\hat{\beta}_1\bar{X}\)\[\sum_{i=1}^n X_iY_i-(\bar{Y}-\hat{\beta}_1\bar{X})\sum_{i=1}^n X_i-\hat{\beta}_1\sum_{i=1}^n X_i^2=0\]

整理得到斜率系数: \[\hat{\beta}_1=\frac{\sum_{i=1}^n X_iY_i-\bar{Y}\sum_{i=1}^n X_i}{\sum_{i=1}^n X_i^2-\bar{X}\sum_{i=1}^n X_i}=\frac{\sum_{i=1}^n X_iY_i-n\bar{X}\bar{Y}}{\sum_{i=1}^n X_i^2-n\bar{X}^2}\]

等价形式: \[\boldsymbol{\hat{\beta}_1=\frac{\sum_{i=1}^n (X_i-\bar{X})(Y_i-\bar{Y})}{\sum_{i=1}^n (X_i-\bar{X})^2}}\]

等价性证明

已知:\(\bar{X}=\frac{1}{n}\sum_{i=1}^n X_i,\ \bar{Y}=\frac{1}{n}\sum_{i=1}^n Y_i\)

分子\[\begin{align*} \sum_{i=1}^n (X_i-\bar{X})(Y_i-\bar{Y})&=\sum_{i=1}^n (X_iY_i-X_i\bar{Y}-\bar{X}Y_i+\bar{X}\bar{Y}) \\ &=\sum_{i=1}^n X_iY_i-\bar{Y}\sum_{i=1}^n X_i-\bar{X}\sum_{i=1}^n Y_i+n\bar{X}\bar{Y} \\ &=\sum_{i=1}^n X_iY_i-n\bar{X}\bar{Y} \end{align*}\]

分母\[\begin{align*} \sum_{i=1}^n (X_i-\bar{X})^2&=\sum_{i=1}^n (X_i^2-2X_i\bar{X}+\bar{X}^2) \\ &=\sum_{i=1}^n X_i^2-2\bar{X}\sum_{i=1}^n X_i+n\bar{X}^2 \\ &=\sum_{i=1}^n X_i^2-n\bar{X}^2 \end{align*}\]

因此两个公式完全等价。

OLS 斜率估计量 \(\boldsymbol{\hat{\beta}_1}\) 的无偏性

简单线性回归模型 \(y=\beta_0+\beta_1X+\varepsilon\) 中,OLS斜率估计量为: \[\hat{\beta}_1=\frac{\sum_{i=1}^n (X_i-\bar{X})(Y_i-\bar{Y})}{\sum_{i=1}^n (X_i-\bar{X})^2}\]其中 \(Y_i=\beta_0+\beta_1X_i+\varepsilon_i\)。下面推导其期望 \(\boldsymbol{\mathbb{E}[\hat{\beta}_1]}\)

\(Y_i\) 代入估计量公式: \[\hat{\beta}_1=\frac{\sum_{i=1}^n (X_i-\bar{X})(\beta_0+\beta_1X_i+\varepsilon_i-\bar{Y})}{\sum_{i=1}^n (X_i-\bar{X})^2}\]

取期望,结合期望的线性性质化简: \[\begin{align*} \mathbb{E}[\hat{\beta}_1]&=\mathbb{E}\left[\frac{\sum_{i=1}^n (X_i-\bar{X})(\beta_0+\beta_1X_i+\varepsilon_i-\bar{Y})}{\sum_{i=1}^n (X_i-\bar{X})^2}\right] \\ &=\frac{\mathbb{E}\big[\sum_{i=1}^n (X_i-\bar{X})(\beta_0+\beta_1X_i+\varepsilon_i-\bar{Y})\big]}{\sum_{i=1}^n (X_i-\bar{X})^2} \\ &=\frac{\sum_{i=1}^n \mathbb{E}\big[(X_i-\bar{X})(\beta_0+\beta_1X_i+\varepsilon_i-\bar{Y})\big]}{\sum_{i=1}^n (X_i-\bar{X})^2} \end{align*}\]

\(\beta_0,\beta_1\) 为常数,\(\varepsilon_i\)\(X_i\) 独立且均值为\(0\),因此期望可进一步化简: \[\begin{align*} &=\frac{\sum_{i=1}^n (X_i-\bar{X})(\beta_0+\beta_1X_i-\beta_0-\beta_1\bar{X})}{\sum_{i=1}^n (X_i-\bar{X})^2} \\ &=\frac{\beta_1\sum_{i=1}^n (X_i-\bar{X})^2}{\sum_{i=1}^n (X_i-\bar{X})^2}=\beta_1 \end{align*}\]

因此 \(\boldsymbol{\mathbb{E}[\hat{\beta}_1]=\beta_1}\),证明 \(\boldsymbol{\hat{\beta}_1}\)\(\boldsymbol{\beta_1}\)无偏估计量

OLS 估计量 \(\boldsymbol{\hat{\beta}_1}\) 的方差

对于简单线性回归的斜率估计量 \[\hat{\beta}_1=\frac{\sum_{i=1}^n (X_i-\bar{X})(Y_i-\bar{Y})}{\sum_{i=1}^n (X_i-\bar{X})^2}\]我们推导其方差。

方差定义

\[\text{Var}(\hat{\beta}_1)=\mathbb{E}\big[(\hat{\beta}_1-\mathbb{E}[\hat{\beta}_1])^2\big]\]

方差推导

已证 \(\mathbb{E}[\hat{\beta}_1]=\beta_1\),因此: \[\hat{\beta}_1-\mathbb{E}[\hat{\beta}_1]=\frac{\sum_{i=1}^n (X_i-\bar{X})(Y_i-\bar{Y})}{\sum_{i=1}^n (X_i-\bar{X})^2}-\beta_1\]

代入 \(Y_i=\beta_0+\beta_1X_i+\varepsilon_i\),化简得: \[\hat{\beta}_1-\mathbb{E}[\hat{\beta}_1]=\frac{\sum_{i=1}^n (X_i-\bar{X})\varepsilon_i}{\sum_{i=1}^n (X_i-\bar{X})^2}\]

取平方: \[\big(\hat{\beta}_1-\mathbb{E}[\hat{\beta}_1]\big)^2=\frac{\big(\sum_{i=1}^n (X_i-\bar{X})\varepsilon_i\big)^2}{\big(\sum_{i=1}^n (X_i-\bar{X})^2\big)^2}\]

取期望

误差项 \(\varepsilon_i\) 独立同分布、均值为0、方差为 \(\sigma^2\),展开分子的期望: \[\begin{align*} \mathbb{E}\Big[\big(\sum_{i=1}^n (X_i-\bar{X})\varepsilon_i\big)^2\Big] &=\mathbb{E}\Big[\sum_{i=1}^n\sum_{j=1}^n (X_i-\bar{X})(X_j-\bar{X})\varepsilon_i\varepsilon_j\Big] \\ &=\sum_{i=1}^n\sum_{j=1}^n (X_i-\bar{X})(X_j-\bar{X})\mathbb{E}[\varepsilon_i\varepsilon_j] \\ &=\sum_{i=1}^n (X_i-\bar{X})^2\mathbb{E}[\varepsilon_i^2]=\sum_{i=1}^n (X_i-\bar{X})^2\sigma^2 \end{align*}\]\(i\neq j\)\(\mathbb{E}[\varepsilon_i\varepsilon_j]=0\)\(i=j\)\(\mathbb{E}[\varepsilon_i^2]=\sigma^2\)

方差最终形式

分母与误差项无关,为常数,因此: \[\boldsymbol{\text{Var}(\hat{\beta}_1)=\frac{\sigma^2}{\sum_{i=1}^n (X_i-\bar{X})^2}}\]说明:\(\boldsymbol{\hat{\beta}_1}\) 的方差与自变量 \(X\) 的离均差平方和负相关,与误差项方差 \(\boldsymbol{\sigma^2}\)正相关

误差项方差 \(\boldsymbol{\sigma^2}\) 的估计

OLS回归中,误差项方差 \(\sigma^2\) 未知,需由样本估计,常用残差平方和(RSS)除以自由度估计;简单线性回归自由度为 \(n-2\)(减去\(2\)个待估参数)。

残差平方和

单个观测的残差:\(\hat{\varepsilon}_i=y_i-\hat{y}_i\),其中 \(\hat{y}_i=\hat{\beta}_0+\hat{\beta}_1X_i\) 为拟合值。 \[\text{RSS}=\sum_{i=1}^n \hat{\varepsilon}_i^2=\sum_{i=1}^n (y_i-\hat{\beta}_0-\hat{\beta}_1X_i)^2\]

方差估计量

\[\boldsymbol{\hat{\sigma}^2=\frac{\text{RSS}}{n-2}}\]该估计量是误差项方差的无偏估计

\(\boldsymbol{\hat{\beta}_1}\) 的标准误

标准误(SE)为方差的平方根: \[\text{Var}(\hat{\beta}_1)=\sigma^2\Big(\sum_{i=1}^n (X_i-\bar{X})^2\Big)^{-1}\] 代入 \(\sigma^2\) 的估计量: \[\boldsymbol{\text{SE}(\hat{\beta}_1)=\sqrt{\frac{\text{RSS}}{n-2}\Big(\sum_{i=1}^n (X_i-\bar{X})^2\Big)^{-1}}}\] 标准误用于构建斜率的置信区间假设检验

\(\boldsymbol{\beta_1}\) 的偏差‑方差分解

简单线性回归 \(y=\beta_0+\beta_1X+\varepsilon\)\(\varepsilon\sim N(0,\sigma^2)\)。 OLS估计量: \[\hat{\beta}_1=\frac{\sum_{i=1}^n (X_i-\bar{X})(Y_i-\bar{Y})}{\sum_{i=1}^n (X_i-\bar{X})^2}\] \(\bar{X},\bar{Y}\) 分别为 \(X,Y\) 的样本均值。

期望

\[\mathbb{E}[\hat{\beta}_1]=\mathbb{E}\left[\frac{\sum_{i=1}^n (X_i-\bar{X})(Y_i-\bar{Y})}{\sum_{i=1}^n (X_i-\bar{X})^2}\right]=\beta_1\]\(\hat{\beta}_1\) 为无偏估计量。

方差与均方误差

\[\text{Var}(\hat{\beta}_1)=\sigma^2\Big(\sum_{i=1}^n (X_i-\bar{X})^2\Big)^{-1}=\frac{\sigma^2}{\sum_{i=1}^n (X_i-\bar{X})^2}\] 均方误差分解: \[\text{MSE}(\hat{\beta}_1)=\mathbb{E}\big[(\hat{\beta}_1-\beta_1)^2\big]=\text{Bias}^2(\hat{\beta}_1)+\text{Var}(\hat{\beta}_1)\] 因无偏,\(\text{Bias}(\hat{\beta}_1)=0\),故: \[\boldsymbol{\text{MSE}(\hat{\beta}_1)=\text{Var}(\hat{\beta}_1)}\]此时均方误差完全由方差构成,反映自变量波动与数据噪声带来的不确定性。

预测函数的方差‑偏差分解(MSPE推导)

将因变量 \(Y\) 建模为特征 \(X\) 的函数叠加随机噪声: \[Y=f(X)+\varepsilon\] 预测的本质是寻找近似函数 \(\hat{f}(X)\),使其尽可能逼近 \(f(X)\)。 预测建模的目标是最小化均方预测误差(MSPE),定义: \[\text{MSPE}=\mathbb{E}\big[(Y-\hat{f}(X))^2\big]\]

代入 \(Y=f(X)+\varepsilon\)\[\text{MSPE}=\mathbb{E}\big[(f(X)+\varepsilon-\hat{f}(X))^2\big]\]

展开与分解

加减 \(\mathbb{E}[\hat{f}]\)\[\text{MSPE}=\mathbb{E}\big[(f-\mathbb{E}[\hat{f}]+\varepsilon+\mathbb{E}[\hat{f}]-\hat{f})^2\big]\]利用完全平方公式 \((a+b+c)^2=a^2+b^2+c^2+2ab+2bc+2ca\) 展开,结合期望线性性质,交叉项期望均为0:

  1. 第一项:\(\mathbb{E}\big[(f-\mathbb{E}[\hat{f}])^2\big]=\boldsymbol{\text{Bias}^2[\hat{f}]}\)(偏差平方,可消除误差)

  2. 第二项:\(\mathbb{E}[\varepsilon^2]=\boldsymbol{\sigma^2}\)(不可消除误差,噪声方差)

  3. 第三项:\(\mathbb{E}\big[(\mathbb{E}[\hat{f}]-\hat{f})^2\big]=\boldsymbol{\text{Var}[\hat{f}]}\)(预测函数方差,可消除误差)

其余交叉项因噪声期望为 \(0\)、噪声与自变量独立,均化简为 \(0\)

最终分解式

\[\boldsymbol{\text{MSPE}=\underbrace{\text{Bias}[\hat{f}]^2+\text{Var}[\hat{f}]}_{\text{可消除误差}}+\underbrace{\sigma^2}_{\text{不可消除误差}}}\] 即: \[\boldsymbol{\text{MSPE}=\text{可消除误差}+\text{不可消除误差}}\]

均方预测误差(MSPE)偏差‑方差分解的另一种证明

我们拥有一个训练集,包含数据点及对应真实标签。假定数据由真实函数叠加噪声生成,噪声均值为 \(0\)、方差固定。我们利用学习算法与训练数据,寻找尽可能逼近真实函数的预测函数。 评估该函数性能时,不仅要衡量训练集上预测值与真实值的误差,还要衡量全新未观测样本上的误差。由于真实值自带噪声,预测始终存在不可消除误差。该框架下,我们可使用各类监督学习算法,寻找泛化能力良好的函数,其期望误差可基于未知样本拆解为不同组成部分。

设训练集包含样本点 \(x_1,\dots,x_n\) 与对应真实值 \(y_i\)。数据生成过程为: \[y=f(x)+\varepsilon\] 其中噪声 \(\varepsilon\) 均值为0,方差为 \(\boldsymbol{\sigma^2}\)

我们希望基于训练集 \(D=\{(x_1,y_1),\dots,(x_n,y_n)\}\),通过学习算法得到预测函数 \(\boldsymbol{\hat{f}(x;D)}\),使其尽可能逼近真实函数 \(f(x)\)。 “尽可能逼近”定义为最小化 \(y\)\(\hat{f}(x;D)\) 的均方误差,即 \((y-\hat{f}(x;D))^2\) 尽可能小,同时兼顾训练样本与样本外数据。 由于 \(y_i\) 包含噪声 \(\varepsilon\),不存在完美预测,任何预测函数都必然存在不可消除误差。

任意监督学习算法都可实现对训练集外样本的泛化。无论选择何种预测函数 \(\hat{f}\),其在未知样本 \(x\) 上的期望误差(给定 \(x\))均可做如下分解。

平方误差的偏差‑方差分解推导

为简化符号,记 \(\hat{f}=\hat{f}(x;D)\),期望算子省略下标 \(D\)

模型均方误差: \[\begin{align*} \text{MSE} &\triangleq \mathbb{E}\big[(y-\hat{f})^2\big] =\mathbb{E}\big[y^2-2y\hat{f}+\hat{f}^2\big] =\mathbb{E}[y^2]-2\mathbb{E}[y\hat{f}]+\mathbb{E}[\hat{f}^2] \end{align*}\]

第一步:计算 \(\boldsymbol{\mathbb{E}[y^2]}\)

\(y=f+\varepsilon\),结合期望线性性质、\(f\) 为定值、\(\mathbb{E}[\varepsilon]=0\)\[\begin{align*} \mathbb{E}[y^2]&=\mathbb{E}\big[(f+\varepsilon)^2\big] =\mathbb{E}[f^2]+2\mathbb{E}[f\varepsilon]+\mathbb{E}[\varepsilon^2] =f^2+2f\mathbb{E}[\varepsilon]+\sigma^2 =f^2+\sigma^2 \end{align*}\]

第二步:计算 \(\boldsymbol{\mathbb{E}[y\hat{f}]}\)

\(\hat{f}\) 与噪声 \(\varepsilon\) 相互独立,\(\mathbb{E}[\varepsilon]=0\)\[\begin{align*} \mathbb{E}[y\hat{f}]&=\mathbb{E}\big[(f+\varepsilon)\hat{f}\big] =\mathbb{E}[f\hat{f}]+\mathbb{E}[\varepsilon\hat{f}] =f\mathbb{E}[\hat{f}]+\mathbb{E}[\varepsilon]\mathbb{E}[\hat{f}] =f\mathbb{E}[\hat{f}] \end{align*}\]

第三步:方差恒等式

对任意随机变量 \(X\)\[\mathbb{E}[X^2]=\text{Var}(X)+\big(\mathbb{E}[X]\big)^2\] 因此: \[\mathbb{E}[\hat{f}^2]=\text{Var}(\hat{f})+\big(\mathbb{E}[\hat{f}]\big)^2\]

代入合并得到分解式

\[\begin{align*} \text{MSE} &= f^2+\sigma^2-2f\mathbb{E}[\hat{f}]+\text{Var}(\hat{f})+\big(\mathbb{E}[\hat{f}]\big)^2 \\ &=\big(f-\mathbb{E}[\hat{f}]\big)^2+\sigma^2+\text{Var}(\hat{f}) \\ &=\boldsymbol{\text{Bias}[\hat{f}]^2+\sigma^2+\text{Var}[\hat{f}]} \end{align*}\]

最后,对总体分布 \(x\sim P\) 取期望,得到整体均方误差损失函数(或负对数似然): \[\boldsymbol{\text{MSE}=\mathbb{E}_x\Big[\text{Bias}[\hat{f}(x;D)]^2+\text{Var}[\hat{f}(x;D)]+\sigma^2\Big]}\] 即: 总体均方误差 = 预测函数偏差平方的期望 + 预测函数方差的期望 + 噪声方差(不可消除误差)

注释

  1. 参见\(格尔曼(A. Gelman,2005)\).《方差分析——为何它比以往更重要》,《统计学年鉴》,33(1),1‑53。
  2. 阅读【统计推断】(维基百科词条)
  3. 中心极限定理(维基百科)
  4. 不列颠哥伦比亚省开放教科书:《极简统计学》第6‑6章 中心极限定理
  5. 偏差‑方差权衡(维基百科)