1 引言

负对照方法(negative control methods)的基本思想,是在主要暴露—结局关系之外,再寻找一个理论上不应存在直接因果效应、但可能共享相同混杂结构的变量,作为偏倚探针(bias probe),以帮助识别观察性研究中的残余混杂偏倚。

1.1 关键概念

  • 负对照结局(negative control outcome, NCO)是指一个已知不会受到研究处理因果影响的变量。
  • 负对照暴露(negative control exposure, NCE)是指一个已知不会对研究结局产生因果作用的变量。

理想情况下,NCO 和 NCE 都应尽可能与主要关注的暴露和结局变量共享相同或相近的混杂机制。这些已知“零效应”的变量已被广泛用于检出残余混杂偏倚:如果观察到 NCE 与结局之间存在关联,或 NCO 与暴露之间存在关联,则提示研究中可能存在未被充分控制的混杂偏倚。

1.2 一个直观例子

下面以“流感疫苗接种对流感住院的影响”为例说明负对照设计的思想。

流感疫苗研究中的双重负对照示意图
流感疫苗研究中的双重负对照示意图

设:

  • \(A\):流感疫苗接种
  • \(Y\):流感相关住院
  • \(U\):未测量的就医行为(health-seeking behavior)
  • \(W\):创伤住院
  • \(Z\):年度体检史
  • \(X\):已测量协变量

在该研究中,就医行为 \(U\) 是一个典型的未测量混杂因素,因为它既可能影响是否接种流感疫苗,也可能影响是否发生住院、是否更容易被记录到住院事件。此时:

  • 创伤住院 \(W\) 可视为一个 NCO,因为流感疫苗接种不应对创伤住院产生因果影响,但 \(U\) 可能同时影响创伤住院与流感住院;
  • 年度体检史 \(Z\) 可视为一个 NCE,因为年度体检史不应直接导致流感住院,但它与个体的健康行为倾向相关,因此也可能反映同一未测量混杂结构。

因此,在调整已测量协变量 \(X\) 后,如果仍观察到:

  • \(A\)\(W\) 存在关联;或
  • \(Z\)\(Y\) 存在关联,

则说明仅靠 \(X\) 的调整可能不足以控制混杂偏倚,从而提示存在残余混杂。

1.3 工具变量与负对照暴露的关系

在某些情形下,工具变量(instrumental variable, IV)也可以视为一种特殊的 NCE。一个经典工具变量通常需要满足以下条件:

  1. 工具变量必须与处理 \(A\) 有关;
  2. 工具变量不能对结局 \(Y\) 产生不经由处理 \(A\) 传递的直接效应;
  3. 工具变量必须独立于未测量混杂因素。

例如,在比较有效性研究中,医生处方偏好常被视为一个潜在工具变量。需要注意的是,有效 IV 一定是有效 NCE 的特殊情形之一,但有效 NCE 不一定是有效 IV。这是因为 NCE 的核心要求是“不直接影响结局”,而不一定要求其独立于未测量混杂。

2 因果假设

为更正式地表述负对照方法,通常采用潜在结局框架。设:

  • \(A\):主要处理或暴露
  • \(Y\):主要结局
  • \(X\):已测量混杂因素
  • \(U\):未测量混杂因素
  • \(W\):负对照结局
  • \(Z\):负对照暴露

假设 1:一致性(Consistency)

\[ Y(a)=Y \quad \text{when } A=a \]

一致性假设意味着:当个体实际接受的处理水平为 \(a\) 时,其观测到的结局 \(Y\) 就等于在处理取值为 \(a\) 时的潜在结局 \(Y(a)\)。这一假设要求处理定义清晰、具体,观测值才能与潜在结局一一对应。

假设 2:潜在可忽略性(Latent Ignorability)

\[ A \perp Y(a)\mid U,X \]

该假设表明:在给定已测量混杂因素 \(X\) 和未测量混杂因素 \(U\) 后,处理 \(A\) 与潜在结局 \(Y(a)\) 独立。换言之,真正的问题并不是“世界上不存在混杂”,而是观察性研究中可能存在未被测量的混杂因素 \(U\)

假设 3:负对照结局假设(Negative Control Outcome)

\[ W(a,z)=W \quad \text{and} \quad W \perp A \mid U,X \]

该假设意味着:

  • \(W\) 不会受到主要处理 \(A\) 及次要暴露 \(Z\) 的因果影响;
  • 在给定 \(U\)\(X\) 后,\(W\)\(A\) 独立。

也就是说,\(W\) 是一个不会被处理改变、但可能受相同未测量混杂结构影响的结局变量。

假设 4:负对照暴露假设(Negative Control Exposure)

\[ Y(a,z)=Y(a) \quad \text{and} \quad Z \perp (Y(a),W)\mid U,X \]

该假设意味着:

  • \(Z\) 不会对主要结局 \(Y\) 产生因果作用;
  • 在给定 \(U\)\(X\) 后,\(Z\)\(Y(a)\)\(W\) 独立。

也就是说,\(Z\) 是一个不会影响主要结局、但可能携带相同未测量混杂信息的暴露变量。

2.1 这四个假设的含义

基于假设 3 和假设 4,负对照变量必须满足两个核心要求:

  1. 不能有真实因果作用
    NCE 不应影响主要结局,NCO 不应受到主要处理影响。
  2. 必须共享相同或相近的偏倚结构
    即 NCE/NCO 应当能反映与主要暴露—主要结局关系相同的未测量混杂机制。

在此基础上:

  • 单个负对照主要用于偏倚检出
  • 双重负对照(同时使用 NCE 和 NCO)在更强识别条件下可进一步用于偏倚校正ATE(平均处理效应)的识别。

3 现有研究中的典型做法

下面列出流行病学研究中常见的负对照设计实例。

  • 研究母亲吸烟低出生体重的影响时,常用父亲吸烟负对照暴露
  • 研究母亲吸烟婴儿猝死综合征的影响时,常用父亲吸烟负对照暴露
  • 研究母亲吸烟子代身高、身材指数和体重指数的影响时,常用父亲吸烟负对照暴露
  • 研究母亲吸烟子代血压的影响时,常用父亲吸烟负对照暴露
  • 研究母亲心理困扰子代哮喘的影响时,常用父亲心理困扰负对照暴露
  • 研究母亲吸烟、饮酒或膳食模式子代发育的影响时,常用父亲吸烟、饮酒或膳食模式负对照暴露
  • 研究空气污染物暴露哮喘的影响时,常用未来空气污染暴露其他地区的空气污染物暴露负对照暴露
  • 研究乳腺 X 线筛查参与乳腺癌死亡的影响时,常用口腔保健参与负对照暴露,并常用非乳腺癌原因死亡及外因死亡负对照结局
  • 研究流感疫苗接种流感相关住院或死亡的影响时,常用损伤/创伤住院以及流感季前后发生的相关结局负对照结局
  • 研究空气污染物暴露哮喘住院的影响时,常用阑尾炎住院负对照结局
  • 研究吸烟肺癌死亡的影响时,常用其他原因死亡负对照结局
  • 研究地震后心理应激心脏事件死亡的影响时,常用其他原因死亡(如癌症死亡)负对照结局
  • 研究乙状结肠镜筛查远端结肠肿瘤死亡的影响时,常用近端结肠肿瘤死亡负对照结局

3.1 小结

负对照设计的关键,不是找一个“完全无关”的变量,而是找一个理论上无直接因果作用、但能映照同一偏倚结构的变量。

一般而言:

  • NCE 时常用:未来暴露、远处暴露、家庭成员的类似暴露、处理前后不应起作用的暴露指标;
  • NCO 时常用:处理不可能影响的同类住院结局、流感季前的相关结局、其他原因死亡、解剖或操作范围之外的疾病结局。

一个合格的负对照通常应同时满足三点:

  1. 不具有真实因果作用
  2. 能够反映与主研究相似的未测量混杂结构
  3. 具备足够的统计信息量,例如不能是极其稀有的事件。

4 负对照方法中的偏倚检测

在负对照方法的应用中,偏倚检测(bias detection)是最常见的用途之一。其基本思想是:如果在已经调整已观测协变量 \(X\) 之后,主要变量与负对照变量之间仍然存在关联,则说明仅靠 \(X\) 的调整可能不足以控制混杂偏倚,从而提示存在未测量混杂因素 \(U\)

4.1 偏倚检测的关键条件:

假设 5(\(U\)-可比性)

偏倚检测不仅依赖假设 3 和假设 4,还进一步依赖一个关键条件,即 假设 5:\(U\)-可比性(U-comparable):

\[ W \not\!\perp U \mid X \quad \text{and} \quad Z \not\!\perp U \mid A,X \]

该假设的含义是:用于负对照分析的变量必须能够反映与主要暴露 \(A\) 和主要结局 \(Y\) 相同的未测量混杂机制。具体而言:

  • 负对照结局 \(W\) 在给定 \(X\) 后仍应与 \(U\) 相关;
  • 负对照暴露 \(Z\) 在给定 \(A\)\(X\) 后仍应与 \(U\) 相关。

也就是说,混杂 \(A\)\(Y\) 关联的未测量因素 \(U\),同时也应当混杂 \(A\)\(W\) 关联以及 \(Z\)\(Y\) 关联。只有在满足这一条件时,观察到的 \(A\)\(W\)\(Z\)\(Y\) 非零关联,才能被合理解释为残余混杂偏倚的证据。

4.2 为什么检验 \(Z\)\(Y\) 的关系时要调整 \(A\)

在评估 \(Z\)\(Y\) 的关联时,必须同时对 \(A\) 进行调整,以排除由路径

\[ Z - A \rightarrow Y \]

所导致的关联。换言之,如果不控制 \(A\),那么 \(Z\)\(Y\) 的相关性可能只是通过主要暴露路径间接产生,而不能作为未测量混杂存在的证据。

4.3 常见统计实现

方法上,现有研究通常通过回归模型检验主要变量与负对照变量之间是否存在显著关联。例如,可以在以结局 \(Y\) 为因变量的回归模型中,同时纳入:

  • 主要暴露 \(A\)
  • 负对照暴露 \(Z\)
  • 协变量 \(X\)

然后对 \(Z\) 的回归系数进行 Wald 检验。若该系数显著偏离零,则提示研究中可能仍存在残余混杂偏倚。同理,也可以通过检验 \(A\) 与负对照结局 \(W\) 的关联来识别偏倚。

4.4 对偏倚检测结果的解释

总体而言,负对照偏倚检测并不直接提供偏倚校正后的因果效应估计,而是为研究者提供一种检验残余混杂是否仍然存在的经验性工具

  • 若主要变量与负对照变量之间存在显著关联,则支持存在未充分控制的混杂偏倚;
  • 若未观察到显著关联,则只能说明目前没有关于未测量混杂的经验性证据,而不能绝对证明混杂已经被完全消除。

5 结语

负对照方法为观察性流行病学研究提供了一类非常重要的偏倚探查工具。它的价值并不在于简单地“找一个无关变量”,而在于利用一个理论上不存在直接因果效应、但共享相似混杂结构的变量,去检验主分析结果是否可能受到残余混杂偏倚的影响。对于研究者而言,理解并正确选择 NCE 与 NCO,不仅有助于提高观察性研究结论的可信度,也为后续开展偏倚校正、双重负对照估计以及平均处理效应识别奠定了基础。

如果对你有帮助欢迎关注本Up Bilibili LogitLegendary

6 参考文献

Shi, Xu, Wang Miao, and Eric Tchetgen Tchetgen. 2020. “A Selective Review of Negative Control Methods in Epidemiology.” Current Epidemiology Reports 7 (4): 190–202. https://doi.org/10.1007/s40471-020-00243-4.