负对照方法(negative control methods)的基本思想,是在主要暴露—结局关系之外,再寻找一个理论上不应存在直接因果效应、但可能共享相同混杂结构的变量,作为偏倚探针(bias probe),以帮助识别观察性研究中的残余混杂偏倚。
理想情况下,NCO 和 NCE 都应尽可能与主要关注的暴露和结局变量共享相同或相近的混杂机制。这些已知“零效应”的变量已被广泛用于检出残余混杂偏倚:如果观察到 NCE 与结局之间存在关联,或 NCO 与暴露之间存在关联,则提示研究中可能存在未被充分控制的混杂偏倚。
下面以“流感疫苗接种对流感住院的影响”为例说明负对照设计的思想。
设:
在该研究中,就医行为 \(U\) 是一个典型的未测量混杂因素,因为它既可能影响是否接种流感疫苗,也可能影响是否发生住院、是否更容易被记录到住院事件。此时:
因此,在调整已测量协变量 \(X\) 后,如果仍观察到:
则说明仅靠 \(X\) 的调整可能不足以控制混杂偏倚,从而提示存在残余混杂。
在某些情形下,工具变量(instrumental variable, IV)也可以视为一种特殊的 NCE。一个经典工具变量通常需要满足以下条件:
例如,在比较有效性研究中,医生处方偏好常被视为一个潜在工具变量。需要注意的是,有效 IV 一定是有效 NCE 的特殊情形之一,但有效 NCE 不一定是有效 IV。这是因为 NCE 的核心要求是“不直接影响结局”,而不一定要求其独立于未测量混杂。
为更正式地表述负对照方法,通常采用潜在结局框架。设:
假设 1:一致性(Consistency)
\[ Y(a)=Y \quad \text{when } A=a \]
一致性假设意味着:当个体实际接受的处理水平为 \(a\) 时,其观测到的结局 \(Y\) 就等于在处理取值为 \(a\) 时的潜在结局 \(Y(a)\)。这一假设要求处理定义清晰、具体,观测值才能与潜在结局一一对应。
假设 2:潜在可忽略性(Latent Ignorability)
\[ A \perp Y(a)\mid U,X \]
该假设表明:在给定已测量混杂因素 \(X\) 和未测量混杂因素 \(U\) 后,处理 \(A\) 与潜在结局 \(Y(a)\) 独立。换言之,真正的问题并不是“世界上不存在混杂”,而是观察性研究中可能存在未被测量的混杂因素 \(U\)。
假设 3:负对照结局假设(Negative Control Outcome)
\[ W(a,z)=W \quad \text{and} \quad W \perp A \mid U,X \]
该假设意味着:
也就是说,\(W\) 是一个不会被处理改变、但可能受相同未测量混杂结构影响的结局变量。
假设 4:负对照暴露假设(Negative Control Exposure)
\[ Y(a,z)=Y(a) \quad \text{and} \quad Z \perp (Y(a),W)\mid U,X \]
该假设意味着:
也就是说,\(Z\) 是一个不会影响主要结局、但可能携带相同未测量混杂信息的暴露变量。
基于假设 3 和假设 4,负对照变量必须满足两个核心要求:
在此基础上:
下面列出流行病学研究中常见的负对照设计实例。
负对照设计的关键,不是找一个“完全无关”的变量,而是找一个理论上无直接因果作用、但能映照同一偏倚结构的变量。
一般而言:
一个合格的负对照通常应同时满足三点:
在负对照方法的应用中,偏倚检测(bias detection)是最常见的用途之一。其基本思想是:如果在已经调整已观测协变量 \(X\) 之后,主要变量与负对照变量之间仍然存在关联,则说明仅靠 \(X\) 的调整可能不足以控制混杂偏倚,从而提示存在未测量混杂因素 \(U\)。
假设 5(\(U\)-可比性)
偏倚检测不仅依赖假设 3 和假设 4,还进一步依赖一个关键条件,即 假设 5:\(U\)-可比性(U-comparable):
\[ W \not\!\perp U \mid X \quad \text{and} \quad Z \not\!\perp U \mid A,X \]
该假设的含义是:用于负对照分析的变量必须能够反映与主要暴露 \(A\) 和主要结局 \(Y\) 相同的未测量混杂机制。具体而言:
也就是说,混杂 \(A\)–\(Y\) 关联的未测量因素 \(U\),同时也应当混杂 \(A\)–\(W\) 关联以及 \(Z\)–\(Y\) 关联。只有在满足这一条件时,观察到的 \(A\)–\(W\) 或 \(Z\)–\(Y\) 非零关联,才能被合理解释为残余混杂偏倚的证据。
在评估 \(Z\) 与 \(Y\) 的关联时,必须同时对 \(A\) 进行调整,以排除由路径
\[ Z - A \rightarrow Y \]
所导致的关联。换言之,如果不控制 \(A\),那么 \(Z\) 与 \(Y\) 的相关性可能只是通过主要暴露路径间接产生,而不能作为未测量混杂存在的证据。
方法上,现有研究通常通过回归模型检验主要变量与负对照变量之间是否存在显著关联。例如,可以在以结局 \(Y\) 为因变量的回归模型中,同时纳入:
然后对 \(Z\) 的回归系数进行 Wald 检验。若该系数显著偏离零,则提示研究中可能仍存在残余混杂偏倚。同理,也可以通过检验 \(A\) 与负对照结局 \(W\) 的关联来识别偏倚。
总体而言,负对照偏倚检测并不直接提供偏倚校正后的因果效应估计,而是为研究者提供一种检验残余混杂是否仍然存在的经验性工具:
负对照方法为观察性流行病学研究提供了一类非常重要的偏倚探查工具。它的价值并不在于简单地“找一个无关变量”,而在于利用一个理论上不存在直接因果效应、但共享相似混杂结构的变量,去检验主分析结果是否可能受到残余混杂偏倚的影响。对于研究者而言,理解并正确选择 NCE 与 NCO,不仅有助于提高观察性研究结论的可信度,也为后续开展偏倚校正、双重负对照估计以及平均处理效应识别奠定了基础。
如果对你有帮助欢迎关注本Up Bilibili LogitLegendary
Shi, Xu, Wang Miao, and Eric Tchetgen Tchetgen. 2020. “A Selective Review of Negative Control Methods in Epidemiology.” Current Epidemiology Reports 7 (4): 190–202. https://doi.org/10.1007/s40471-020-00243-4.