观察性研究不像随机对照试验 RCT。RCT 中,暴露或干预是随机分配的;而观察性研究中,人们是否暴露往往不是随机的。
RCT 被认为是因果推断的“金标准”,但在很多流行病学问题中,RCT 不一定合适。
纵向数据中的变化包含两个部分:个体内变化 within-individual variation;个体间差异 between-individual variation
fixed effects model:可以在一定假设下,用个体内部变化来估计暴露—结局关联,并减少时间不变混杂造成的偏倚。
固定效应模型的核心思想是利用纵向数据中的个体内部变化(within-individual variation)来控制混杂。它特别适合回答这样的问题:
同一个体的暴露随时间发生变化时,其结局是否也随之发生变化?
换句话说,固定效应模型不是主要比较不同个体之间的差异,而是让每个个体作为自己的对照。
如下线性因果模型说明固定效应模型如何控制时间不变混杂:
\[ y_{it}=\beta_{0t}+\beta_1x_{it}+\beta_2Z_i+\alpha_i+\varepsilon_{it} \]
其中:
在这个模型中,\(\beta_2Z_i\) 和 \(\alpha_i\) 都代表时间不变因素。固定效应模型的目标就是去除这些时间不变项,从而减少它们对暴露—结局关联估计造成的混杂偏倚。
第一种实现固定效应的方法是 dummy variable 方法。
这种方法为每一个个体设置一个专属截距,相当于允许每个人都有自己的基线水平。模型可以理解为:
\[ y_{it}=\beta_1x_{it}+c_i+\varepsilon_{it} \]
其中,\(c_i\) 是个体 \(i\) 的固定截距。这个个体固定截距会吸收该个体所有不随时间变化的特征,包括:
因此,dummy variable 方法的本质是:
给每个人一个自己的基线水平,然后只利用该个体内部随时间发生的变化来估计暴露效应。
第二种方法是 mean-centering 方法,也称为 within transformation。
这种方法对每个个体的观测值减去该个体自身的时间平均值:
\[ y'_{it}=y_{it}-\bar{y}_i \]
\[ x'_{it}=x_{it}-\bar{x}_i \]
由于 \(Z_i\) 和 \(\alpha_i\) 对同一个体而言不随时间变化,因此:
\[ Z_i-\bar{Z}_i=0 \]
\[ \alpha_i-\bar{\alpha}_i=0 \]
所以,均值中心化之后,原模型中的时间不变项会被抵消,模型变为:
\[ y'_{it}=\beta_{0t}+\beta_1x'_{it}+\varepsilon'_{it} \]
这说明 mean-centering 方法通过“每个人和自己的平均水平比较”,消除了所有时间不变混杂因素。
dummy variable 方法和 mean-centering 方法虽然形式不同,但目标相同:
去除模型中代表已测量和未测量时间不变混杂因素的项,即 \(\beta_2Z_i\) 和 \(\alpha_i\)。
因此,固定效应模型估计的不是不同个体之间暴露水平差异对应的结局差异,而是:
同一个体在暴露高于或低于自身平均水平时,结局是否也高于或低于自身平均水平。
这也是固定效应模型能够控制时间不变混杂的根本原因。
混合模型(mixed models)是流行病学研究中常用的方法,尤其适用于处理具有层级结构或分组结构的数据,例如个体嵌套在社区、学校、医院或邻里之中。混合模型通常也被宽泛地称为随机效应模型(random effects models),因为它们可以同时包含统计意义上的固定效应和随机效应。
在纵向重复测量数据中,一个简单的随机截距混合模型可以写成:
\[ y_{it}=\beta_0+\beta_1x_{it}+u_i+\varepsilon_{it} \]
其中,\(u_i\) 表示个体 \(i\) 的随机截距。它允许每个个体有不同的基线水平,例如不同个体可能本来就有不同的基础健康状况、基础血压或基础收入水平。随机截距通常被假定来自某个概率分布,例如均值为 0 的正态分布。
混合模型和固定效应模型的关键区别在于:
个体特异性因素是否被允许与模型中的协变量相关。
在固定效应模型中,个体特异性因素 \(\alpha_i\) 可以与暴露变量 \(x_{it}\) 相关。这意味着固定效应模型允许那些未测量的、时间不变的个体特征同时影响暴露和结局。
而在简单随机截距混合模型中,随机截距 \(u_i\) 通常被假定与模型中的协变量相互独立,即:
\[ Cov(u_i, x_{it})=0 \]
这个假设也可以称为正交性假设(orthogonality assumption)。它意味着:影响个体基线结局水平的稳定个体特征,不能与暴露变量系统性相关。
然而,在观察性纵向研究中,这个假设往往很强,也未必合理。
简单随机截距混合模型虽然正确地把重复测量数据视为分组数据,即同一个体的多次观测并非完全独立,但它并不能自动控制未测量的时间不变混杂。
原因在于,混合模型的估计同时利用两类信息:
个体内部变化(within-individual
variation)
即同一个体随时间发生的暴露和结局变化。
个体之间差异(between-individual
variation)
即不同个体之间暴露水平和结局水平的差异。
固定效应模型主要利用第一类信息,而简单随机截距混合模型会同时利用这两类信息。
问题在于,个体之间差异往往包含潜在混杂因素。例如,在收入与健康的例子中,不同个体之间的收入差异可能同时反映教育程度、财富、劳动状态、族裔、早年家庭背景、智力、遗传差异等因素。其中一些因素可以测量并控制,但另一些因素可能没有被观测到。
如果这些未观测因素同时影响暴露和结局,那么它们就是未测量混杂因素。此时,混合模型会把一部分个体间混杂造成的差异误认为是暴露效应,从而导致估计有偏。
固定效应模型只利用个体内部变化,因此它不依赖不同个体之间的比较。
例如,在研究收入变化是否影响健康时,固定效应模型关注的是:
同一个人收入发生变化时,他自己的健康是否也发生变化?
而不是:
收入高的人是否比收入低的人更健康?
这种做法可以消除所有对同一个体而言不随时间变化的因素,包括已测量和未测量的个体特征。
因此,如果研究问题是“暴露变化是否导致结局变化”,且担心存在时间不变的未测量混杂,固定效应模型通常比简单随机截距混合模型更合适。
文章中的图 1 用模拟数据说明了这一点。
在图中:
因此,随机效应模型的估计通常介于 pooled model 和 fixed effects model 之间。
这是因为随机截距在混合模型中会发生“收缩”(shrinkage):个体随机截距会被向总体平均截距方向拉近。因此,混合模型既不像 pooled model 那样完全忽略个体差异,也不像固定效应模型那样完全依赖个体内部变化。
文章提到,可以使用 Hausman 检验来比较固定效应模型和随机效应模型。
Hausman 检验的原假设是:
固定效应估计和随机效应估计之间没有统计学上显著差异。
如果不能拒绝原假设,说明随机效应模型所需的正交性假设可能可以接受。
如果拒绝原假设,说明固定效应模型和随机效应模型的估计存在显著差异。这通常被解释为随机效应模型的正交性假设不成立,即个体不变因素可能与暴露变量相关。在这种情况下,固定效应模型通常更合适。
当个体数量 \(N\) 很大、但每个个体的观测时间点 \(T\) 较少时,混合模型更容易受到个体间差异的影响。
这种情况在很多纵向研究中很常见,例如有大量受访者,但每个人只随访 2 到 5 次。此时,between-individual variation 在估计中占比较大,如果个体间差异包含未测量混杂,混合模型可能会有偏。
相反,如果每个个体都有很多次观测,即 \(T\) 也很大,那么模型中个体内部变化的信息会增加。此时,混合模型估计会更多地由 within-individual variation 主导,因此它和固定效应模型的估计差异可能会减小。
固定效应模型的主要优势是它只利用个体内部变化(within-individual variation)来估计暴露与结局之间的关系,因此可以控制所有时间不变的已测量和未测量混杂因素。然而,这一优势也带来了一系列重要限制。
固定效应模型只使用同一个体随时间发生的变化来估计暴露效应。换句话说,它主要依赖:
同一个体的暴露变化是否对应其结局变化。
因此,如果研究中的暴露变量在个体内部变化很少,那么模型可利用的信息就有限,估计结果可能不够精确,表现为标准误较大、置信区间较宽。
相比之下,混合模型同时利用个体内部变化和个体之间差异,因此在某些情况下可能更有效率,并产生更窄的置信区间。不过,这种更高的精度可能以更强的模型假设为代价,特别是当个体之间差异包含未测量混杂时,混合模型可能产生偏倚。
固定效应模型会消除所有在个体内部不随时间变化的变量。因此,时间不变变量的主效应无法被估计。
例如,以下变量通常不能在个体固定效应模型中估计其主效应:
其原因是,固定效应模型本质上是在比较同一个体自身随时间的变化。如果某个变量在同一个体内部没有变化,它就无法解释该个体结局的变化。
用均值中心化的形式表示,若 \(Z_i\) 是时间不变变量,则:
\[ Z_i - \bar{Z}_i = 0 \]
因此,\(Z_i\) 会在固定效应转换后被消除。
虽然固定效应模型不能估计时间不变变量本身的主效应,但这些变量可以与随时间变化的暴露变量进行交互。
例如,如果研究收入变化对健康的影响,可以考察该效应是否因性别、贫困状态或教育水平不同而不同:
\[ Health_{it} = \alpha_i + \beta_1 Income_{it} + \beta_2(Income_{it} \times Sex_i) + \varepsilon_{it} \]
在这个模型中,\(Sex_i\) 本身的主效应会被个体固定效应吸收,但 \(Income_{it} \times Sex_i\) 这个交互项会随 \(Income_{it}\) 的变化而变化,因此可以被估计。
这类交互项可以回答:
暴露变化对结局的影响是否在不同个体特征的人群中有所不同?
例如,在 PM2.5 与血压研究中,可以考察:
PM2.5 对血压的影响是否因性别、年龄组、教育水平或基线高血压状态而不同?
固定效应模型只能利用暴露在个体内部发生变化的观测信息。因此,如果某些个体的暴露水平在所有时间点都没有变化,他们不能为该暴露效应的估计提供信息。
例如,如果研究“低收入对健康的影响”,某些个体在所有随访时间点都一直处于低收入状态,那么他们无法帮助估计:
收入变化是否导致健康变化。
这是因为固定效应模型关注的是:
从低收入变为高收入,或从高收入变为低收入时,健康是否发生变化。
因此,固定效应模型不适合直接研究那些长期持续暴露但没有暴露变化的问题,例如:
如果一个人只在一个时间点出现,也无法为固定效应模型提供个体内部变化信息。
基础固定效应模型依赖一个重要假设:严格外生性(strict exogeneity)。
简单来说,严格外生性要求在控制模型中的协变量后,误差项不能与过去、现在或未来的暴露和协变量相关。也就是说,模型不允许某些形式的反馈关系存在。
例如,严格外生性排除以下情况:
如果严格外生性假设不成立,固定效应估计也可能产生偏倚。
固定效应模型可以控制时间不变的未测量混杂,但不能自动控制时间变化的未测量混杂。
例如,在 PM2.5 与血压研究中,某个个体在某一年可能换了工作,导致:
如果工作压力或通勤模式没有被测量,那么它们就是时间变化的未测量混杂因素。由于这些因素会随时间变化,固定效应模型无法通过个体固定效应将其消除。
因此,固定效应模型仍然需要尽可能调整重要的时间变化协变量,例如:
固定效应模型也不能自动解决反向因果问题。
反向因果是指结局反过来影响暴露或协变量。例如,在收入与健康的例子中:
\[ Income_t \rightarrow Health_t \]
但同时也可能存在:
\[ Health_{t-1} \rightarrow Income_t \]
也就是说,收入可能影响健康,但过去的健康状况也可能影响当前收入。
在 PM2.5 与血压研究中,也可能出现类似问题。例如:
如果结局影响未来暴露,那么固定效应模型中的暴露变化不再完全外生,估计结果可能有偏。
测量误差也是固定效应模型的重要限制。
固定效应模型依赖个体内部的暴露变化。如果暴露变量的个体内部变化中有相当一部分来自测量误差,而不是真实暴露变化,那么估计结果可能被削弱或扭曲。
例如,在 PM2.5 研究中,如果使用居住地附近监测站或网格模型估计个人暴露,可能无法准确反映个体真实暴露,因为真实暴露还受到以下因素影响:
这些误差可能导致暴露估计不准确,从而影响固定效应模型结果。
有些结局具有明显的状态依赖性,即过去的结局会影响当前结局。
例如:
在这种情况下,可以考虑动态固定效应模型,在模型中加入滞后结局变量:
\[ y_{it} = \alpha_i + \rho y_{i,t-1} + \beta x_{it} + \varepsilon_{it} \]
其中,\(y_{i,t-1}\) 表示上一时间点的结局。
这类模型可以部分处理状态依赖问题,但也引入新的复杂性,例如初始条件问题。
动态固定效应模型中的一个重要问题是初始条件问题。
纵向研究中的第一次观测通常并不是真正的“初始状态”。例如,一项研究从 2020 年开始测量血压和 PM2.5 暴露,但在 2020 年之前,个体已经有长期的空气污染暴露、生活方式、疾病史和社会经济经历。
因此,第一次观测到的血压水平已经受到研究开始前许多因素影响,并不是真正的起点。
如果直接把初始结局放入模型进行调整,可能需要额外假设,例如研究开始前的过程是稳定的或静态的。但这些假设往往很难验证,也未必合理。
当暴露和结局之间存在复杂动态关系时,普通固定效应模型和简单随机截距混合模型都可能不够。
例如,如果存在:
那么可能需要使用更复杂的因果推断方法,例如:
即便使用更复杂的模型,也可能仍然需要通过敏感性分析评估未测量混杂可能造成的偏倚。