在观察性研究中,我们常常担心未测混杂(unmeasured confounding)会导致暴露与结局之间出现“表观关联”,即观察到的关联并不完全代表真实的因果效应。
E-value 是一种敏感性分析指标,用来回答这样一个问题:
要把观察到的暴露-结局关联完全解释掉,一个未测混杂因素需要与暴露和结局分别有多强的关联?
E-value 越大,意味着要解释掉该关联所需的未测混杂强度越大,因此结果通常越稳健;反之,E-value 越小,则说明相对较弱的混杂也可能足以解释观察到的关联。
本教程将使用 EValue R 包,通过几个经典例子说明如何:
bias_plot()
可视化“需要多强的混杂才能解释结果”。E-value 衡量的是:若想将观察到的关联完全归因于某个未测混杂因素,那么这个混杂因素需要同时满足多强的两类关系:
通常我们把这两类关系分别记为:
RREU:暴露与未测混杂之间的风险比参数;RRUD:未测混杂与结局之间的风险比参数。E-value 可以理解为:当这两个参数取相同强度时,它们至少需要达到多大,才足以将观察到的效应完全解释掉。
Hammond 和 Horn 估计,吸烟会使肺癌风险增加超过 10 倍。
Fisher
曾提出,遗传因素可能同时影响吸烟行为和肺癌风险,因此这种强关联也许可以完全由遗传混杂解释。
假设研究报告的风险比为:
我们可以用 E-value 来评估:要完全解释这样强的观察关联,未测混杂需要达到多高的强度。
## point lower upper
## RR 10.73000 8.02000 14.36
## E-values 20.94777 15.52336 NA
在这个例子中,点估计对应的 E-value 为 20.95。这意味着:
若要将观察到的 RR = 10.73 完全解释为未测混杂,而不是因果效应,那么某个未测混杂因素(或一组混杂因素)必须同时:
- 与肺癌风险升高具有约 20 倍的关联;
- 并且在吸烟者中的发生率相对于非吸烟者也高达约 20 倍。
换句话说,只有当未测混杂与暴露和结局都存在极强关联时,才可能把这一观察结果完全解释掉。
同时,置信区间下限 8.02 对应的 E-value 也很大,这表明即便考虑随机误差后,研究结论仍然对未测混杂具有较强稳健性。
除了数值结果,EValue 包还可以通过
bias_plot()
绘制出不同混杂参数组合下,何种程度的未测混杂才能完全解释观察到的关联。
该图展示了:若要使 RR = 10.73 完全由未测混杂造成,则
RREU 和 RRUD 必须满足怎样的组合关系。
例如,图形所表达的含义之一是:
如果暴露-混杂因素参数
RREU = 15,即该混杂因素在吸烟者中的发生率是非吸烟者的 15 倍,那么混杂-结局参数RRUD就需要大约达到 40,才可能完全解释观察到的关联。
这说明:
反之亦然。也就是说,解释掉这个结果所需的混杂强度非常高。
前面的例子讨论的是:需要多强的混杂,才能把观察到的效应完全解释到无效值(null),例如 RR = 1。
但在实际研究中,有时我们关心的并不是“效应是否为零”,而是:
需要多强的混杂,才能把观察到的效应削弱到某个较小但仍有意义的值?
例如,假设观察到的相对风险为 2.5,我们想知道要多强的未测混杂,才能把它降低到真实因果相对风险 1.5。
## You are calculating a "non-null" E-value, i.e., an E-value for the
## minimum amount of unmeasured confounding needed to move the estimate
## and confidence interval to your specified true value rather than to the
## null value.
## [1] 2.720759
结果解释
这里的 E-value 不再是“把效应解释到 1”,而是:
把观察到的 RR = 2.5 解释到 RR = 1.5 所需的最小混杂强度。
这种分析特别适用于以下情形:
Victora 等人的研究探讨了母乳喂养与婴儿因呼吸道感染死亡之间的关系,结果发现:
假设研究中未测量的吸烟因素可能构成混杂,我们可以计算该关联的 E-value。
由于这里使用的是比值比(OR),并且结局较为罕见,因此可以使用
rare = TRUE。
## point lower upper
## RR 3.900000 1.8 8.7
## E-values 7.263034 3.0 NA
这里的 E-value 反映的是:
要把纯配方奶喂养与更高婴儿死亡风险之间的观察关联完全解释为未测混杂,需要多强的未测混杂因素。
设定 rare = TRUE 的含义是:
美国医疗保健研究与质量局的一项研究发现,母乳喂养可能降低儿童白血病风险,文章报告:
这个例子说明:当暴露表现为保护性效应(RR < 1)时,同样可以计算 E-value。
## point lower upper
## RR 0.800000 0.71 0.910000
## E-values 1.809017 NA 1.428571
当 RR 小于 1 时,说明暴露可能具有保护作用。此时 E-value 的含义仍然是:
需要多强的未测混杂,才能将观察到的保护性关联完全解释掉。
也就是说,某个未测混杂因素必须同时与:
存在足够强的关联,才可能使这个保护性结果不再成立。
在实际应用中,可以从以下几个角度解读 E-value:
如果 E-value
很大,说明只有非常强的未测混杂才能解释掉观察到的关联。
这通常意味着研究结论对未测混杂较为稳健。
例如,吸烟与肺癌例子中的 E-value 超过 20,说明要推翻该结果,需要极其强大的混杂因素。
如果 E-value
较小,则说明即便是中等强度的未测混杂,也可能足以解释掉观察结果。
这时研究者需要更加谨慎。
在论文写作中,通常建议两者都报告。
在实证研究中,可以用类似下面的文字报告 E-value 结果:
我们使用 E-value 评估未测混杂对研究结果的潜在影响。对于观察到的效应估计值,E-value 为 XX;对于 95% 置信区间最接近无效值的界限,E-value 为 YY。这表明,若要完全解释掉观察到的关联,某个未测混杂因素必须同时与暴露和结局分别具有至少 XX(或 YY)倍的关联,且已测量混杂因素不能解释这些关联。