从你第一次接触反事实概念到现在,已经走过了很长一段路。这本书带你踏上了因果推断世界的旅程,从基础内容开始,逐步构建到更高级的概念和技术。现在,你应该已经对如何进行因果推理,以及如何使用各种方法从数据中的相关性中梳理出因果关系有了扎实的理解。

你已经了解到 A/B 测试作为因果推断黄金标准的重要性,了解了图形模型在因果识别方面的强大作用,还了解了如何使用线性回归和倾向得分加权来消除偏差。你也探索了机器学习与因果推断的交叉领域,以及如何使用这些工具进行个性化决策。

此外,你还学习了如何使用面板数据集以及双重差分、合成控制等方法,将时间维度纳入因果推断分析中。最后,你了解了在随机化不可行时的替代实验设计,比如地理实验、交叉实验、工具变量和不连续性设计。

借助本书所呈现的知识和工具,你有能力应对现实世界的问题,并基于因果关系而非相关性做出明智的决策。我希望你能喜欢这本书,也希望它在你的整个职业生涯中对你持续有用。

由于这是一本入门书籍,我特意省略了一些因果推断领域中仍处于活跃研究阶段、尚未在行业中广泛应用的主题。但这并不意味着它们没有用处。有时,只是因为这些主题过于复杂,没有易于使用的软件对其进行封装。如果你喜欢这本书,并且渴望了解更多内容,我建议你探索以下主题之一。

因果发现

在整本书中,你都将因果图作为因果推断分析的起点。但要是你不知道因果图,而必须从数据中去学习它,那该怎么办呢?因果发现是一个研究领域,它专注于通过利用从特定系统生成的数据,来找出该系统内变量之间的因果关系。因果发现是从数据到因果知识的过程。如果你想了解更多相关内容,一个不错的入门点是迪维扬・卡拉伊纳坦和奥利维耶・古德特所写的论文《因果发现工具箱:在 Python 中揭示因果关系》。

序贯决策制定

尽管本书涵盖了面板数据结构,但主要是在 staggered adoption(交错采用)的背景下进行的,这(除其他方面外)意味着不存在处理 - 混淆因素的反馈,而这种反馈通常会在处理分配是按顺序在每个时期决定时出现。举个具体的例子,假设你想研究一项医疗程序(T)对医院出院率(Y)的影响。然而,是否实施该程序的决策取决于患者的症状,而且这个决策是每天做出的。因此,患者在某一天接受治疗的概率取决于他们在之前的日子里是否接受过治疗以及那些日子里的症状:

尽管所有用于决定是否进行治疗的变量都是可观测的,但由于复杂的时间动态和处理 - 混淆因素反馈,像回归这样的传统方法可能并不适合用于估计处理效应。对混淆因素(如患者症状)进行调整会导致非因果路径,例如 \(T_0 \to Symptom_1 \leftarrow U_1 \to Y\)

序贯决策制定下的因果推断在行业中有许多应用。然而,这是一个极其复杂的主题,这也是我在本书中未涉及它的原因。不过,如果你遇到了像我刚才描述的那种情况,我建议你去看看赫尔南和罗宾斯所著的《因果推断:如果…… 会怎样》这本书。该书的最后一部分专门探讨了序贯决策制定。

因果强化学习

因果强化学习(CRL)是机器学习的一个领域,它结合了因果推断和强化学习的原理。CRL 的目标是实现处理分配过程的自动化,以优化处理所影响的结果。为了实现这一目标,自动化决策系统需要在利用有前景的处理方法与探索新的处理方法,或者将相同的处理方法应用于不同类型的个体之间取得平衡。然而,在决策过程中使用可观测变量可能会导致混淆,因为可能存在同时影响处理分配和观测结果的因素。因此,系统必须对这些混淆因素进行调整,以更好地了解最优处理方法,这是 CRL 中的一个关键挑战。

因果强化学习(CRL)可应用的一个简单例子是在之前描述的医疗场景中。不过,目标不是了解医疗程序的影响,而是打造一个智能体,它能以优化患者结局的方式向医生推荐该程序。这个智能体需要考虑患者症状、病史等因素,在兼顾治疗与观测结局之间因果关系的同时,做出适合每位患者个体需求的治疗推荐。

因果强化学习方面的大量文献与情境多臂老虎机的文献相互交织。事实上,这两者密切相关。如果你想找一个好的入门点,我推荐 Athey 等人的论文《慈善捐赠调查实验中的情境多臂老虎机:实验内结果与策略学习》,以及 Keisuke Hirano 和 Jack Porter 关于 “现代抽样方法” 的美国经济协会继续教育网络直播。

因果预测

因果预测是一种通过考虑变量之间的因果关系来预测未来结果的方法。与传统的仅依赖变量间统计关联的预测方法不同,因果预测旨在识别并建模驱动变量间关系的潜在因果机制。这种方法能够带来更准确、更可靠的预测,尤其是在传统统计模型可能无法捕捉真实因果关系的复杂系统中。

因果预测通常会涉及一些因果发现的内容,因为因果预测的一个重要步骤是弄清楚X和Y之间的相关性是源于\(X \to Y\)\(Y \to X\),还是\(Y \leftarrow U \to X\)。不过,因果预测还需要应对传统时间序列建模带来的额外复杂性,比如非平稳性以及数据并非独立同分布的情况。想要更多地了解这个主题,一个不错的途径是美国经济协会 2019 年由詹姆斯・H・斯托克和马克・W・沃森主讲的关于时间序列计量经济学的继续教育网络直播。

领域自适应

因果推断是从已发生的情况去理解会发生什么的过程。这涉及从事实分布(比如\(Y|T = 1\))转向反事实分布(比如\(Y_1\))。在拥有来自一个分布的数据时,推断关于另一个分布的情况,这一问题被称为领域自适应,它在因果推断之外也有很多应用。例如,考虑一家金融服务公司想要检测欺诈交易。乍一看,这似乎是一项纯粹的预测任务,公司可以用过去的交易训练机器学习模型,再用它对未来交易分类。然而,公司拥有的数据与需要分类的数据有着根本差异。具体来说,公司只有经其之前的欺诈检测系统授权的交易数据。如果该系统有效,那么训练数据中的\(P(\text{欺诈})\)会低于公司模型必须分类的未来交易的\(P(\text{欺诈})\)。换句话说,公司拥有的是\(Y|\text{过滤后}\)的数据,但想要构建一个能很好地预测未经过滤的Y的模型。公司希望其模型能起到过滤的作用。

这只是一个例子,还有很多其他例子。比如,一家向新国家扩张的公司可能想用其他国家的现有数据来训练在新国家表现良好的预测模型。或者,一家公司的过去数据可能与当前和未来的数据表现不同,这表明分布随时间发生了变化。事实上,由于数据很少是平稳的,大多数企业都得以这样或那样的方式应对分布变化。这就需要它们从一个分布中学习,再将见解应用到另一个分布上。

尽管这个问题并非严格属于因果推断领域,但因果推断中使用的许多技术都能应用于此。关于概念漂移文献的一篇很好的综述是卢等人的论文《概念漂移下的学习:综述》。

结束语

我希望我已经激发了你继续因果推断之旅的兴趣。研究的美好之处在于它永无止境。在可预见的未来,我自己打算继续撰写关于因果推断的内容,也想邀请你加入我。你可以在 GitHub、Twitter 和 LinkedIn 上找到我,我会定期在这些平台上发布关于因果推断的内容。但最重要的是,我希望我已经在你心中激发了对这个非常迷人的主题的兴趣。尽管这本书已经结束,但你在因果推断方面的学习之旅才刚刚开始。祝你在未来的道路上一切顺利!