本书大部分内容(甚至书名)都延续了一个虚构设定:存在某种单一效应。仿佛某个处理能产生完全一致的影响——对每个人都完全相同!这在物理学中或许成立,但在社会科学中,任何事物对不同个体的影响都存在差异1。
举个简单例子:某种降低宫颈癌发病率的药物可能非常有效,或许能使宫颈癌发病率降低一半,但仅限有子宫颈的人群。对于没有子宫颈的人群,我们可以确定该药物完全不会影响其宫颈癌发病率2。至少,该药物存在两种效应——对有子宫颈人群的效应,与对无子宫颈人群的效应。但我们无需止步于此:即便仅关注有子宫颈人群,药物可能对某些人高度有效,对另一些人则收效甚微。或许是体质差异、年龄或饮食习惯所致?关键在于:我们面对的可能是多重效应。当处理效应随人群变化时(即总是如此),我们称之为”异质性处理效应”。
异质性处理效应:指某项处理对结果的影响效应本身在人群中存在变异的现象。
事实上,每个个体都可能拥有独特的处理效应:或许药物能使你的患癌率降低1%,对我无效,而让我隔壁的女性降低0.343%。这还未考虑样本之外的效应变异!真实的处理效应很可能因国家、年份等因素而异3。例如,货币刺激政策上次提升了就业率,并不保证本次同样有效(至少程度可能不同)。万物皆可变,效应亦如是。
我们每个人都是独特的——拥有不同的处境、生活经历、生理特征和外界反应机制。凭什么从一开始就假定任意两个人会受到完全相同的影响?这种假设更多只是出于研究便利罢了。
既然如此,我们该如何理解”异质性处理效应”这一概念?
我们至少可以尝试估计这些异质性处理效应——不再局限于单一效应值,转而估计效应值的概率分布,从而预测具有特定属性的个体可能受到的影响。这不仅是合理的研究目标,也是学界正在探索的方向。该理念支撑着”精准医疗”等概念,同时也是机器学习领域涉足因果推断时的重点研究方向4。
不过,除了作为合理的研究目标和某些前沿课题外,该领域的技术复杂性也会迅速提升。因此本章将聚焦异质性处理效应的另一重应用:如果效应存在如此强的异质性,那么我们识别的究竟是什么?
毕竟本书前文已论证:通过正确的调整方法,我们能够识别因果效应。但这些效应究竟属于哪些群体?如何判断?事实上,若方法运用得当,我们获得的其实是某种个体处理效应的平均值——但通常并非人人等权的普通平均值。
我们已有的核心概念是:每个个体都有其独特的处理效应。这意味着我们可以将处理效应视为一个概率分布——其运作原理与第3章讨论的变量分布完全相同,唯一区别在于:我们无法直接从观测数据中获取这些处理效应。
处理效应分布:指样本或总体中个体处理效应的概率分布。
与任何典型的概率分布一样,我们可以描述其关键特征——例如均值。
处理效应分布的均值被称为平均处理效应\(Avergae \space Treatment \space
Effect\),这一命名缘由不言自明。\(ATE\)往往是我们试图估计的核心参数,其解释直观明了:若对全体施加处理,该值即个体效应的平均变化量。
平均处理效应\(ATE\):处理效应分布的均值。
例如,若将园艺作为兴趣爱好的平均处理效应是每日多摄入\(100\)卡路里,则当全民开始园艺活动时:
部分人卡路里增量将低于100
部分人增量将高于100
但全体平均恰为每人每日100卡路里
不过,估算平均处理效应并非总是可行,有时甚至未必可取。
以宫颈癌药物为例:实际上,该药物会使特里的患病概率降低\(2\)个百分点,安吉拉降低\(1\)个百分点,但安德鲁和马克没有子宫颈,所以对他们的影响为\(0\)5。这样计算得出的平均处理效应是\(\frac {0.02+0.01+0+0}{4}=0.0075\),即\(0.75\)个百分点。
尽管你多次恳求制药公司,他们仍拒绝在无子宫颈人群中进行药物测试——因为他们非常确定药物对这些人群无效。于是他们招募了大量类似特里和安吉拉的受试者,进行随机对照实验,最终发现该药物平均可降低宫颈癌发病率\(\frac{0.02+0.01}{2}=0.015\),即\(1.5\)个百分点。这个\(1.5\%\)的结果并非错误答案——事实上,就我们可能关注的研究问题而言,他们的\(1.5\)可能比你计算的\(0.75\)更准确——但这绝对不是总体平均处理效应6。那么,既然不是总体平均处理效应,它究竟是什么?我们需要牢记其他可能的处理效应平均值类型,这些或许才是我们真正能识别或应该追求的。
处理效应平均值有很多很多种7,但真正需要重点关注的重要类型并不多。这些平均值主要分为两大类:
仅计算部分人群(而非全部)处理效应的平均值,即基于某些条件的处理效应平均值;
计入所有个体但赋予不同权重的处理效应平均值8。
当我们仅针对特定人群分离平均效应时会发生什么?又该如何实现?
为回答这个问题,让我们创建一些模拟数据。这将非常实用,因为它能让我们观察到通常不可见的信息——每个人的处理效应究竟是多少。有了模拟数据后,我们将能够:讨论如何仅对部分人群取平均值;举例说明如何设计研究来获取该平均值
由\(表10.1\)可见,这四位个体的处理效应各不相同。需要强调的是,该表完全基于反事实数据——我们不可能同时观测到个体在处理与未处理状态下的结果。表格仅展示了两种假设情境下的理论值:
• 未处理组:\(Alfred\)与\(Brianna\)的结果值是\(1\);\(Chizue\)和\(Diego\)的结果值是\(2\)
• 处理组:\(Alfred\)的结果值\(+1\)\((1 \rightarrow 2)\);\(Brianna\)的结果值\(+4\)\((1 \rightarrow 5)\);\(Chizue\)的结果值\(+3\)\((2 \rightarrow 5)\);\(Diego\)的结果值\(+2\)\((2 \rightarrow 4)\)
计算得出平均处理效应\(ATE\):\(\frac{1+4+3+2}{4}=2.5\)
获取特定群体平均效应的一个常见方法是直接选择该群体进行研究。观察\(表10.1\)可见,我们的样本包含男性和女性9。假设我们出于某种原因仅招募男性进行实验——这样就会获得类似\(Alfred\)和\(Diego\)的男性样本,并随机分配他们接受或未接受处理。最终数据呈现如\(表10.2\)所示。
根据\(表10.2\)的数据计算效应:处理组平均结果值 = \(\frac{2+4}{2}=3\);对照组平均结果值 = \(\frac{1+2}{2}=1.5\);处理效应 = \(3-1.5=1.5\)
该结果恰等于\(Alfred\)与\(Diego\)个体处理效应的平均值:\(\frac{1+2}{2}=1.5\)。因此我们得到的是男性平均处理效应\(Average \space Treatment \space Effect \space conditional \space on \space being \space male\)。
条件性平均处理效应\(CATE\):基于某变量取值计算的子群体平均处理效应。
已处理者平均效应\(ATT\):实际接受处理个体的平均处理效应。
未处理者平均效应\(ATUT\):实际未接受处理个体的平均处理效应。
这同样不是错误答案——它仅代表特定群体而非整体人口。只有当我们错误地将其推广至所有人时,它才会成为错误答案。
另一种常见方法是通过实际处理状态确定子群体:
已处理者平均效应\(ATT\):实际接受处理个体的效应均值
未处理者平均效应\(ATUT\):实际未接受处理个体的效应均值
假设我们无法实施随机化,但观测到:\(Alfred\)与\(Chizue\)接受了处理;\(Brianna\)和\(Diego\)未接受处理
经因果图检验确认结果变量与处理概率完全无关后,我们成功识别了效应10!
实际数据计算结果如下\(表10.3\):处理组平均值:\(\frac{2+5}{2}=3.5\);对照组平均值:\(\frac{1+2}{2}=1.5\);处理效应:\(3.5-1.5=2\)。该数值恰等于\(Alfred\)与\(Chizue\)个体处理效应的平均值:\(\frac{1+3}{2}=2\),这绝非巧合。换言之,我们计算的是实际接受处理人群的平均处理效应——这就是\(ATT\)(已处理者平均效应)11!
要理解如何获得未处理者平均效应\(ATUT\)则更为困难——事实上这一指标确实较少出现。但其中一种实现方式是:基于已知的处理效应变异规律及效应大小的预测因素,进而推估未处理群体可能展现的效应水平。
假设我们获取包含\(1000\)名\(Alfred\)类个体和\(1000\)名\(Brianna\)类个体的样本,其中\(400\)名\(Alfred\)与\(600\)名\(Brianna\)以基本随机方式分配至处理组,剩余\(600\)名\(Alfred\)与\(400\)名\(Brianna\)作为对照组。
计算可得:处理组平均结果值 = \(\frac{400\times2+600\times5}{1000}=3.8\);对照组平均结果值 = \(1\)
进一步分层分析显示:\(Alfred\)类个体的条件性平均处理效应 = \(1\);\(Brianna\)类个体的条件性平均处理效应 = \(4\)
由此推算未处理者平均效应\(ATUT\):\(\frac{600\times1+400\times4}{1000}=2.2\)
\(ATT\)(已处理者平均效应)与\(ATUT\)(未处理者平均效应)的区分及识别,在几乎所有社会科学研究中都至关重要。这是因为现实情境中,个体往往自主选择是否接受处理,导致处理组与对照组存在系统性差异(主动选择者与被动接受者本质上就不同),两者的处理效应也必然不同。
以本章开篇的宫颈癌药物为例:若由个体自主决定是否服药,谁会选择用药?有子宫颈的人群!该药物对他们的效果远优于无子宫颈者,因此\(ATT\)与\(ATUT\)必然不等——这种差异无法避免,因为正是药物对他们的高效用驱动了其选择行为。
另一种聚焦特定群体的处理效应是边际处理效应\(MTE\)——即处于处理与否临界状态个体的处理效应。当研究问题为”是否应扩大处理范围?“时,这一概念尤为实用。(由于实际测算较为复杂,本文不深入探讨\(MTE\),但了解该概念的存在很有价值。)
边际处理效应\(MTE\):若处理范围扩大时,下一个新增接受处理个体的处理效应值。
若不局限于特定群体,而是纳入所有个体但赋予不同权重,我们便得到加权平均处理效应的概念。
加权平均与算术平均数类似:以\(表10.4\)的模拟数据为例,\(1/2/3/4\)的算术平均数为\(\frac{1+2+3+4}{4}=2.5\)。若将该计算重构为\(\frac{1\times1+2\times1+3\times1+4\times1}{4}=2.5\),即可显式体现权重均为\(1\)的特例。
加权平均处理效应:个体处理效应的平均值,其中不同个体在计算中具有相异权重(每个个体对应一个权重系数)。
将\(1\)替换为\(1\times1\),\(2\)替换为\(2\times1\),以此类推,均值计算公式变为:\(\frac{1\times1+2\times1+3\times1+4\times1}{1+1+1+1}=2.5\),此时每个数值均乘以相同权重\(1\),即标准算术平均实为等权加权的特例。
现假设\(Brianna\)的权重需加倍,\(Diego\)权重减半,则加权平均处理效应为:\(\frac{1\times1+2\times0.5+3\times1+4\times2}{1+0.5+1+2}=2.89\)
在某些应用中,我们可以自主设定权重并刻意应用12。但在处理效应分析中,权重往往由研究设计本身决定——某些个体天然会被赋予更高权重。
这种情况常表现为方差加权平均处理效应。统计学的核心在于变异——当自变量\(X\)波动较大时,\(Y\)与\(X\)的关系更易识别。若\(X\)缺乏变异(例如几乎所有人都生活在地球上),则难以判断\(Y\)的变化是否与\(X\)相关,因为我们缺乏对照样本(如地外居住者)来观测系统性差异。因此,若某些群体的处理状态变异较大而其他群体较小,我们的估计可能更侧重处理状态多变的群体——仅仅因为能更频繁观测到其处理与否的状态差异。
假设我们获取\(1000\)名\(Brianna\)类个体和\(1000\)名\(Diego\)类个体的样本:
\(Brianna\)类:\(50\%\)接受处理
\(Diego\)类:\(90\%\)接受处理。(具体分布见\(表10.5\))
此时,我们不能直接比较处理组与对照组——因为存在后门路径:“\(Brianna/Diego\)类型”既影响处理状态,又影响结果变量(注意:若无人接受处理,两类型的基线结果本就不同)。因此需要阻断该后门路径,方法之一是通过减去\(Brianna\)与\(Diego\)在结果变量和处理状态上的均值差异来实现。
经此调整后重新评估的处理效应为\(3.47\)13。该值更接近\(Brianna\)的处理效应\(4\)而非\(Diego\)的效应\(2\),说明\(Brianna\)获得了更高权重。具体而言,权重分配基于处理状态的方差:
Brianna类:处理方差 = \(0.5 \times 0.5=0.25\)
Diego类:处理方差 = \(0.9 \times 0.1=0.09\)
加权平均处理效应计算:\(\frac{0.25\times4+0.09\times2}{0.25+0.09}=3.47\)14
我们估计的\(3.47\)更接近\(Brianna\)的效应值\(4\)而非\(Diego\)的效应值\(2\),这是因为我们观察到\(Brianna\)在处理和未处理状态下都有大量样本,而\(Diego\)大多处于处理状态。处理变异较少意味着我们更难观察到这种变异带来的效应。还需注意的是,尽管我们观察到大量经过处理的\(Diego\)样本,但\(Diego\)的权重反而较低——这并非已处理者平均效应\(ATT\)。我们知道这里得到的是方差加权平均处理效应而非\(ATT\),因为如果得到的是\(ATT\),结果应该更接近\(Diego\)的效应值而远离\(Brianna\)的效应值。
加权平均处理效应在阻断后门路径时经常出现。当我们阻断后门路径时,实际上排除了处理变量中的某些变异形式。此时真正具有统计意义的,是那些在阻断后仍保持显著变异的个体。
方差加权处理效应并非唯一的加权平均处理效应类型。例如,若通过选择处理组与对照组在协变量上相似的样本来阻断后门路径(即选取与处理组观测值相匹配的对照组观测值),最终会得到分布加权平均处理效应——此时协变量取值常见的个体会被赋予更高权重。
另一种常见的加权处理效应则基于处理变量的响应度。当某些个体更容易受到处理影响时,这类方法会赋予其更大权重,从而更准确地捕捉处理效应的异质性特征。
在第\(9\)章中,我们讨论了隔离处理变量变异的多种方法:要么聚焦于处理变量被外生决定的数据部分(例如仅分析实验数据),要么利用外生变异源预测处理变量状态,并用预测值替代实际处理变量。当然,异质性效应不仅适用于处理变量对结果变量的影响,同样存在于外生变异对处理变量状态的影响中——某些个体可能更容易受到外生因素的影响,从而导致处理概率的差异变化。
例如,假设你正在进行一项关于饮食的随机实验:处理组需比日常少摄入100卡路里,结果变量为体重变化。部分受试者具有极强的意志力和饮食控制能力——当你要求减少摄入时他们能做到,要求保持日常饮食时他们也能严格执行。其他人的意志力较弱(或对满足研究者的兴趣较低)15。当被要求每天减少100卡路里时,他们可能只减少90卡路里。或者50卡路里。或者5卡路里。或者干脆不减。也许少数人会对被分配到”保持正常饮食”的对照组感到失望,反而主动减少了卡路里摄入。
因此对某些人来说,被分配到实验组会使他们减少100卡路里摄入;对另一些人可能是90卡路里、50卡路里、0卡路里,甚至增加10卡路里等等。这就是异质性处理效应,不过这里指的是”处理分配对实际处理行为的影响”,而非”处理行为对结果变量的影响”。
自然,如果我们仅将数据限制在实验参与者范围内,并只考察实验本身的影响,就必然会产生异常结果。
当出现以下情况时——我们获得了外生变异,但并非所有受试者都遵循实验安排;我们将数据限定在实验参与者范围内,并仅考察处理分配与结果变量之间的关系——此时得出的估计量就称为意向处理估计量\(intent-to-treat \space estimate\)16。意向处理效应反映的是处理分配的影响,而非处理本身的实际效果,因为并非所有受试者都遵从分配方案。
意向处理效应——即”处理分配的平均处理效应”,这本质上不同于”实际接受处理的平均处理效应”。
意向处理效应\(ITT\)提供的是”处理分配的平均处理效应”,而这通常并非我们真正关注的参数17。那么它如何反映实际处理效果呢?此时的估计量并非严格意义上的加权平均处理效应,而是按照个体实际接受的处理比例对其处理效应进行加权的结果18。具体而言,若某受试者仅实现了\(50\%\)的理论处理效果,其权重即为\(0.5\)。
这种加权逻辑具有合理性:对于完全依从的受试者,其完整处理效应将全部计入最终效应量;而对于未按分配接受处理的受试者,虽然仍被纳入计算(这保证了随机化的有效性),但由于实际未产生处理效应,其权重自然为019。
其与标准加权处理效应的关键差异在于:意向处理效应分析\(ITT\)采用”个体总数”而非”权重总和”作为分母。在加权平均处理效应\(WATE\)中,权重为\(0\)(即完全未响应处理分配)的个体不会影响最终结果;但在\(ITT\)分析中,权重为\(0\)的个体虽不影响分子(效应量),却仍会计入分母(样本量),从而导致整体效应估计向\(0\)偏移。
再次回到我们的模拟数据:假设招募了两名\(Chizue\)和两名\(Diego\),每组各分配一人接受处理。其中\(Chizue\)完全遵循处理分配,而\(Diego\)始终拒绝接受处理。那么在处理组中,我们将观察到的\(5\)分和\(Diego\)的\(2\)分(因其实际未接受处理);在对照组中则记录\(Chizue\)的\(2\)分和\(Diego\)的\(2\)分。最终计算效应值为\(3.5-2=1.5\)。
该结果可通过公式\(\frac{3\times1+3\times1+2\times0+2\times0}{1+1+1+1}=1.5\) 重现:即两位\(Chizue\)的效应值(权重为\(1\),因其完全遵循处理)加上两位\(Diego\)的效应值(权重为\(0\),因其始终未接受处理),再除以总人数\(4\)人。
若采用另一种前门路径识别方法——即通过外生变异源预测处理变量水平,再以预测值替代实际处理数据——会产生何种结果?这种方法本质上与意向处理分析相似,但存在关键差异:不同于\(ITT\)仅考量”是否分配至处理组”,该方法进一步量化”因分配而获得的额外处理剂量”。这使得我们可以将\(ITT\)中的”人数”分母替换为”处理增量总和”分母。
由于”额外处理人数”同时构成了分子中的权重系数,我们实际上回归到了标准的加权平均处理效应\(WATE\)。具体而言,此处的权重即代表”每个个体在被分配至处理组时可能获得的额外处理量”。这种方法估计的效应量,我们称之为局部平均处理效应(\(Local \space Average \space Treatment \space Treatment \space Effect, LATE)\)。
局部平均处理效应(LATE)——这是一种以”个体在分配至处理组时可能获得的额外处理量”作为权重的加权平均处理效应。
以\(Chizue\)和\(Diego\)为例(其中\(Diego\)未遵循处理分配),我们可以通过以下计算理解局部平均处理效应\(LATE\):首先观察处理分配与实际处理情况,发现分配至处理组仅使实际处理率提升\(50\%\)(对照组处理率为\(0\%\),处理组为\(50\%\))。据此预测,我们仅能观测到一半的处理效果,故需将观测效应除以\(0.5\)以还原真实效应。
具体计算过程为:\((3.5-2)/0.5=3\) 。该结果亦可表示为\(\frac{3\times1+3\times1+2\times0+2\times0}{1+1+0+0}=3\),其分子反映:
两位\(Chizue\)的效应值\(3\)(权重为\(1\),因其分配状态完全决定处理接受情况)
两位\(Diego\)的效应值2(权重为\(0\),因其处理行为不受分配影响)
换言之,局部平均处理效应\(LATE\)是一种加权平均处理效应——个体对外生变异的响应强度越高,其权重就越大20。这一概念初看可能令人费解:为何我们要给那些对无关外生变异敏感度高的个体更大权重?事实上,我们或许并不希望如此。但\(LATE\)之所以成为重要指标,恰恰因为它正是多数研究设计中自然显现的加权平均处理效应。这未必是我们期望的估计量,却是实际可得的估计量。
沿着这一逻辑脉络,我们最终能得到何种估计量?对于特定研究设计而言,如何预判其最终产生的处理效应估计量类型?
至此我们已经明白,要获得具有代表性的单一处理效应,其方法远不止简单求取均值(即获得平均处理效应\(ATE\))。我们可以:
仅针对特定群体测算处理效应
对不同个体赋予差异化权重
根据处理分配机制进行加权
通常(虽非绝对)而言,我们真正需要的是平均处理效应\(ATE\)——即对随机个体施加干预时预期获得的平均效果21。之所以需要探讨其他各类处理效应,恰恰是因为现实研究中往往难以获得我们理想中的\(ATE\)估计量!
最终获得的处理效应类型并非研究者主观选择的结果,而是由研究设计本身内生决定的22。由于针对特定研究问题通常不存在多种可行设计方案,研究者往往只能接受当前设计所生成的处理效应估计量。
那么关键问题在于:对于给定的研究设计,我们实际会得到何种处理效应?
我们最终获得的处理效应,本质上取决于所利用的处理变异来源——这就是最根本的逻辑准则。只需追问:“处理变量的变异从何而来?”,你就能清晰把握23:
当前平均的处理效应来自哪些群体
哪些个体在估计中被赋予更高权重
我们已讨论过一个典型案例:在随机实验中,研究者会主动忽略实验样本之外的所有个体。此时所利用的处理变异仅来自样本内部——任何样本外的变异都被排除。若样本不能代表更广泛的总体24,那么所得实为基于样本选择条件的平均处理效应\((Conditional \space Average \space Treatment, CATE)\)。
让我们再举一个例子:假设我们想研究参加交通安全学校对日后驾驶表现的影响,且已知人们进入交规学校的原因只有两种:(1) 自身发生重大驾驶失误;(2) 因他人重大驾驶失误而连带受罚。这种情况对应的因果图示见\(图10.1\)。
在识别出\(“交通安全学校 \leftarrow 个人驾驶失误 \rightarrow 未来驾驶表现”\)这一明确的后门路径后,我们决定通过测量并控制受试者自身的不良驾驶技能来识别因果效应。
这种方法虽然能够识别因果效应,但同时会排除所有由”个人驾驶失误”驱动的”交通安全学校”处理变异。以\(Rodney\)和\(Richard\)为例:
\(Rodney\):\(50\%\)概率不参加(无处理)、\(10\%\)因他人失误参加(有效变异)、\(40\%\)因自身失误参加(被剔除变异)
\(Richard\):\(50\%\)概率不参加(无处理)、\(30\%\)因他人失误参加(有效变异)、\(20\%\)因自身失误参加(被剔除变异)
当我们剔除因自身驾驶失误导致的处理变异\((Rodney \space 40\%/Richard \space 20\%)\)后:
\(Rodney\)的有效处理变异仅剩\(10\%\)
\(Richard\)的有效处理变异保留\(30\%\)
这意味着\(Richard\)在剩余处理变异中占比更高,因此其处理效应将在最终估计中获得更大权重——这正是加权平均处理效应的生成机制!
遵循”何种处理变异应纳入计算”这一逻辑准则,我们几乎总能预判最终获得的处理效应类型。
更进一步,可以提前运用该逻辑建立经验法则。这些法则本质上是相同逻辑的快捷应用——虽非绝对严谨,但在多数情况下既便于理解又行之有效。
完全随机化法则:适用于理想随机对照试验。当处理分配完全随机且样本具有总体代表性时,直接对比组间差异得到的就是总体平均处理效应\(ATE\),无需复杂调整。
条件随机化法则:针对部分随机化的场景。当随机化仅在特定子群体(如某年龄段、地区)中实现时,通过聚焦该子群体的随机化数据,可获得该群体的条件平均处理效应\(CATE\)。
后门控制法则:用于观察性研究,当排除与后门路径关联的处理变异后,所余变异产生的效应属于加权平均处理效应——若通过消除已解释变异获得,则按方差加权;若通过数据子集或匹配对照获得,则按样本代表性加权
反事实对照法则:当研究设计通过构造反事实(如用未处理组模拟处理组的潜在结果)时,所得是处理组的平均处理效应\(ATT\),反映实际接受处理者的效应。
工具变量法则:当处理变量存在内生性时,利用外生工具变量(如政策变化、自然实验)分离出处理变量中由工具变量驱动的变异部分,此时估计的是局部平均处理效应\(LATE\),即”对工具变量敏感群体”的效应。
这些法则的共同逻辑是:通过识别处理变异的来源(随机分配/子群体/外生工具等)和控制混杂因素,在不同约束条件下提取有效的因果对比。选择哪种法则取决于研究设计对处理变异的控制方式。
需特别强调的是,上述经验法则本质上属于启发性原则(而非绝对真理)。正如本章前文边注所述,研究设计并非决定处理效应类型的唯一因素——估计方法的选择同样具有决定性影响。
以方差加权处理效应为例:理论上我们可通过样本权重(权数取方差的倒数)进行估计,此时方差相互抵消后将还原出平均处理效应\(ATE\)。这充分证明:
研究设计是分析的基础框架
估计方法能实质性改变效应量性质
本书第二部将系统探讨如何通过不同估计方法,从同一研究设计中提取差异化的处理效应估计量。
过度纠结于获取何种类型的处理效应均值,似乎显得本末倒置——毕竟我们已耗费心力完成因果识别。更何况,这些终究都是真实处理效应的某种均值,差异真有那么重要吗?但我们必须重视,因为理解世界真实的因果关系才是研究的终极目标!
若关注因果效应的初衷在于预判干预后果,那么厘清处理效应类型的重要性便不言而喻。
让我们回溯第\(6\)章对因果关系的定义——其中一种界定方式正是基于干预视角:若通过干预改变\(X\)的值能引致\(Y\)的变化,则\(X\)与\(Y\)存在因果关系。这种因果观恰恰解释了为何我们首先要获取因果效应:因其具有实践价值。一旦确立\(X\)对\(Y\)的因果影响,就能通过调控\(X\)来改善\(Y\)。例如:若证实阿司匹林缓解头痛,那么头痛时服用阿司匹林就能预期效果——这正是因果认知的实践意义。
而处理效应类型的选择将显著改变我们从分析结果中推导出的干预预期:例如,假设我们怀疑饮用水含铅量升高导致犯罪率上升25。若研究证实两者存在因果关系,该结论将如何指导实践?最直接的干预措施显然是——消除饮用水中的铅污染。然而,如果它并不能降低所有人的犯罪率呢?假设我们发现一些地区随机获得了政府拨款,用于清理水中的铅。但在那些申请拨款的地区中,犯罪率并没有随之发生变化。或许是因为它们的犯罪率本就已经很低,又或者是只有那些铅含量已经低到不会产生影响的地区才申请了这笔拨款。
在这项研究中,我们得到的是基于参与研究这一条件的平均处理效应。这种条件平均处理效应歪曲了如果我们降低所有人饮用水中的铅含量所会得到的平均处理效应。如果我们不留意自己得到的是哪一种平均处理效应,就可能会错误地认为这种效应对所有人来说都是零,进而决定不必费心去除水中的铅。
这种情况也可能反过来,即我们估算出了平均处理效应,却并非我们想要的那种。例如,假设你研发出了一种新的(而且你认为更好的)麻疹疫苗。你在美国通过一项实验对这种新疫苗进行了研究。由于你希望得到一个真正具有代表性的平均效应,你下了很大功夫随机招募所有参与者,从社会各界完全随机地选取研究对象。为简单起见,我们假设没有人拒绝参与这项研究。
这种方法 —— 完全随机挑选人员,且无人退出研究 —— 会给我们一个平均处理效应(至少在美国人群中是这样)。然后你拿到研究结果,会大吃一惊!这种疫苗确实能降低患麻疹的几率,但幅度仅为百分之零点几个百分点。嗯,这很可能是因为在美国,超过\(90\%\)的人已经接种过麻疹疫苗,所以你的疫苗对他们不会有太多额外作用。你真正想要的是未接种过麻疹疫苗人群的条件平均处理效应26。
一般来说,你需要考虑干预措施会是什么样子,无论是以一种可被考量的政策形式出现(改变疫苗接种方式、降低所有人接触的铅含量等),还是为了理解世界的运行规律(\(X\)群体的工资在上涨;我们应该预期这会对\(X\)群体的住房拥有率产生什么影响?)。
一旦我们明确了干预措施的具体形态,就需要一个与之匹配的平均处理效应。计划对所有人实施干预,还是随机实施干预?此时,平均处理效应就是你需要的。只想针对某个特定群体实施干预?那就要用该群体的条件平均处理效应。想要将一种已广受欢迎的处理方法推广到更多人身上?或许需要的是未接受处理者的平均处理效应,或者边际处理效应。计划延续一项人们自愿参与的政策?那就需要接受处理者的平均处理效应!不仅要理解整体效应,还要明白这种效应针对的是哪些人,这才能真正填补空白,让从因果推断中得出的信息发挥作用。
我们已经讨论了各种各样的处理效应。让我们回顾一下它们分别是什么。
平均处理效应\(ATE\):总体中的平均处理效应。
接受处理者的平均处理效应\(ATT\):在研究中实际接受处理者的平均处理效应。
未接受处理者的平均处理效应\(ATUT\):在研究中未实际接受处理者的平均处理效应。
条件平均处理效应\(CATE\):具有某些变量特定值的人群的平均处理效应(例如,女性群体的平均处理效应)。
异质性处理效应\(HATE\):因人而异的处理效应。
意向性治疗效应\(ITT\):在并非所有被分配接受处理的人都实际接受了处理(且可能有些未被分配接受处理的人反而接受了处理)的情况下,分配处理这一行为本身的平均处理效应。
局部平均处理效应\(LATE\):一种加权平均处理效应,其权重基于个体在被分配接受处理时比未被分配时多接受的处理量。
边际处理效应\(MTE\):若扩大处理范围,下一个将要接受处理的个体所产生的处理效应。
加权平均处理效应\(WATE\):对每个个体的处理效应赋予不同权重后得到的平均处理效应。
方差加权平均处理效应\(VWATE\):在阻断后门路径后,根据个体处理变量的变异程度为其处理效应赋予权重后得到的平均处理效应。
如果我们都能变成无摩擦的完美球体,社会科学研究将会简单得多——下坡运动也会如此轻松。↩︎
唉,这不公平↩︎
某项研究基于特定样本得出的估计结果能否推广到其他情境的特性,被称为外部效度。↩︎
若对此领域感兴趣,笔者建议:
阅读第21章内容
系统研读Susan Athey与Guido Imbens两位学者合作的所有文献
统计术语说明:当讨论比率变化(如宫颈癌发病率或概率)时:
• 百分比变化是比例性的(如从\(2\%\)升至\(3\%\) = \(\frac{0.03}{0.02}-1=50\%\)增幅)
• 百分点变化是比率的绝对差值(如\(3\%-2\%=1\%\))
注意:当基础概率很低时,百分比增幅会显得异常巨大——即便实际变化很小。↩︎
这是样本中的平均处理效应,但我们显然不能假定该效应同样适用于安德鲁或马克。↩︎
我甚至还有自己独创的一种!它叫SLATE——虽然应用不广但超级酷炫,其原理是…喂,别走啊!↩︎
严格来说,(1)类只是(2)类的一个特例——部分个体权重为100%,其余为0%。但出于概念清晰性考虑,最好将二者区分讨论。↩︎
或许我们是1980年代的劳动经济学家,又或是使用…近期实验小鼠的生物学家。↩︎
根据我们掌握的反事实数据可知:
若从未实施处理:处理组与对照组的平均结果值均为 (1+2)/2 = 1.5
差异来源:仅由处理效应本身导致(治疗与结果间无后门路径)
可以想见,\(ATT\)(已处理者平均效应)会频繁出现——毕竟我们只能观测到实际接受处理者的数据。因此,当我们捕捉这些个体的处理效应时,自然就会得到\(ATT\)。几乎难以想象如何能获得其他类型的效应值:若无法观测未处理者在处理状态下的表现,我们怎么可能得到\(ATE\)(平均处理效应)而非\(ATT\)?关键在于建立处理效应在处理组与对照组同质的前提条件。本例中二者显然不同,但若实施严格的大规模随机化,就没有理由认为两组会存在效应差异,此时获得的便是\(ATE\)。↩︎
例如调查/样本权重(如第13章所述)。↩︎
相关数学推导略显复杂(可参考第4章”条件均值”章节或第13章),其核心步骤如下:
Brianna类调整
结果变量:减去均值3
处理组:5-3=2
对照组:1-3=-2
处理状态:减去均值50%
处理组:1-0.5=0.5
对照组:0-0.5=-0.5
Diego类调整
结果变量:减去均值2.8
处理组:4-2.8=1.2
对照组:2-2.8=-0.8
处理状态:减去均值90%
处理组:1-0.9=0.1
对照组:0-0.9=-0.9
线性拟合:对调整后的数据拟合直线,得出:处理状态每增加1单位 → 结果变量变化3.47
二值变量的方差恒等于:P(1)×P(0)↩︎
或者,这可能是因为正值疫情期间,而辣味奇多薯片就在食品柜里触手可及。↩︎
更广义地说,当我们通过某种外生变异驱动处理分配,并直接考察该外生变异与结果变量之间的关联时,所得即为意向治疗效应。↩︎
除非我们计划在现实世界中实施相同的干预方案。例如,若我通过”强制保险公司承保治疗费用的政策”来评估治疗对抑郁症的效果,那么作为政策制定者,我可能确实更关注该政策本身的效果,而非单纯治疗的效果——毕竟相比治疗过程,我们对该政策的实施具有更强的掌控力。↩︎
在大多数情况下,这种依从性表现为二元状态——“实际接受处理”记为1,“未接受治疗”记为0。↩︎
即便处理方案并非二元变量(0/1),上述原则依然适用!此时权重将取决于”实际获得的额外治疗剂量”。↩︎
在计量经济学课程中,我们常听到这样一种表述:局部平均处理效应\(LATE\)是”对分配方案作出响应者的平均处理效应”,这类响应者通常被称为”依从者”。但这种说法实际上是一种简化。假设个体\(A\)对分配方案完全响应,而个体\(B\)仅产生\(50\%\)的响应程度,此时\(LATE\)并不会对二者赋予同等权重——尽管两者都属于依从者范畴。实际上,完全响应者的权重将会是部分响应者的两倍。↩︎
为何我们并非总是需要ATE?这取决于研究问题的性质:
若探究“某项历史政策的实际效果”,则需要关注已接受处理者的平均处理效应(ATT)
若评估“扩大治疗范围可能产生的效果”,则需测算未接受治疗者的处理效应(ATUT)或边际处理效应
若比较“干预对男女群体的差异性影响”,就需计算条件处理效应
此外,估计量的选择同样至关重要。尽管存在方法论限制,但对同一研究设计往往可采用多种估计方法——这些方法可能产生不同的处理效应均值。值得注意的是,某些特定估计量能够突破研究设计的固有局限,专门用于从不支持常规ATE估计的研究中提取平均处理效应。↩︎
在通过控制变量等手段剔除自主选择的变异成分后↩︎
因此,其平均处理效应自然与更广泛总体存在差异。↩︎
这一干预确实可能奏效!具体可参见Reyes(2007)的经典研究。↩︎
奇怪的是,这并不算作针对未接受处理者的平均处理效应。↩︎