11.1 置信度

到目前为止,我们在思考识别因果效应时,都是从同一个思路出发:画一个因果图。画一个因果图来勾勒我们对数据生成过程的理解,用这个图列出从处理变量到结果变量的所有路径,然后阻断一些路径,只留下我们想要的“良好路径”。这样我们就识别出效应了!

可要是连第一步都做不到呢?要是因果图本身就超出了我们的能力范围呢?这并非因为我们不愿将假设付诸笔端而感到羞怯。在复杂情境中——而且大多数社会科学研究的都是高度复杂的情境——我们很可能对因果图的具体样貌知之甚少。诚然,我们可以画一个因果图,但它必然是一种极大的简化,而且我们很可能连所有本该包含在内的重要变量都想不全。如果坦诚一点,我们会先画出已知的部分,然后留出一大块区域,标上“我不清楚,大概还有些别的因素吧”,再画些箭头从这个区域指向图上几乎所有其他部分。

那接下来该怎么办呢?我们就这样放弃吗?

当然,这种合情合理的担忧的确可能让我们彻底回避因果推断。如果我们连因果图的大部分内容都不清楚,就很可能无法识别出那些需要处理的重要后门路径。或者,我们可能试图阻断某个后门路径,却因为路径上存在一个对撞因子,反而意外打开了一条新的路径。

我们可以采用的一种方法是运用第\(9\)章的方法,在那里,我们无需处理“整套后门路径”这样神秘的复杂事物,而是可以尝试专注于分离出几个我们知道存在的前门路径。

然而,除此之外,仍然还有一些选择。我们永远不会真正、确切地知道实际的因果图是什么样子。如果我们有一个相当不错的想法,我们可以就当作那就是事实1。但如果我们知道我们的图上有很多未知的部分,我们可以问问自己,在承认自身知识欠缺的情况下,我们能做些什么来尽可能最好地识别我们的因果效应。无知是不可避免的;让我们让它不那么令人痛苦吧。

11.2 广阔的未知空间

我们已经大量地讨论过模型。我们构建了复杂的模型,绘制了图表,仔细思考了处理变量和结果变量之间、各种不同路径的情况。我们画过繁杂的模型,也画过简洁的模型。但对于很多研究者而言,尤其是那些认为精心建模数据生成过程实际上几乎不可能的研究者,他们实际使用的模型要简单得多。确切地说,这个模型看起来就像\(图11.1\)那样。

简单、直接。处理变量、结果变量,还有一条后门路径,通过,嗯,某种东西。一些”说不清的因素\(Stuff\)”。

尽管这个图表看似简单,实则要复杂得多。仅仅写上“各种因素”,就意味着我们甚至放弃了尝试弄清楚所有的后门路径是什么,以及如何阻断它们。当然,我们可以列举出一些可能属于“各种因素”范畴的东西,但永远无法把它们全部列举出来并进行衡量。

这是一种有原则的无知。我们知道某些类型的变量属于“各种因素”,但也承认并非全部都了解2。让我们以一个计量经济学的经典例子来说明——多接受一年教育对你的收入有什么影响?我们几乎可以肯定,人口统计和社会经济背景变量属于“各种因素”,智力、性格、你所就读的学校类型等等也同样如此。但即便我们列出五十项内容,并且设法对它们全部进行控制,我们仍然会说:“我并非什么都知道,世界非常复杂。我肯定还是遗漏了一些东西。我并不认为自己已经确定了一种因果效应。”

不出所料,持这种想法的人很少会相信,仅仅通过控制变量就能确定因果效应。

那么,如果我们无法看清整个数据生成过程\(DGP\),我们能做些什么呢?嗯,我们可以尝试填补我们所能填补的内容。这会对我们有很大帮助。

我们不会试图勾勒出整个过程,而是会转而设想,数据生成过程或多或少就和\(图11.1\)一模一样,然后把所有时间都花在探究哪些变量属于“各种因素\(Stuff\)”上。

当然,实际的图表不会像\(图11.1\)那么简单。我们都明白这一点。但我们大概可以认为,大多数有问题的路径,都能以某种方式简化成这样。换句话说,我们知道,当某个第三变量同时导致“处理(\(Treatment\),在因果推断等语境里,常指干预措施 )”和“结果\(Outcome\)”时,就会产生问题。反正这类变量可能多得足以耗尽我们所有精力,那咱们就聚焦于这一点吧。

那么,问题就来了——哪些变量可能会同时导致“处理”和“结果”呢?别担心这些变量之间可能如何相互导致,也别担心是否存在潜在的对撞因子效应,就只关注“杂项”就行。

举个例子。我们来研究一下“汇款\(remittances\)”这个概念,汇款指的是移民寄回他们原籍国给家人的钱。我们想弄清楚,在移民群体中,你移民到的国家,是否会影响你寄回汇款的金额。

什么可能同时影响 “目的国” 和 “汇款金额” 呢?任何与你从事的工作相关的因素都有可能,比如培训、教育、智力、体力等等,因为这些因素会影响你有能力移民到哪些国家,以及你到达那里后能挣多少钱(从而能寄回多少钱)。你移民的来源国也是一个类似的影响因素,不过在这种情况下,它可能会因为你的家人需要多少钱而影响你寄回的金额。你的文化、语言或宗教信仰也可能起到一定作用 —— 也许人们更愿意移民到文化、语言或宗教信仰相似的国家,在那里他们可能更容易融入,而这些相同的因素也可能影响你能挣多少钱,或者你的家人对你的汇款有什么样的期望。

我们可以继续列举下去,但到目前为止,这已经是一个不错的清单了。我们可以把这些看作是 “偏差来源”—— 如果我们不控制这些因素,就无法识别出真正的效应。我们可能会不小心把一些变量包含进来,这些变量在某些路径上是碰撞因子,或者实际上是不相关的,但总的来说,当绘制因果图时,问 “哪些变量会同时影响处理变量和结果变量” 是相对容易的一步。

此时,与本书其余部分所采用的方法的关键不同之处在于,我们列出了这些必要的控制变量清单,却…… 没有用它来识别效应。

当然,我们或许会对其中一些因素加以控制。但在这种方法下,我们可以想当然地认为,如果我们尚未发现某个无法控制的变量,那只能说明我们对其思考得还不够深入。而如果我们更深入地思考并确实想到了这样一个变量,那么要么我们无法对其进行控制,从而陷入困境;要么我们能够对其进行控制,但之后仍需要进行更多的思考

相反,这份后门变量的清单只是一个起点。它是一系列关于我们需要控制的各类因素的考量,但我们打算间接地对这些因素进行控制,或许根本不需要控制任何东西。

我们怎么能不直接控制某些因素,却又能对其加以控制呢?其实,我们已经知道一种方法了,而这或许能给你一些启示,让你想到其他方法。在第\(9\)章中,我们讨论过如何只分离出那些与结果无关的处理变量的部分成因。如果我们能做到这一点,那么实际上,我们就是在完全不直接控制某些因素的情况下,对这些因素进行了控制。那些后门路径根本无关紧要了!当你认为没有办法恰当地处理并关闭所有后门路径时,能找到一种让所有后门路径一下子都变得无关紧要的方法,听起来会相当不错。

如果我们要这么做,那一开始又何必费心思去考虑所有那些后门因素呢?因为这会促使我们去思考,我们需要找到的那种处理变量的外生来源(即前门路径)是否真的与其中一些因素相关 —— 这要么会让它不再那么外生,要么会让我们明白,我们确实也需要控制一部分因素。事实上,我们甚至不必去琢磨我们找到的外生来源是否与那些因素相关,我们自己就可以去检验 —— 下一节我会谈到这一点。

这种寻找前门路径的方法表明,我们的目标是选择那些能让我们一次性关闭大量后门路径的方法,即便我们无法衡量那些后门路径上的变量。但这并非实现这一目标的唯一方法。

有时候,手中掌握一个可控变量,其价值胜过无数个虚无缥缈的潜在变量。有些控制变量既易于测量,又能关闭许多后门路径。要记住,控制某个变量的意思是消除该变量所能解释的任何变异,那么通过控制一个变量,我们也将同时控制所有其他仅会随着该变量取值变化而变化的因素

这听起来有点绕。我们来举个例子。假设我们正在做一项关于先天遗传与后天培养的研究,为了控制后天培养的某个方面,我们选择控制你成长的家庭环境 —— 这实际上就相当于将你与在同一个家庭中长大的兄弟姐妹(或者可能是同一多家庭住宅中其他家庭的孩子)进行比较。

我们可能想要控制的后天培养的另一个方面是你成长地区的地理环境 —— 比如城市与农村的差异、社区的特质等等。

但一旦我们控制了你成长的家庭环境(你长大的房子 ),就无需再控制其他那些因素了。和你在同一所房子里长大的其他孩子,同样也在你的社区、你的州、你的国家等地长大,诸如此类。像社区这类因素,只会在不同的房子(家庭所处环境 )之间存在差异。一旦我们消除了所有与你成长的房子相关的差异,自然而然地,也就消除了所有与你所在社区相关的差异3。所以,我们无需控制社区、城市与农村的差异,或者任何其他仅在不同房子(家庭环境 )之间存在不同的因素。

最常见的是,这种情况出现在 “固定效应” 方法的案例中,即对个体进行多次观察,并添加对个体的控制变量。这实际上控制了关于该个体的所有因素,无论这些因素是否容易测量 —— 他们的成长环境、个性等等 —— 只要这些因素随时间保持恒定4。一口气就搞定了大量控制变量5

有时我们可以只是假定事物是可比的。当需要添加的控制变量多得超出可行范围时,常用的另一种方法是选取我们的处理组人群,并且仅将其与一个假定在所有这些控制变量方面以某种方式平均而言具有可比性的组进行比较。一个对照组!如果我们假定某个特定的控制变量在处理组和对照组之间是相同的,那么我们就无需对其进行控制,因为它本来就一样。

这种选取对照组的方法在开展实验时是标准做法。在那种情况下,我们通过随机将人们分配到处理组或对照组来确保组间的可比性。平均而言,在任何后门路径的变量上都不应该存在差异,因为我们随机分配人员时根本不考虑那些变量。这样一来,就无需将它们作为控制变量添加了。

然而,在我们未明确进行随机分配的情况下,这是一个要接受的、有力得多的假设。在几乎任何观察性情境中,仅仅声称处理组和未处理组在所有后门变量(无论是可观测的还是不可观测的 )方面都相同,会完全令人难以置信。在那种情况下,你基本上只是在假定自己已经识别出了处理效应,却什么都没做,也没有任何正当理由6那么我们真的会那么做吗?只是假定处理组和对照组是相同的?不,当然不会。相反,我们试图找到处理组和对照组之间特定的、具有可比性的比较(情况 )

这可以通过找到对照组的一个子集来实现,这个子集看起来确实在所有那些方面(无论是否可测量 )平均而言都应该是相同的。例如,假设你对接受政府社区扶持资金对社区向上流动性水平的影响感兴趣。显然,获得资金的社区和未获得资金的社区是不同的,所以我们不会想仅仅比较处理组和对照组。但或许我们可以论证,在申请了资金的社区当中,获得资金的社区和未获得资金的社区非常相似,且资金授予是半随机的。这虽然不如实际随机分配那么好,但无疑是个开端,而且可能控制了很多我们无法测量的变量,比如 “社区对资金的需求7”。

我们进行特定比较的另一种方式,是不按平均值来比较处理组和对照组,而是仅在变异的某些部分内进行比较。例如,我们可以不去问处理组结果的平均值与对照组结果的平均值是否不同(对于这种比较,所有那些后门变量都仍极具影响 ),而是去问处理组结果平均值随时间的变化与对照组结果平均值随时间的变化是否不同。通过观察结果随时间的变化(而非绝对水平 ),我们让处理组 / 对照组的比较变得合理得多,因为我们不需要处理组和对照组在所有那些方面\(Stuff\)上平均而言都相同。我们只需要那些方面随时间的变化平均而言是相同的8。还有很多其他方式,能让我们消除那些方面中大量的变异,并且依赖关于处理组和对照组在哪些方面具有可比性的、范围窄得多的假设。

所以,存在一些对我们有帮助的可取之处,即便我们对自己能否真正梳理出数据生成过程\(DGP\)的全貌,或者能否弄清楚并测量全部必要的控制变量存疑,也仍可利用这些可取之处来识别效应。这些替代方法中的每一种都依赖其自身的一系列假设。而这里的核心问题在于,我们原本就不想非得对数据生成过程\(DGP\)做出一堆强硬假设!这就好像,我们没有秉持原则性的无知去承认自己不知道的事,反而只是用一套假设替换了另一套假设9

所幸,研究人员还有另一套工具可供使用,他们可以依靠这些工具来弄清楚自己的假设(如果你还记得在本书开头讲的,我们要识别任何东西都得有假设 )是否确实让他们误入了歧途。

11.3 是的,我错了,但我错得有那么离谱吗?

我们现在有了,以我们名义得出的一个估计结果、一组控制变量,可能还有一个对照组或者一种隔离前门的方法,但我们仍持怀疑态度,始终怀疑,我们是否真的识别出了我们自认为识别出的东西。我们怎样才能让自己更确定呢?

测试我们的假设是否为真,往往是不可能的 —— 这些假设所涉及的事情,我们往往一开始就无法观察到。不过,有几个不错的途径可以用来检验我们的假设是否看似不成立。令人苦恼的是,(至少在涉及用数据而非理论来检验假设时 )检验假设是否看似不成立,比检验其是否看似成立要容易得多。

这就把我们引入了 “稳健性检验” 的广阔世界。稳健性检验是一种方法,用于要么(1)检验我们能否推翻一个假设,要么(2)以不依赖该假设的方式重新进行分析,看看结果是否改变。

稳健性检验\(Robustness \space test\):一种试图推翻分析所做假设的检验,或者看看在放松该假设时结果会有多大变化 。

我们在第\(8\)章已经讲过一种进行稳健性检验的方法。在那一章里,我们研究了一个因果图,比如\(图11.2\)中的那个(因果图 ) 。

这个图不仅暗示了为识别 “葡萄酒\(Wine\)” 对 “寿命\(LifeSpan\)” 的影响我们需要控制哪些因素,还揭示了我们正在做出的一些假设。例如,在这个图上,“药物\(Drugs\)” 和 “收入\(Income\)” 之间的所有路径要么包含一个对撞因子”寿命\(LifeSpan\)“,要么包含 “葡萄酒\(Wine\)”。所以我们假定,如果我们控制 “葡萄酒(Wine)”,“药物\(Drugs\)” 和 “收入\(Income\)” 应该是不相关的。如果我们控制了 “葡萄酒\(Wine\)”,而它们(“药物\(Drugs\)” 和 “收入\(Income\)” )是相关的,那么这就是与我们所做假设之一相悖的证据。

大多数稳健性检验都是以类似这样的方式发挥作用的。我们详细说明自己正在做出的一个假设(该假设通常意味着两种事物之间不存在某种关系 ),然后对其进行检验。如果那种关系存在,那么这就是与我们的假设相悖的证据。

对于你可能使用的任何特定方法,都有一大堆可用的稳健性检验。但让我们举个例子。假设我们依赖一个对照组,在这个对照组中,我们把处理组随时间的变化与对照组随时间的变化进行比较。使用这种方法假定,所有后门因素\(Stuff\)随时间的变化,在处理组和对照组中是相同的。所以,如果我们去考量其中某些随时间的变化,我们应该会发现,随时间的变化与处于处理组还是对照组之间不存在关联。现在,我们有了本不应存在的关联,这样就为进行稳健性检验做好了准备。我们只需要选取其中一个后门控制变量,看看它随时间的变化是否与处于处理组或对照组相关

如果存在那种关联,那就构成了与我们为研究设计所做假定相悖的证据。当然,我们可以把那个变量作为控制变量加入(模型 )来解决我们所检验变量的问题,但即便我们这么做了,仍然要担心后门因素\(Stuff\)中所有未测量的变量。我们一直是在假定自己已经解决了那个问题的情况下开展研究的。但对我们能够检验的变量进行检验后发现,我们连这一个变量的问题都没解决,那凭什么认为我们在其他变量上处理得更好呢?

要弄清楚该进行何种稳健性检验,需要仔细思考所做的假设,以及这些假设意味着存在哪些可观测的无关联情况10。然后就是紧张的时刻,你会极其、极其迫切地希望不要得到结果…… 然后,嗯…… 走着瞧吧!

安慰剂检验\(Placebo \space test\):给未接受处理的组分配虚假处理后开展的一种分析,期望估计出的效应为零 。

有一种稳健性检验形式有助于找出有问题的假设,尤其是在你使用一种将处理组与可比对照组进行比较的方法时,那就是安慰剂检验。正如你从名称中可能猜到的,安慰剂检验是这样一种检验:你假定在并未实施处理的地方分配了处理,然后检查是否能估计出效应。如果你发现了 “处理” 的效应,那就说明在某个地方肯定存在有问题的假设,因为你发现了 “无处理” 的效应居然是 “有效应”11!我们之前在第\(8\)章讨论过这些(检验 ),但值得再审视一番。

比如,假设你正在研究一封环保信件的影响。某个县测试了一项政策,即如果某个月你的用电量超过\(1200\)千瓦时,你会收到一封信,礼貌地请你少用电。我们认为,用电量在\(1151-1200\)千瓦时的未处理人群,对于用电量在\(1201-1250\)千瓦时的处理人群来说,是一个相当不错的对照组。这些用电量如此接近,我们预计这些组在所有我们能测量或无法测量的后门因素\(Stuff\)变量上都是相似的。所以,我们将上个月用电量为\(1201-1250\)千瓦时人群下个月的用电量,与上个月用电量为\(1151-1200\)千瓦时人群下个月的用电量进行比较。这就是我们的设计!简洁明了。这里一种标准的稳健性检验方法,就是看看在用电量为\(1151-1200\)千瓦时和\(1201-1250\)千瓦时的组之间,我们能够测量的因素\(Stuff\)变量是否存在差异12

不过,我们也可以做一个安慰剂检验。假设该政策是在用电量超过\(1150\)千瓦时的情况下生效。现在我们可以用完全相同的设计 —— 这次将我们的虚假处理组(用电量\(1151-1200\)千瓦时 )与新的对照组(用电量\(1101-1150\)千瓦时 )进行比较。按理说,这两组在下个月的用电量上不应该有很大差异,因为实际上他们都接受了同样的 “处理”,也就是根本没接受任何处理。所以,如果我们真的发现这些组之间存在差异,那就说明我们的某个假设很可能有误。说不定,用电量相差\(50\)千瓦时的组,实际上在很多与后门相关的变量上有很大不同!

老实说,这一切都有点想当然。想要检验一个假设是否为真的整个思路是很愚蠢的。所有假设在某种程度上都是错误的。我们与其说是试图证明这些假设为真或为假,不如说是试图证明它们 “错误程度不至于引发问题” 或者 “错误太严重而无法采用”。

我们非得这么做吗?令人惊讶的是,不用!还有另一种方法。这就是部分识别法13

部分识别\(Partial \space identification\):放宽一些假设,从而得出一系列可能的处理效应估计值,而非单一数值,还可能通过添加更严格的假设来缩窄该范围 。

在部分识别框架下,我们不会强迫自己一直做假设,直到识别出效应为止。相反,我们只做那些我们相当确定的假设。然后,对于仍需假定的剩余因素,我们考虑一系列可能性。最后,我们算出在该范围内估计值的情况,从而得到估计值本身的一系列可能取值。

举个例子。假设我们想研究拥有跑车对超速驾驶倾向的影响。我们加入一些控制变量,比如性别、年龄、收入、父母收入等等。我们估计出效应,发现拥有跑车会使某次驾驶中超速的概率提高\(5\%\)。不过,仍有一些未测量的因素,比如冒险倾向。我们不想假定拥有跑车和冒险倾向无关。这听起来就不合理。但我们可以说”冒险倾向可能与拥有跑车和超速驾驶都呈正相关”(即便我们不知道相关程度有多强 ),“所以,模型中遗漏冒险倾向会让处理效应看起来更正向。如果我们能控制冒险倾向,处理效应会变得更负向” 。

有了这个(合理得多的 )假设,我们无法确切说出拥有跑车对超速驾驶的效应具体是多少,但我们可以说它不高于\(5\%\)。我们通过\(5\%\)“从上方限定了效应的范围” 。如果愿意,我们还能进一步深入。要是我们愿意做出比仅判断相关性方向更强一点的假设,我们可以说类似 “在控制其他所有变量的情况下,冒险倾向对购买跑车的效应在\(0\)\(X\)之间” 这样的话。这就能让我们说,拥有跑车对超速驾驶的效应不只是低于\(5\%\),而是在\(5\%\)和某个特定的更低数值(比如\(2\%\))之间。我们可以按需调整假设的强度,用更强的假设得到更精确的结果,或者用没那么强的假设得到没那么精确的结果。

部分识别是一个涵盖众多方法的广泛领域14。本书第二版专门新增了一整章关于部分识别的内容,在第\(21\)章。如果你想深入了解,可在\(Gangl(2013)\) 中找到相对浅显易懂的入门介绍。

你的最后一道防线是直觉。在做完所有这些 —— 检验假设的合理性及其隐含内容,根据假设的强度检验结果能有多精确之后 —— 你仍会面对一套假设和一个结果。而那个结果呢?有时结果就是讲不通。这是需要留意的重要一点。你的结果到底有没有合理性?要是没有,即便你弄不清原因,也不知道怎么修正,那你在某个地方的假设肯定错了。肯定是这样。

比如,假设你在研究每周多喝一杯水对寿命的影响。你精心设计研究,控制了所有必要的变量,想尽办法之后,发现每周多喝一杯水会让你多活\(20\)年。太惊人了!赶紧通知媒体。嗯,很可能没必要。这根本不可能是真的。完全不可信。你肯定是做了错误的假设,或者统计代码出错了,又或者只是数据里出现了极大的偶然结果。你得到的不是真实结果。没人会信这事儿。

这里存在一定主观性。我们得愿意接受令人惊讶的结果 —— 要是不愿意,做研究还有什么意义呢?但很多结果不只是惊人,而是几乎不可能。而且也不一定得极端到多活\(20\)年这种程度。要是你发现一个教师培训项目让学生考试分数提高了三分之一个标准差,这好得难以置信吗15?要是你发现一个简单的\(30\)秒音频信息在实验室播放一次,五年后真的改变了人们的行为,这合理吗?可能不合理。

所以,这就是你最后的防线。你的直觉。这个结果有可能成立吗?如果不可能,那它就不成立。


  1. 我们很有可能在日后才发现自己犯了致命的错误,但有时候,如果不先犯下这个错误,就很难弄明白如何能做得更好。而且,就目前而言,这或许已是我们能做到的最佳程度了。↩︎

  2. 在经济学中,这种研究方法上的分歧——是试图勾勒出整个数据生成过程,还是干脆认输,承认这不可能,再换别的方法尝试——就是“结构模型派与简化式模型派”的争论。本书截至本章,大体上都属于“结构模型”阵营。这并不是说我认为简化式模型派是错误的——我自己的很多研究就采用了简化式模型。但我觉得,大多数简化式模型派的研究者在面对现实并为实际分析转换思路之前,都会在脑海中尽可能多地进行结构模型方面的思考。这就是为什么我认为,无论最终会采用哪种方法,从结构模型阵营入手学习因果关系都是一个不错的选择。这与大多数计量经济学教材形成了对比,那些教材在很大程度上倾向于简化式模型(或许是因为与结构理论研究不同,结构计量经济学比简化式模型要难得多,而且出于某种原因,经济学领域决定同时教授研究设计和统计推断)。↩︎

  3. 要在控制了家庭环境(房子)之后还存在社区方面的差异,那就需要有房子能同时处于两个不同的社区。↩︎

  4. 所以,一个人身上随时间变化的某些情况,比如他们的收入,不会被固定效应(模型)所解释 / 考虑。↩︎

  5. 关于这种方法的更多内容见第 16 章 。↩︎

  6. 当然,没人会试图宣称这样一种…… 啊,我在骗谁呢?当然存在一项研究,就在我写这段话的时候,它恰恰做了这样的事,获得了大量媒体报道,还得到基于政治的热烈赞扬,吹嘘一种新冠病毒疗法。直接假定各个全然不同的国家在所有未测量的后门变量上平均而言都是相同的,还厚颜无耻地称之为 “国家随机对照试验”,却根本没对任何事物进行随机化。这是来自 2020 年的情况。如果这本书留存足够久,久到你完全不知道我在说什么,我只能希望你们那个时代具有标志性的事件都是积极的。↩︎

  7. 关于采用这类方法的标准方法,参见第 20 章关于回归断点的内容。↩︎

  8. 若要了解采用这类方法的标准方法,参见关于双重差分法的第 18 章 。↩︎

  9. 这很不公平,但我正乐在其中,所以你就忍着吧。↩︎

  10. 而且,偶尔也存在一些本应存在的可观测关联,你可以对其进行检验,要是这些关联不存在,就该担忧了。那也会是一种稳健性检验;这种类型只是没那么常见。↩︎

  11. 这与医学中实际安慰剂的使用不同,在医学中,安慰剂预计会产生效果,因为我们会对自己正在接受治疗这一信念做出反应(此外还有其他因素;安慰剂的作用很复杂),而我们只是想知道真正的治疗是否具有超出这种安慰剂效应的效果。在我们对安慰剂的使用中,安慰剂处理只出现在数据全部收集完毕后我们的统计软件内部 —— 没有人实际接受过安慰剂处理。其效应确实应该为零。↩︎

  12. 一张对处理组和对照组间一众 “因素(Stuff)类” 变量进行比较的表格,常被称为 “平衡性表格” 。平衡性表格会在第 14 章再次出现 。↩︎

  13. 也被称为 “集合识别” 。“敏感性分析” 这一术语与之相关,实际上,这里的例子就是敏感性分析。就本书的知识层面而言,我认为这些概念的关联足够紧密,可归为一类来探讨,但它们之间也存在差异,如果你进一步研究就会发现(这些差异 )。↩︎

  14. 这些方法可不只是只弄清楚未控制变量使估计产生偏差的方向这么简单,而是要深入得多 。

    Gangl, Markus. 2013. “Partial Identification and Sensitivity Analysis.” In Handbook of Causal Analysis for Social Research, 377–402. Springer.↩︎

  15. 即使是备受认可、被认为相当成功的教育干预措施,通常产生的效果也在十分之一个标准差的范围内 。↩︎