通过阻断所有后门路径来识别研究问题的答案,这一前景实际上相当艰巨。想想你需要完成的所有步骤:
必须建立数据生成过程的模型
必须列出所有可能的路径
必须找到能够阻断所有后门路径的变量组合
必须测量并控制所有这些变量
这真是项艰巨的工作!尤其是最后一步。实际上要控制所有变量出奇地困难,在社会科学领域尤其如此——这里有太多可能重要的因素,你几乎肯定会遇到一些必须控制却无法控制的变量。即便这些变量理论上可以测量,你的数据中很可能也并未包含。“风险态度”、“好奇心”、“客户情绪”、“智力水平”——这些都很可能位于干扰路径上,但你的数据中却无法获取。
更棘手的是,由于潜在的后门路径变量如此之多,你真正能全部考虑到并将其纳入因果图的概率有多大?很可能会有遗漏1。
情况看似不容乐观。那么该如何应对?另一种研究思路是:不再主动阻断后门路径,而是设法直接隔离前门路径。若能直接估计前门路径的效应,就无需再为封闭后门路径而困扰。
这如何实现?主要通过两种不同方式:
第一种方法是找到这样的研究场景:处理变量\(Treatment\)的部分变异存在后门路径,而另一部分变异则没有后门路径(或至少只有你能封闭的后门路径)——这就是自然实验法。
第二种方法是,即使无法识别整体效应,也可以估计前门路径\(front \space door \space paths\)上的各个单独因果箭头——这就是前门路径法。
举例来说,假设我们要估计财富\(Wealth\)对寿命\(Lifespan\)的影响。在这个因果图中必然存在许多后门路径,涉及各种你无法获取数据的变量,比如”商业技能”、“抢劫意愿”等等。
但如果我们研究的是彩票玩家的财富情况呢?显然,大多数彩票玩家之间的财富差异来自于工作、继承或购买资产等途径,这些财富变异都存在同样的后门路径。然而,在购买彩票的人群中,工作、继承和购买资产等因素与是否中奖完全无关。因此,如果你的研究设计只关注彩票玩家中由中奖金额驱动的财富差异——惊喜!这部分变异不存在后门路径干扰2。
那么我们该如何精准提取所需的变异呢?这本质上取决于处理变量\(Treatment\)存在多种变异来源。如果\(A\)、\(B\)、\(C\)都是导致处理变量的原因,那么它们共同构成了个体间处理状态差异的来源。若足够幸运,其中某些来源(如\(A\))产生的变异会伴随后门路径,而其他来源(如\(B\))则不会。若更加幸运,你甚至能直接分离出那些不存在后门路径的纯净变异部分。
这里的关键思想在于,我们可以对处理变量\(Treatment\)的变异进行分区。通过选择特定样本或采用某些统计调整方法,我们就能剔除那些由烦人的后门路径\(back \space door\)驱动的部分,只留下与之无关的部分进行分析。这样我们就能专注于不受后门干扰的部分,无需再为此担忧。
或许这种方法最纯粹的应用就是随机对照实验。在这种实验中,研究者会主动介入,将处理(或非处理)随机分配给受试者,然后观察结果差异。
随机对照实验:当研究者能明确控制实验对象的处理分配,并以随机方式进行指派时,即构成此类实验。
你可能对这个概念很熟悉。你可能在中学的科学课上做过几次这样的实验。你可能还听说过,随机实验有时被称为因果研究设计的”黄金标准”3。但为什么它们有效呢?实验之所以有效,是因为它们创造了一种不存在后门路径的处理变量变异。如果处理是随机分配的,那么对实验中的每个个体来说,所有后门路径上变量的变异都应该与他们是否接受处理无关。这样一来,所有的后门路径就被关闭了!
假设我们想研究特许学校是否比传统公立学校更能提高学生成绩(或效果更差),这在美国是个热点话题,也是隔离前门路径的典型研究场景4。影响一个人是否就读特许学校的变量有很多,种族、家庭背景、性格、地理位置和学术兴趣只是其中几个。我们根本不可能通过控制足够多的变量来关闭所有这些后门路径。\(图9.1\)中的”\(AllKindsaStuff\)“(各种混杂因素)就代表了这种情况。
然而,我们的因果图并未止步于此。许多特许学校的申请人数都超过招生名额,其中不少学校会通过抽签方式来分配名额——这为大量实验分析提供了便利条件。因此,实际的因果关系应该如\(图9.2\)所示。
请注意几个关键点:首先,从抽签\(LotteryWin\)到学业成绩\(StudentAcheievement\)之间不存在任何后门路径。在数据中,抽签结果\(LotteryWin\)对学业成绩的影响无需任何控制变量即可识别。其次,抽签影响学业成绩的唯一途径就是通过特许学校\(Charter\)。因此,如果我们计算出抽签结果对学业成绩的影响,这实际上反映的就是特许学校对学业成绩的影响。
这个机制之所以成立,是因为现在人们就读特许学校有两个原因:第一个是由于各种混杂因素\(AllKindsaStuff\)——这部分充满干扰,我们应该避开它;第二个是由于抽签结果。如果我们能单独分离出由抽签驱动的部分,我们就找到了研究问题的答案。
我们可以通过以下几种方法来分析这个实验数据:
没有采用抽签机制的学校的数据
通过抽签以外方式入学的学生数据
甚至没有抽签资格的学生数据
只保留参与抽签的学生,比较中签进入特许学校的学生和未中签的学生之间的差异5。
在这两种方法中,我们都只保留了由抽签结果\(LotteryWin\)驱动的特许学校入学的变异部分,而排除了其他来源的变异。第一种方法是通过直接剔除受其他变异影响的数据来实现的,第二种方法则是通过只关注我们估计由抽签结果导致的变异部分来实现的。
这清楚地说明了两点:首先,随机实验能非常清晰地帮助我们识别感兴趣的因果效应;其次,随机实验要求我们只关注数据中非常狭窄的一个切片——被随机化的部分。如果这部分数据不能代表更广泛的人群,那么无论样本量有多大,或者识别方法有多干净,我们都无法得到真实的效应。这也是一些研究者对特许学校抽签机制的疑虑——他们认为实施抽签的学校和参与抽签的学生,并不能分别代表更广泛的特许学校和学生群体,因此并不能完全回答我们想要解决的问题7。
暂且不论这个问题,我们确实获得了一个非常干净的识别结果。但要做到这一点,我们必须进行明确的随机化处理。而本书的基本前提恰恰是:这种随机化并非总是可行或现实的!那么,我们还能采取哪些方法呢?
“自然实验”指的是在现实环境中,某种随机化过程已经为我们完成的研究场景。事实上,细心的读者可能已经发现上一节存在一个取巧之处——那项特许学校研究并非真正的随机对照试验。实际情况是特许学校自身实施了随机化分配,而非研究者主动进行的干预操作8。这已然构成自然实验的典型案例:随机化发生在现实世界,研究者只是对其加以利用。前文讨论的”彩票中奖者财富”研究也是同理——研究者并不决定彩票中奖者,但在中奖群体中,大奖获得者的分配确实存在随机性因素。
自然实验——当处理变量的随机分配并非由研究者控制时所形成的研究情境
所以随机化不需要由研究者控制。但我们还能更进一步吗?它甚至需要像明确抽签那样随机吗?“随机化”究竟是什么意思?我们可以通过思考随机化实验为何有效来理解自然实验。它们之所以有效,是因为它们固定了部分处理变量,使其不存在后门路径。只要我们能实现这种效果,就能得到一个可行的自然实验。
外生变异:当某个变异(或变量)在数据生成过程中不被其他变量所导致时(或在控制某些因素后满足该条件),我们称其为外生的——即”源自外部”的变异。
因此,我们需要思考的是能否找到一种不存在后门路径的处理变异来源。我们可以称之为”外生变异来源”——从该来源到结果变量的所有路径必须满足:(a) 路径封闭,或(b) 路径包含我们的处理变量9。理想的外生变异来源不应被因果图中的任何其他变量所导致。
这意味着只要在数据生成过程中达到”等同于随机”的效果,即使变异源并非完全随机,我们仍可采用多种事物作为外生变异来源。这种情况的因果图是什么样子的?它看起来…几乎和随机对照试验的因果图一模一样!你可以在图9.3中亲眼看到。
随机对照实验与自然实验之间存在四个实质性差异。
自然随机性有时会存在通往结果变量的后门路径——这在纯随机化实验中不会发生。例如,假设我们利用《芝麻街》在不同地区上线时间不同这一自然现象,来研究儿童观看该节目的效果。这种变异并非完全随机:该节目很可能更早在大都市等大型市场推出,因此存在”\(SesameStreetTiming \leftarrow Urban \rightarrow Outcome\)“的后门路径。但只要我们能通过控制某些变量关闭这条后门路径,研究依然有效。其原理与控制变量识别处理效应相同——关键在于我们选择的变量具有更易控制的后门路径。
自然实验更具”自然性”。研究对象往往意识不到自己参与了实验(事实上,包括研究者在内的所有人,可能直到实验结束很久后才意识到发生过实验)。因此获得的数据通常更具现实性:样本规模往往更大,且由于不需要志愿者参与,样本不会局限于特定志愿人群。
正如在实验中一样,我们只分离出由自然随机性驱动的处理变异,而排除了其他原因导致的处理变化。因此我们观测到的效应仅存在于对自然随机性敏感的群体中——如果其他群体存在不同效应,我们将无法观测。有些父母无论《芝麻街》是否播出都不会让孩子观看,或许该节目对这些孩子的效果比实际观看的孩子更好。但通过自然实验我们永远无法获知这点!10
人们相信纯粹随机化的外生性。但要让人相信你那个不完美的外生变异源在数据生成过程中具有外生性(考虑到社会科学中万物互联的特性),可能强人所难。《芝麻街》播出时间到结果变量之间真的只有一条后门路径吗?
这最后一点差异至关重要——对某些研究者而言,除非是那些最纯粹、最干净的自然实验,否则他们根本不愿采用这种方法。这种研究方式真的有效吗?我们将通过几个具体案例研究,看看它们究竟能得出多大程度的结论。
在我们的首项研究中,让我们延伸已知的彩票研究领域。Scott Hankins、Mark Hoekstra和Paige Skiba于2011年发表了一项关于彩票中奖对后续申请破产影响的研究11。具体而言,他们考察了佛罗里达州彩票,并且仅纳入了那些曾赢得过彩票奖金的人群。
library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr 1.1.4 ✔ readr 2.1.5
## ✔ forcats 1.0.0 ✔ stringr 1.5.1
## ✔ ggplot2 3.5.1 ✔ tibble 3.2.1
## ✔ lubridate 1.9.4 ✔ tidyr 1.3.1
## ✔ purrr 1.0.4
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(vtable)
## Loading required package: kableExtra
##
## Attaching package: 'kableExtra'
##
## The following object is masked from 'package:dplyr':
##
## group_rows
library(Cairo)
library(extrafont)
## Registering fonts with R
library(directlabels)
library(ggpubr)
library(conflicted)
library(dplyr)
研究者仅分析中奖者而非所有人,旨在消除最初因购彩人群类型差异带来的变异。当样本中的每个人都参与彩票购买时,你就已经控制了”购彩人群特征”相关的变量。
在这组中奖者中,赢得大奖应该是完全随机的。研究者随后将赢得大奖(5万至15万美元)的人群与赢得小奖(不足1万美元)的人群进行对比。研究发现:赢得大奖最初能降低破产申请概率,但一段时间后这种效果消失——奖金只是推迟了破产时间,而非真正降低破产风险。\(图9.4\)显示:小额中奖者(虚线)在中奖前后的破产率基本持平,这符合常理;而大额中奖者(实线)在中奖后头几年破产率确实下降,但三年后却反弹回升,最终与小额中奖者趋于一致。总体而言,奖金仅将破产时间从未来\(1-2\)年推迟到了第\(3\)年。
# Lottery study
lottery <- read_csv(
'FindingFrontDoors/lottery_data.csv',
show_col_types = FALSE,
col_names = c('Years from Winning','Probability of Bankruptcy')
) %>%
dplyr::mutate(
group = c(rep('Large Amount\n($50-$150,000)',10),rep('Small Amount\n(< $10,000)',10))
) %>%
dplyr::mutate(`Years from Winning` = round(`Years from Winning`))
ggplot(lottery, aes(x = `Years from Winning`, y = `Probability of Bankruptcy`, linetype = group, shape = group)) +
geom_line(linewidth = 1) +
geom_point(size = 1) +
scale_shape_manual(values = c(15,16)) +
labs(y='Prob. of Bankruptcy Relative to Annual Average')+
geom_vline(aes(xintercept = 0)) +
theme_pubr() +
theme(text = element_text(size=10, family="sans"),
axis.title.x = element_text(size=10, family="sans"),
axis.title.y = element_text(size=10, family= "sans"),
panel.grid.major.y = element_line(size = 1)) +
guides(linetype=FALSE, shape=FALSE) +
annotate(geom = 'text', x = 2.5, y = .006, hjust = 1, label = 'Large Amount\n($50-$150,000)', family = 'sans', size = 10/.pt) +
annotate(geom = 'text', x = 1,5, y = .0025, hjust = .5, label = 'Small Amount\n(< $10,000)', family = 'sans', size = 10/.pt)
## Warning: The `size` argument of `element_line()` is deprecated as of ggplot2 3.4.0.
## ℹ Please use the `linewidth` argument instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
## Warning: The `<scale>` argument of `guides()` cannot be `FALSE`. Use "none" instead as
## of ggplot2 3.3.4.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
## Warning in annotate(geom = "text", x = 1, 5, y = 0.0025, hjust = 0.5, label =
## "Small Amount\n(< $10,000)", : Ignoring unknown aesthetics: xmin
ggsave('FindingFrontDoors/lottery.pdf', width = 7, height = 5, units = 'in', device = cairo_pdf)
这个研究要成立需要满足什么条件?最关键的是中奖必须完全随机。为此研究者做了多项验证:他们检查了中奖概率是否与任何观测特征相关(比如中奖者居住地特征),结果毫无关联——这令人放心。但发现一个潜在问题:佛罗里达彩票规则随时间变化会影响小额奖项的中奖人数。如果破产率也随时间变化,就会形成”\(中奖 \leftarrow 时间 \rightarrow 破产\)“的后门路径。因此他们在模型中控制了获奖年份以消除这个干扰。
研究结论相当可靠12!很难想象彩票中奖与破产之间存在除中奖本身外的其他关联机制。当然,这些结论仅适用于彩票购买人群——但至少对佛罗里达州的这个群体而言,长期来看,赢得大奖并未降低破产概率。
当现实世界提供真正的随机分配时,我们就能获得令人信服的研究设计。现在让我们推进到外生变异源不那么明确的研究案例:风力。Pan He和Cheng Xu研究了空气污染加剧是否会促使人们更多驾车出行13。这个研究问题合乎逻辑——如果室外雾霾严重令人不适,人们自然会减少步行、骑行甚至公交出行。但问题在于:汽车本身就会造成污染。如果污染又导致更多汽车使用这种恶性循环显然不会带来好结果。
He和Xu选取污染严重的北京作为研究区域。他们发现:在污染更严重的日子,人们确实会更多驾车出行。但污染本身与工厂运行等众多因素相关,这些因素同样可能影响驾车行为——后门路径无处不在!研究者最终找到风力方向这个外生污染变异源:当西风将污染物吹入北京城区时,通过分离仅由风向驱动的污染变异,他们发现当每日污染程度从”未污染”升级为”污染”时,驾车量会增加3%。
风向是否真正外生?确实很难想象驾车行为或污染会导致风向改变14。但潜在后门路径仍然可能存在:例如风向会随季节变化,而季节因素必然与污染和驾车行为相关。天气状况也很可能与所有这些变量存在关联。具体因果结构可参见\(图9.5\)。
Figure 9.5: The Effect of Pollution on Driving in Beijing
只要我们能控制季节和天气变量(研究者确实做到了),这个研究设计就应该成立。但问题在于:我们真的确定找出了所有后门路径吗?是否遗漏了关键因素?任何重要变量的遗漏都会导致研究失效。
笔者认为风向作为工具变量颇具说服力,但确实不如彩票研究那样确凿无误。需要强调的是:通过控制变量关闭后门路径来识别\(X\)对\(Y\)的影响效应,其方法论困境在此同样存在。我们只是希望能找到一个比\(X\)更容易阻断后门路径的变量。
我们能在多大程度上偏离真正的随机化?这完全取决于我们愿意接受多少假设——以及能在多大程度上持续贯彻这些假设。
以\(Camilleri\)和\(Diebold(2019)\)的研究为例15:他们考察了无偿医疗服务(医院最终未获偿付的诊疗服务)对患者体验的影响。可以想见,若医院将大量资源用于无法获得补偿的医疗服务,其用于提升患者体验的可用资源必然减少16。医院提供的无偿医疗规模与诸多后门变量相关:收治患者类型及其支付能力、医院特色诊疗项目等因素均可能产生影响。\(Camilleri\)和\(Diebold(2019)\)需要寻找外生变异源——他们最终采用\(2014年医疗补助计划扩展政策\)作为工具变量。该政策仅在部分州推行,显著提高了参与州的医疗保险覆盖率。保障范围的扩大意味着医院能获得更多偿付。通过这一外生变异源,研究者发现:无偿医疗服务的减少确实改善了患者体验,但效果较为有限。
这个外生变异源是否有效?我们显然能设想出若干后门路径——毕竟各州并非随机决定是否扩展医疗补助计划,该选择具有高度政治性。不同政体类型的州采纳扩展政策的可能性存在显著差异。研究者通过控制州和地方特征来阻断这些后门路径。
当然,该政策影响的远不止医院偿付状况。医疗补助计划的扩展(即保险覆盖范围的扩大)本就会改变医疗体系的诸多方面,这些变化同样可能影响患者体验。我们必须假设政策扩展仅通过改善医院偿付这一单一渠道产生影响,才能将由此驱动的偿付变异视为真正的外生变量17。
那么这项研究成立吗?当然!只要我们能接受”医疗补助扩展仅通过医院偿付渠道产生影响”这一假设的合理性。若无法接受该假设,研究结论自然无效18。许多研究都采用类似的政策实施作为外生变异源。这确实是可行路径,但必须审慎思考:我们对数据生成过程做了哪些假设?这些假设是否成立?
正如通过阻断后门路径识别处理效应始终可行一样,分离前门路径也总是可能的——即便我们缺乏随机实验或彩票研究中的纯粹随机变异。但偏离纯粹随机化越远,需要控制的变量就越多,所需假设也越强(甚至可能越发难以置信)。这并非万能公式:我们不过是将”为处理变量寻找并阻断所有后门”的难题,替换成了”为其他变量寻找并阻断所有后门”的新难题。
然而,我们还有另一种通过分离前门路径来识别处理效应的方法——恰如其名地称为”前门准则”。这种方法与本章迄今讨论的所有概念都截然不同,在实际研究中应用极少,只能作为本章的一个小小尾声。
这个名称看似重要的”前门准则”被安排在章节末尾的原因在于:它仅适用于特殊情境。长期以来,应用研究者甚至未曾将其视为可行研究设计。即便如今理论上已知晓该方法,实践者仍在苦思何时能真正运用。因此我们将简要讨论——说不定您能构想出其应用场景呢?
当前门路径方法适用时,其因果图应如\(图9.6\)所示——当存在无法阻断的干扰路径时(例如图中变量\(W\)不可观测的情况),该方法便能发挥作用。
在\(图9.6\)中,若\(W\)不可观测,我们便无法通过控制变量来识别处理对结果的影响。但或许可以识别其他效应:比如\(Treatment\)对\(M\)的影响?这是可识别的——唯一后门路径”\(Treatment \leftarrow W \rightarrow Outcome \leftarrow M\)“中,\(Outcome\)作为碰撞变量已自动阻断了该路径,无需额外控制。
还能识别什么?比如\(M\)对\(Outcome\)的影响?此时唯一后门路径”\(M \space \leftarrow Treatment \leftarrow W \rightarrow Outcome\)“可通过控制\(Treatment\)来阻断。
因此,我们既能识别”\(Treatment \rightarrow M\)“的效应,也能识别”\(M \rightarrow Outcome\)“的效应。只需将这两个效应结合,就能得到”\(Treatment \rightarrow M \rightarrow Outcome\)“的完整因果路径。
前门准则的经典案例当属吸烟研究19:要确定吸烟对癌症发生率的影响非常困难,因为吸烟行为与诸多因素相关(家庭背景、收入水平、健康意识等),这些既难以测量又会影响癌症发生率。这就形成了大量无法阻断的后门路径。
但如果在吸烟与癌症之间存在可观测的中介变量——比如某种可测量的致癌机制呢?假设这个变量是”肺部焦油沉积量\(TarInLungs\)“。在这个简化模型中,吸烟致癌的唯一途径是:\(吸烟 \rightarrow 肺部焦油沉淀 \rightarrow 癌症\)。其因果结构如\(图9.7\)所示20。
基于该模型,假设我们观测到吸烟量与肺部焦油沉积量之间的原始相关性:每日多吸\(1\)支烟,\(10\)年间肺部将额外沉积\(15\)克焦油。随后,在控制吸烟量的情况下,我们观测肺部焦油沉积量与癌症发生率的关系:每增加\(15\)克肺部焦油沉积,终生患癌概率上升\(2\%\)。
由此可得:每日多吸\(1\)支烟→肺部焦油增加\(15\)克→患癌概率相应提升\(2\%\)。因此,每日额外吸\(1\)支烟将使终生患癌风险提高\(2\)个百分点。
这就是前门准则!为何它应用不广?主因在于:该方法要求存在像\(M\)或”肺部焦油沉积量”这样的变量——必须完全位于\(Treatment\)与\(Outcome\)之间(且不与其他变量相连),同时能解释\(Treatment\)影响\(Outcome\)的主要机制。这些严苛条件极大限制了其适用性。更糟的是,现实研究中鲜少能满足这些条件。不过话说回来,或许您能突破这个困境呢。
正因如此,我们不难发现许多研究者对”通过控制变量封闭干扰路径”得出的因果结论持怀疑态度——经济学领域尤其如此。这些学者往往更倾向于采用本章所述(本书后半部将深入探讨)的研究设计方法。↩︎
当然,你可能也会认为彩票财富的效应可能不同于整体财富效应。你的想法是正确的——这种分析只能得出彩票财富的效应,而非你真正关注的整体财富效应。从技术上讲,这种分析提供的是”局部平均处理效应”(local average treatment effect),我们将在第10章进一步讨论这个概念。↩︎
事实果真如此吗?随机实验与使用观察数据的研究相比各有优劣。显然,随机实验的因果识别更为简单且可信。但另一方面,人们在参与实验时的行为可能与其日常表现不同。或者招募受试者的实际限制可能导致实验样本难以很好地代表更广泛的人群。此外,实验样本量往往较小。这些问题都没有简单的答案。↩︎
Julia Chabrier, Sarah Cohodes, and Philip Oreopoulos.
What can we learn from charter school lotteries? Journal of Economic
Perspectives, 30(3):57–84, 2016.
↩︎
这就是大多数人想到实验时所理解的——你只使用实验中得到的数据。↩︎
这就是工具变量法,我们将在第19章进行更详细的探讨。本书第二部分介绍的其他方法都是基于这个思路的变体应用。↩︎
为了解释所有这些因素,我们就必须在因果图中额外添加一些节点,比如”选择参与抽签”(ChoosesToEnterLottery)↩︎
至少大多数特许学校并非如此。↩︎
真正的随机化显然满足这一条件——除了通过影响你是否接受处理外,随机化过程不可能以其他方式影响结果变量。因此它是外生的(在数据生成过程中不受其他任何因素影响),且随机化与结果之间的任何关联必然是通过处理本身产生的。↩︎
该问题将在第10章进一步探讨。↩︎
Scott Hankins, Mark Hoekstra, and Paige Marta Skiba.
The ticket to easy street? The financial consequences of winning the
lottery. Review of Economics and Statistics,93(3):961–969, 2011.
↩︎
至少在研究设计层面如此。图9.4显示的大奖得主数据中,有个细节值得注意:他们在获奖前的破产率本就存在明显波动。这可能是因为大奖得主样本量不足导致的统计噪声问题。↩︎
Cheng Xu. Essays on Urban and Environmental Economics.
PhD thesis, The George Washington University, 2019
↩︎
说实话,我完全不确定是什么决定了风向。这个问题或许该去请教气象学家。↩︎
Susan Camilleri and Jeffrey Diebold. Hospital uncompensated care and patient experience: An instrumental variable approach. Health Services Research, 54
(3):603–612, 2019.
↩︎
该研究基于美国医疗体系背景——患者通常需要自付医疗费用,而当其无力支付时,医院往往需要承担这部分费用。↩︎
需特别注意:此处讨论的是医疗补助扩展政策的前门路径。若研究目标为政策本身效应,这些路径应当保留。但由于我们试图通过政策扩展来分离”无后门路径”的无偿医疗服务部分,这些通路反而会成为干扰研究设计的干扰因素。↩︎
这一原则适用于所有研究——因为所有研究都依赖假设。问题不在于某些研究存在假设而其他研究没有,而在于基于我们对现实世界的认知,可能更愿意接受某项研究的假设条件。↩︎
Judea Pearl and Dana Mackenzie. The Book of Why: The
New Science of Cause and Effect. Basic Books, New York City, New York,
2018.
↩︎
虽然存在多个”中介变量”在理论上是可行的,但正如Bellemare和Bloem(2019)的研究所示,这种情况会导致分析复杂度显著提升。Marc
F Bellemare and Jeffrey R Bloem. The paper of how: Estimating treatment
effects using the front-door criterion. Technical report, Working Paper,
2019.
↩︎