世界是如何运作的?这是个重大问题,不是吗?而我们对它的答案永远会存在些许不完整。
这种不完备是一种诅咒,但也是一种恩赐。诚然,我们永远无法完美地知晓一切1。但这也意味着,总有等待解答的问题存在。至少对某一类人而言,解答这些问题似乎是度过尘世时光的绝佳方式。或许你正是这类人。我无疑是。
一个研究问题就是你计划通过开展研究来解答或至少尝试解答的问题。就这么简单。或者说,就这么复杂。一个好的研究问题应当界定清晰、具有可答性且易于理解——而这些标准往往难以把握!我们将在第二章进一步探讨这一点。
举个例子,假设我们的研究问题是”增加一条高速公路车道能否缓解交通拥堵?”
这是一个关于世界运行规律的问题。遗憾的是,交通拥堵正是这个世界的组成部分。而通过研究,我们很有可能找到答案!
什么样的研究?设计严谨的研究,必须能够真正解答它试图回答的问题。这看似简单,实则需要大量的思考和努力。
而这才是真正的关键所在。
如何才能确保你的研究方法,最终能真正解答研究问题?
这正是本书要探讨的核心。
当然,“能够解答其所探究问题的研究”这个表述本身可以有多种解读。
研究形式多种多样。你可以查阅文献,了解前人对该问题的见解(“交通专家对增设高速公路车道的影响有何论述?”);也可以通过哲学思辨来推演问题(“假设人们总是追求最短通勤时间,那么他们会如何利用新增的车道?”)。这些都属于研究的不同形式。
本书将聚焦于实证研究,更准确地说,是定量实证研究。
实证研究是指通过系统观察现实世界来解答问题的任何研究形式。因此,与其通过推演来预测司机会如何使用新增车道,我们更倾向于实际观察司机的行车选择。比如,我们可以访谈司机的决策过程;或是获取交通违章大数据集,抑或是分析高速公路的车流量数据。
定量实证研究即采用量化测量(通常为数值)的实证研究,其特点在于:多用数据集,少用访谈法。
定量实证研究如同所有研究一样暗藏玄机:测量难以精确实施,数据不易准确解读,统计学本身更是艰深领域。
定量实证研究中一个尤为棘手的问题在于:我们观测到的数据,往往无法直接揭示真正需要知晓的答案。
毕竟,我们可能希望通过对比双车道和四车道高速公路来研究新增车道的影响。但事实上,我们关注的并非三车道或双车道公路上的具体车流量数据,而是想知道:将双车道扩建为三车道能否真正缓解交通拥堵!然而现实是,现有数据无法直接给出答案——我们只有双车道和三车道公路的独立数据,却无法获得一个”假设性”路况:若当初将某条双车道扩建为三车道,其车流量究竟会发生怎样的变化。
这个难题着实让我们研究者头疼不已——如果现有数据无法直接回答研究问题,我们还能怎么办?
事实上,只要方法得当,我们往往能够通过收集精准数据或进行恰当的数据处理,最终获得问题的真实答案——但这绝非易事。我们必须精心设计能够准确解答研究问题的分析方法。
为什么研究设计如此重要?我们可以通过观察设计不当的后果来理解这一点。
让我们继续以高速公路车流量为例:该如何研究这个问题?最直观的做法可能是直接对比不同车道数高速公路的车流模式——车道较多的路段与车道较少的路段。
这个思路看似合理,但实际分析却发现:车道越多,车流量反而越大!这一反直觉的结果令人惊讶。但细想之下,为何这些路段当初需要扩建?很可能正是因为交通最繁忙的路线才被优先拓宽——如此一来,车道数与车流量正相关也就不足为奇了。当然,新增车道确实可能诱发更多车流2,但唯有通过严谨的研究设计,我们才能识别初步分析的谬误,并找到正确的分析方法。
研究设计不严谨同样会体现在研究结果中。不知你是否注意到,那些关于营养学的新闻报道似乎总是自相矛盾?比如上世纪90年代,高碳水、低脂肪饮食曾被视为健康标准,冻酸奶和贝果都被认为非常有益——如今这些观点全被推翻。每晚一杯红酒究竟有益还是有害?咖啡呢?黄油与人造黄油孰优孰劣?砂糖与玉米糖浆哪个更健康?3事实上,食物本身的健康属性不可能如此频繁变动,变动的只是科学研究的结论!
这种现象部分可归咎于媒体对研究的过度炒作或曲解,但更根本的原因在于:许多营养学研究的设计本身就无法回答”何种食物更健康”这个问题。当不同研究对同一问题给出不同答案时,往往因为它们实际测量的根本不是同一个问题——即便它们声称如此!2加2的答案唯一4,但若你实际计算的是完全不同的算式,结果自然可能是6、1或-52。直到某天醒来,你赫然发现新闻标题写着”科学家证实2+2=-52”。
选择营养学作为典型案例恰如其分——这并非营养学研究者之过,而是该领域的研究设计天然面临特殊挑战5。正因如此,整个学科才充斥着不稳固的研究设计。其后果如何?当研究成果反复无常,公众逐渐学会对其置若罔闻,因为他们深知这些结论可能朝令夕改。
研究设计本就艰难——并非每个问题都存在直截了当的解答方案。但最坏的结果,不过是我们确认了这个难题暂时无解。至少,我们能获得确定的认知。
理想情况下,我们能成功解答研究问题——事实上我们确实做到了——进而荣膺诺贝尔奖。
本书旨在实现以下几个目标:
本书前半部分致力于阐释研究设计的核心原则,具体包括:如何构建可解答的研究问题,进而规划相应的定量实证研究方案——究竟需要测量哪些变量?又该如何确保研究方法能真正解答研究问题?
后半部分将重点介绍基于观测数据的因果研究设计”工具箱”方法(即在无需实验干预的情况下解答因果性问题)。这些方法在现代研究中应用广泛:既能适配多样化的研究问题,其依赖的假设条件也已被充分验证。
期待读者在研读本书后,能够掌握以下核心能力:自主设计研究方案、精准识别所需数据类型,并确定关键的数据分析流程。
量子力学或许是现存最精确的科学领域,其测量和预测的精度可达小数点后十余位。但即便如此,“精确到小数点后十四位”也不等同于”绝对精确”。↩︎
交通研究学者普遍认为:新增车道至少会导致行驶量增加!可参阅Milam等(2017)的研究。↩︎
不知你是否留意到,某些糖果和汽水品牌标榜使用”真糖”,仿佛不用玉米糖浆就摇身变成健康食品?虽然这与我们讨论的主题仅有微弱关联——但说真的,这种营销手法实在令我深恶痛绝。↩︎
当然,这只是基础数学体系下的情况——高等数学可就花样百出了。↩︎
准确测量人们的饮食摄入本就困难重重:既要剥离单一食物与其他膳食成分的交互影响,还需辨析食物本身效应与进食动机的混杂因素——诸如此类的挑战不胜枚举。↩︎