提出问题易如反掌——随便问个五岁孩童,都能给你列出一箩筐。但构思一个优质的研究问题,却是难上加难。
二者的本质区别何在?就定量实证研究而言,关键在于:研究问题必须具有可答性,且其答案能深化人们对世界运行规律的认识。
这两个标准略显抽象,我们逐一解析:
何谓”问题具有可答性”?即世界上存在某种证据集合,若能获取该证据,问题就能获得可信答案。例如,“哪部007电影最精彩?”本质上无解1——无论搜集多少证据,“最精彩”的定义都过于模糊,甚至无法构想能终结争论的决定性证据。即便全球民众一致认定《太空城》最佳,此问题依然悬而未决。
而”哪个时期的007电影票房最高?“则完全可解——只需核查票房数据峰值时段即可。这类问题能通过实证证据获得明确答案。
至此我们获得了可解答的问题——但它能否深化我们对世界运行规律的认识?这意味着研究问题的答案应揭示超越个案的普遍原理,以某种方式贡献于理论构建。此处的”理论”不必如引力理论或进化论般宏大,甚至可以像”面包价格逐年上涨导致今日面包比去年贵”这般平实。理论的核心在于揭示”为何”与”因为”的因果关系——即便氢气也是理论:水的特定性质源于氢原子特定结构与行为模式。
以细菌理论为例:该理论认为细菌、病毒等微生物会导致疾病。这不仅解释了疾病成因,也阐明了人际传播机制。我们称其为”理论”并非因其真实性存疑2,而是因其揭示了现象背后的因果机制。
优质的研究问题能引导我们从理论走向假设——所谓假设,即关于现实世界观测结果的特定命题,例如”勤洗手者患病率更低”。换言之,研究问题的答案应能完善现有的因果解释。换个角度说,当我们发现”X结果”时,需思考:这一发现对政策制定有何启示?是否会改变我对世界运行方式的认知?杰出的研究问题往往直接源于理论本身,其思维逻辑是:既然这是我对世界的解释,那么现实中应观测到哪些现象?实际观测结果又如何?
这个关键点极易被忽视!让我们继续以细菌理论为例:研究者可能长期思考该理论后突发奇想——“最小微生物的尺寸是多少?”这确实是个可通过实证解答的问题,也与细菌理论相关,答案或许颇具趣味。然而,该问题的答案无助于深化我们对疾病成因或传播机制的理解3。它或许能促进其他理论的发展——若如此,这个”最小微生物”问题对彼理论而言,就比细菌理论更具研究价值4。
那么,“哪个时期的007电影票房最高”这一问题能否深化我们对世界运行规律的理解?或许能——但需匹配相应理论。比如,若存在”动作片在1980年代普遍最受欢迎”的理论,研究007系列票房变迁便能验证该理论对票房现象的解释效力。
让我们通过一个完整案例来演示:假设存在”成人接触影视等被动娱乐会损害好奇心”的理论。无论该理论真伪,它都符合理论标准——能解释成人好奇心水平的差异现象。
由此自然衍生出一个研究问题:“童年时期大量看电视会削弱成年后的好奇心吗?”
让我们检验研究问题的两个标准:该问题是否具备可答性?当然!虽然所需数据可能难以获取,但我们至少能构想其存在——若将儿童随机分组接受不同强度的电视暴露,追踪至成年期测量其好奇心水平,就能为该研究问题提供极具说服力的证据5。
其次,该研究问题能否揭示世界运行规律?当然可以!若能解答此问题,将直接验证我们的理论。假设研究结论是”童年大量看电视不会削弱成年后的好奇心”,那么用被动娱乐解释成人好奇心差异的理论就难以成立。可见,研究问题确实能帮助我们评估理论的解释效力。
检验研究问题是否贡献理论的妙法是:设想一个意外结果,观察其是否会改变你对世界的认知。例如,若将原问题替换为”常看《芝麻街》的儿童日后好奇心水平是否更低?“,研究却发现这些孩子好奇心更强!此时我们不得不反思原有理论:或许《芝麻街》不同于普通电视节目,又或者本就是好奇心强的孩子更爱看《芝麻街》——这恰恰证明了优质研究问题应能推动理论修正。
这种遭遇反证却仍能固守原理论的情况,恰恰说明研究问题的质量欠佳(至少对该理论而言)6。优质的研究问题,其答案应具有抗辩性——不会因结论”不便”就被轻易推翻。
至此我们确认:“童年时期大量看电视会削弱成年后的好奇心吗?”是一个优质研究问题——只要获取恰当数据即可解答,且其答案能深化我们对世界的认知。当然,实际解答过程另需跨越诸多障碍7。但至少可以确定:即便答案难寻,问题本身的构建已然成立。
这看似费时费力——在数据唾手可得、甚至泛滥成灾的今天,何必大费周章地从理论推导研究问题?何不直接挖掘数据中的规律?
确实可以——事实上很多人正是这么做的。这种方法称为”数据挖掘”,实践者不乏高手:他们深入数据海洋,探寻规律,然后呈现发现。此类研究在数据科学领域尤为常见8,但其实任何拥有数据的领域都能进行数据挖掘:只需观察数据内在模式,然后逆向推导即可。
听起来很美好不是吗?但数据挖掘虽有其优势,却也存在显著局限。
数据挖掘擅长发现规律及在稳定条件下进行预测9,但其短板在于难以促进认知深化——即无法有效完善理论。若不谨慎操作,还易产生假阳性结果。
发现规律与进行预测极具价值——我们确实需要依赖数据挖掘完成这些任务。毕竟,我们无法为数据中所有潜在模式建立理论假设并逐一验证。此时,关注”是什么”而非”为什么”才是恰当的研究视角。更何况,数据模式的发现往往能启发新的研究问题,推动后续多源数据验证。
当我们不关心”为什么”时,数据挖掘无疑是最佳选择!例如预测股市涨跌——若仅需知道买卖时机而不究其原因,数据挖掘便是理想工具。
但在这些领域之外呢?为何数据挖掘难以助力理论发展?主要原因有以下几点:
根本原因在于:数据挖掘的本质决定了它只关注数据”是什么”,而非”为什么”。换言之,它擅长揭示相关性——即观测变量在历史数据中的共变模式——但这些相关性可能与因果关系相去甚远,更无法解释变量为何协同变化。
以本书将反复引用的案例为例:数据挖掘可能发现”穿短裤人口比例”能极佳预测冰淇淋销量。但穿短裤并非购买冰淇淋的原因——二者都是天气炎热的结果。然而对数据挖掘而言,短裤与冰淇淋的关联性已足够诱人!毕竟即便缺乏因果解释,短裤仍是预测冰淇淋消费的绝佳指标。
然而,若我们真正感兴趣的是解释冰淇淋消费动机(而非预测销量),便可能编造理论来”证明”穿短裤导致冰淇淋消费。在短裤与冰淇淋的案例中,这种推论显然荒谬——但当我们面对未知领域时,往往难以预判哪些推论站得住脚,哪些纯属无稽之谈。
以儿童攻击性行为研究为例:数据挖掘可能筛查儿童的所有行为及环境暴露因素,寻找与攻击性水平的关联。假设发现”常玩电子游戏的儿童更具攻击性”,但游戏是否为其诱因?数据挖掘能识别相关性,却无力解释因果机制10。但愿在研究者阐明这一区别前,不会有人贸然禁止所有电子游戏。
另一重原因在于:数据挖掘因过度依赖数据,而难以处理抽象概念。以椅子为例——你如何判定某物是椅子?通常依据腿足、靠背、平坦坐面等特征,以及”可供离地就坐”的核心功能。这便是”椅子理论”:我们认为存在一类具有特定属性的物体,其共同本质是提供离地坐具。你眼前这把椅子,就是该理论的具体实例11。
但数据中实际存在什么?根本没有”椅子”这个概念——只有”平面部件”及其下方的”垂直部件”。数据挖掘能出色地发现”平面+垂直”的组合规律,却无法帮我们构建”椅子理论”,因为它会忽视这种组合的根本目的——提供就坐功能。数据挖掘者永远猜不到,四腿椅子与豆袋椅(毫无垂直部件)竟同属坐具范畴。
假阳性是数据挖掘的另一大风险。再以电子游戏与攻击性为例:即便游戏未必导致攻击行为,但既已发现相关性,研究者难免推测其中存在某种关联。
答案可能为是,亦可能为否。数据挖掘的本质是在海量数据中搜寻关联——若检测上百个变量与攻击性的关系,仅凭随机概率就会有某些变量看似相关。这种随机关联在新样本中难以复现,恰是”假阳性”的特征所在。
这正是缺乏严谨研究问题引导的重大风险:若无严格约束,研究者难免陷入”穷举检验”的陷阱——检测指标越多,随机相关性出现的概率就越高。此时,唯有恪守学术操守的研究者才能避免将偶然发现的第100个关联强行解释为理论证据。
数据挖掘中确有规避假阳性的方法——数据科学领域对此高度重视,并开发了大量应对工具12。但若仅漫无目的地筛查数据,终将陷入真假阳性混杂的困境,且无从辨别。
当然,数据挖掘并非全无价值——人类无法穷尽所有待验证的理论。许多理论恰恰源于数据中的意外发现:研究者观察到某种模式,进而探究其成因及真实性。
以”伟哥”为例:该药物最初作为降压药进行临床试验时,研究者”意外”发现了其…特殊疗效。
这正是数据挖掘的典型应用——研究者未预设理论,而是从数据中发现有趣模式。但关键在于:负责任的研究者不会轻信表面模式,而是通过多源数据验证其可复现性,最终确认该模式真实反映药物作用机制。
数据挖掘本身无罪,问题在于将其作为解释世界的终极手段。它可以是理论灵感的源泉,甚至可能像伟哥那样带来巨额收益——前提是遵循科学验证流程。
研究问题可源自多方,但核心动力永远是求知欲——我们渴望理解世界运行规律,问题便自然涌现。
这个过程包含两个步骤:进行理论思考和提出研究问题。这两个步骤的先后顺序可以随意安排。
也许这一切始于理论:“我认为世界就是这样运转的”或者“我想知道世界是否是这样运转的” —— 这就是你的理论。这可以是任何事情,从“我认为人们之所以做出那样的决策是因为他们会遵循激励机制”到“我认为植物不吃东西也能存活是因为它们从太阳那里收集能量”,再到“我认为 CD 的销量下降是因为现在人们都选择在线流媒体音乐了”。
有了理论之后,接下来就是提出我们的假设:“如果世界是这样运转的,那么我期望在现实世界中看到什么呢?”我们上面提到的那些理论可能会引出诸如“如果你为学生的好成绩付钱,他们会在学校更努力学习吗?”“如果你把植物放在黑暗的房间里,它们会死亡吗?”或者“在网络连接不好的地区,CD现在更受欢迎吗?”这样的研究问题。这些研究问题为我们指明了一个待检验的假设,而该检验的结果能让我们对相关理论有所了解。
问题可能会率先出现。我们可能会问:“如果你为学生的好成绩付钱,他们会在学校更努力学习吗?”然后,我们可能会琢磨自己最初为什么会想出这样一个主意。这可能是因为我们认为学生对激励措施会有所反应。或者我们可能会思考,如果我们回答了这个问题,我们能从中得出什么意义,这又会让我们回到我们的理论上。如果你搞不清楚自己为什么要问这个问题,那它可能就不是一个好的研究问题。或者至少,一旦你得到了答案,你会很难让任何人关心这个答案。
说实话,有时候研究问题也源于“机会”。
有一个规整的数据集吗?想想你能获取到哪些数据,以及你脑海中是否浮现出任何相关的研究问题或理论。
在理解数据内容之后,但在实际分析数据之前尝试做这件事,除非你的目标是数据挖掘。
或者,也许你了解到了世界上发生的一些不寻常或有趣的事情。也许你得知有几个学区决定尝试为成绩优秀的学生支付报酬。当你听到这样的事情时,你可能会问“这能让我回答哪些研究问题呢?” 从这开始,你就有了一个研究问题,进而就能形成一个理论!
你已经遵循了这个流程。你心中有了一个研究问题。你知道这个问题可以用数据来解答,而且你很确定,如果你得到了这个问题的答案,它将有助于你了解世界是如何运转的。
但这真的是个好问题吗?在你深入这个过程之前,有几件事需要核查一下:
考虑可能的结果:一种反复核查你的研究问题与理论之间关系的好方法是考虑你可能得到的答案 。然后,设想你会如何理解这个结果,或者会得出什么样的结论。假设你发现,学生在因成绩优异而获得报酬时,确实会在学校更努力地学习。这能告诉我们学生对激励措施的反应是怎样的呢?再假设你发现,学生在获得报酬时并不会更努力地学习。那这又能告诉我们学生对激励措施的反应是怎样的呢?如果你无法就可能的结果说出一些有价值的观点,这可能意味着你的研究问题和理论之间的联系并不像你认为的那样紧密!假设我们确实发现,碰巧玩电子游戏的孩子更具攻击性。我们能根据这一结果宣称电子游戏是导致攻击性的原因吗?实际上不能,原因我们之前已经讨论过。所以,也许那个研究问题与理论的关联性真的不太好。
考虑可行性:一个研究问题应该是一个在有合适数据的情况下能够得到解答的问题。但 合适的数据是否可得 呢?如果回答你的研究问题是可行的 ,但需要对数百万人进行长达数十年的反复跟踪,或者试图去测量一些很难精确测量的东西,比如让人们回忆三年前午餐吃了什么,又或者获取数千个不愿意配合的人的私人财务信息,那么这个研究问题可能并不可行。虽然有时你可以通过巧妙的设计来解决这些问题,但你可能还是要考虑重新拟定研究问题。
考虑研究规模:为了回答研究问题,你能投入何种资源和时间?如果有一生的精力和大量资源,你或许能够处理像“是什么导致一些国家富裕而另一些国家贫穷”这样宏大的问题。但要是受限于一篇学期论文,你虽然可以大胆尝试探讨这个问题,但回答复杂度低得多的问题可能会完成得更加透彻。
考虑研究设计:一个研究问题本身可能很棒,但如果没有答案,它的趣味性就会大打折扣。因此,评估一个研究问题是否可行的一个重要部分,就是要弄清楚是否有合理的研究设计可以用来回答这个问题。确定是否有合理的研究设计是本书其余部分要讨论的主题。
保持问题简单! 回答任何研究问题都可能很困难。不要贪多嚼不烂,给自己增加不必要的难度!一个常见的错误是把一堆研究问题捆绑成一个。比如“社会流动性的决定因素有哪些”,也就是一个人在一生中如何从一个社会阶层流动到另一个社会阶层。社会流动性的决定因素有 很多。你不太可能很好地回答这个问题。不妨试试“出生地点是否是社会流动性的一个决定因素”。再举个例子,“意大利文艺复兴对绘画媒介产生了怎样的影响”?影响的方式有无数种!你会迷失方向,在一堆细枝末节上表现糟糕,而无法把握整体。不妨试试“那些最快采用绘画透视法的国家有哪些相似特征”。
所以,要考虑可行性、研究规模和研究设计。保持问题简单,同时思考你可能得到的研究结果是否会让你对这个世界有新的有趣发现。毕竟,了解关于世界的新奇有趣之事才是我们的目标!
不过就我个人而言——只看过两部007电影——衷心希望答案别是其中任何一部。↩︎
像细菌理论这类几乎确凿的理论,与”古埃及人靠外星人协助建造金字塔”这类近乎荒诞的理论,在理论属性上并无二致——理论的价值不取决于其正确性,而在于其解释力。↩︎
至少我个人认为如此……毕竟我不是生物学家↩︎
即便某些研究无助于理论发展或认知拓展,纯粹因其趣味性也值得探索——好奇心本身即是正当的研究动机。↩︎
当然在现实研究中,极少有问题能获得终极答案。即便完成上述实验,我们仍会质疑:结果在不同年代、国家或电视暴露时长下是否一致?但关键在于——即便无法得出终极结论,这类研究仍能提供明确指向问题答案的证据。↩︎
这意味着,即便《芝麻街》研究结果支持原理论,我们也不应盲目增加对其的信心度。↩︎
祝你好运能开展这项大规模实验。↩︎
当然数据科学家的价值不仅于此——他们确实收入不菲。严谨而言,他们也会基于理论开展工作。多数数据挖掘工具若运用得当,亦可服务于理论构建——此时便超越了单纯的数据挖掘,但仍属数据科学范畴。↩︎
何谓”稳定条件”?即数据生成过程保持不变。例如投掷六面骰子千次,数据挖掘能准确预测”1”出现的概率为1/6;但若改投二十面骰子,该预测将立即失效——数据挖掘仍会固执地给出1/6的预测,直至获取大量新数据。而概率论则能即刻正确调整为1/20的预测概率。↩︎
若采信该领域更严谨的研究,答案很可能是否定的。↩︎
倘若柏拉图尚在人世,这段论述怕是要气得他当场去世。↩︎
例如”交叉验证”与”训练集/测试集”等方法。若感兴趣,可进一步研读数据科学著作——本书仅浅涉此领域。↩︎