第01章 介绍
本章梳理全书核心脉络,搭建依托机器学习(ML)与计量经济学开展经济、卫生、社科实证研究的理论基础。开篇区分预测与参数估计两类任务,继而介绍机器学习在各领域的落地应用,对比机器学习与计量经济学的定位差异,梳理主流建模框架:统计范式与机器学习范式、参数/非参数方法、预测导向建模与因果导向建模。同时讲解模型筛选思路,引入仿真作为学习与模型校验的工具,上述内容将在全书各章节逐步展开、落地实操。
本章以一则寓言切入,类比不同研究视角的差异化解读: 有一群盲人听闻小镇运来一头陌生异兽,众人从未见过这种生物。几人商量:“我们亲手触摸探查,弄清它的样貌。”于是动身摸索,每个人只摸到了动物身体的一处。
“这生物像一棵树!”摸到象腿的人说道。
“这是一面高墙!”摸到宽厚象身的人说道。
“是一条蟒蛇!”攥住象鼻的人说道。
“一根绳索!”抓住象尾的人说道。
“一把蒲扇!”抚到耳朵的人说道。
“一柄长矛!”摸到象牙的人说道。
所有人描述的都是同一只大象,却都只窥见局部。
这则寓言恰好对应机器学习与计量经济学的研究逻辑:两条研究路径依托数据解释客观规律,只是切入视角不同。计量学界内部同样存在分歧:频率派与贝叶斯、理论导向与实证导向、参数与非参数、宏观与微观、预测研究和因果研究,一众学者立足同一客观问题却各持己见;机器学习领域定义同样多元:计算机研究者眼中的深度强化学习,在计量学者眼里的LASSO只是变量筛选优化版回归。大家各自掌握局部真理,看待问题如同盲人摸象。
抛开字面含义,机器学习并非具备自主认知层面的“智能学习”,本质是依托统计学原理、以数据驱动算法搭建模型,目标提升预测或推断效果。这类模型从线性回归、决策树到神经网络,全部依靠算法参数估计、在现代计算设备上完成运算。
如同孩童反复观摩猫狗样本区分两类动物,有监督学习依托带标注数据集训练输入映射输出的算法;这类模型广泛用于图像滤镜、语音助手、推荐系统。而本书聚焦机器学习在实证研究里的价值:优化估计量、挖掘数据内在结构、完善因果分析。
在经济、卫生社科领域,机器学习越来越多用于因果关系挖掘。预测侧重结果预判,因果推断聚焦政策、干预措施对结果的作用。举例:奖学金项目能否提升毕业率?远程诊疗能否降低再入院率?尽管图像识别、自然语言处理领域已被机器学习彻底革新,本书侧重它在实证数据分析的价值:优化参数估计、刻画异质性、搭建灵活且可解释的模型。
全书围绕实证里的估计与推断难点排布内容,以偏差-方差权衡为核心锚点,统一讲解模型泛化、过拟合、正则化的底层逻辑。
机器学习常规分为四类:
有监督学习:依托标注数据训练(回归、分类为典型)
无监督学习:无标签数据里挖掘规律(聚类、降维)
强化学习:依托持续反馈迭代优化模型
深度学习:多层神经网络搭建模型
上述范式覆盖机器人、基因组学等海量场景,本书重点聚焦有监督学习(回归、分类),顺带介绍聚类、降维等无监督算法。写作主旨:机器学习是计量方法的补充而非替代。全书从基础理论→预测建模→前沿因果推断循序渐进,给读者一套理论扎实、贴合实务的机器学习实证落地框架。
1.1 预测与参数估计
在经济、公共卫生与社科研究中,研究者通常需要识别数据规律、量化变量关联、开展预估研判、测算因果效应。但在机器学习(ML)相关研究里,预测、外推、预报、参数估计几个名词经常被混用;尽管概念存在交集,但各自定义与分析目标存在本质区别。
简单来说:预测依托已有样本数据,对未知或未来样本做可靠泛化推演。相关衍生概念:
外推:在现有数据取值区间之外延伸数据变化规律;
时序预报:依托历史趋势做带时间标签的预判,在宏观经济、金融领域广泛使用。 机器学习范畴下的预测,一般是拟合一套映射函数,实现自变量(特征/协变量)到被解释变量的映射,依托样本外未知数据集评判模型优劣。
与之相对,社科与计量学者聚焦参数估计,尤其在因果研究框架中:参数估计重在量化变量间关联,从抽样数据反推总体层面参数,核心落脚于因果推断。
预测:侧重个体层面结果的精准预判;
参数估计:侧重挖掘、量化变量间内在关联,比如测算某项政策干预的因果作用。
分清二者研究目标是选定实证方法、敲定研究设计的关键。举例:临床医学场景中,精准预判病患预后结果能够辅助诊疗决策;而卫生经济学更关心一项诊疗方案在全人群层面的平均干预效果。
社科领域的预测建模存在特有难点:经济主体、机构会根据预测结果调整自身行为,反过来改变原本待预测的数据规律,卢卡斯批判正式对该逻辑做了规范表述:
自然科学的变量规律在固定环境下往往保持稳定,但社科数据受政策、人群行为变动持续扰动,变量关联不断变化,天然加大预测难度。即便如此,经过严谨校准的预测仍具备实务价值,优质预测往往需要在模型简洁度与灵活拟合能力之间做权衡。
现实场景也直观体现个体预测与总体平均因果估计的落地差异:家长更关心教育政策对自家孩子的影响,而非全体学生平均效果;医生优先关注单名病患个体化预后,而非群体平均干预效应;执法部门依靠个体预测模型调配资源,体现个体层面预测的落地价值。
总而言之,预测与参数估计同为实证研究的基础工具:
机器学习:预测=学习一套在陌生样本上表现优异的映射函数;
计量估计:重在参数识别、因果含义解读。
厘清二者边界,方便研究者依据分析目标匹配对应实证方法。
依托以上概念区分,下文展开介绍机器学习在实务中的两类落地:提升预测精度、跨领域支撑因果推断。
1.2 机器学习在经济与社科领域的应用
机器学习(ML)正持续重塑经济学及相关领域的实证研究。大众普遍将机器学习和预测绑定,但它的价值远不止趋势预判;与计量逻辑结合后,机器学习可以提升数据利用率、优化因果参数估计、挖掘处理效应异质性、支撑精细化政策评估。本节梳理机器学习赋能实证研究的核心方向。
机器学习一大核心优势:从非结构化、非常规数据源中提取结构化变量。依托自然语言处理(NLP)、计算机视觉技术,文本、图像、历史档案均可转化为量化指标,例如情感得分、复杂度指数、分类标签,拓展了人类行为、制度环境、政策场景的量化研究边界。
尽管传统计量的核心优势仍是因果识别,但机器学习从多维度补足传统识别框架:双重机器学习、定向正则化等算法,解决高维数据下的处理效应测算。在工具变量(IV)、双重差分(DID)、断点回归(RD)、合成控制等经典识别范式里,机器学习用于构造反事实、筛选控制变量、提升估计稳健性,这套融合方案同时优化实证可信度与估计精度。
处理效应异质性是政策分析的重点,因果森林等机器学习工具可以识别分组层面的效应差异。例如甄别补贴政策对低收入学生的增益幅度、不同病患群体从诊疗项目中获益的差异化水平,依托结论落地更精准、兼顾公平的政策设计。
劳动与卫生经济学:依托机器学习处理海量行政台账数据,挖掘潜在规律与变量交互作用;
产业组织领域:优化离散选择模型(logit、嵌套logit、动态离散选择),改进需求测算,提升样本外预测精度、完善反事实仿真,助力企业经营与产业政策研判。
金融与宏观经济方向:机器学习用于征信建模、资产定价、宏观指标预测;提升算法、深度学习、灵活时序模型可纳入海量异质特征(政策冲击、事件变量),完成通胀、经济增速、波动率预判;各国央行、金融机构用机器学习开展风险监控、压力测试与货币政策分析。
社科领域:聚类、图算法用于社交网络、舆论传播、政治极化与社会影响力研究;城市与区域经济学依托卫星遥感、交通、住房数据,评估基建落地、区划改革的实际影响;环境经济学结合遥感算法监测植被退化、污染排放、气候脆弱性,支撑落地循证环保政策。
机器学习应用虽覆盖面广,但同样存在局限:黑箱类算法可解释性偏弱,结果易受数据质量、算法固有偏误干扰,在高风险、高社会敏感性课题中该问题尤为突出。因此社科落地机器学习,必须锚定理论根基、依托领域专业知识,坚守建模透明、结果可复现的准则。
总而言之,机器学习拓展了实证研究工具箱:拓展量化维度、精进因果推断、深挖效应异质性。机器学习不会替代经济理论与经典计量,合理使用下二者互补增效。全书搭配卫生、劳动、教育、金融、发展经济的实证案例落地演示,旨在说明如何依托现代机器学习严谨规范地解答政策相关研究问题。同时衍生关键方法论议题:什么场景选用机器学习、什么场景必须依托计量结构化建模,该内容为下一章节重点。
1.3 机器学习与计量经济学:互补的研究定位
机器学习(ML)是高效的数据分析工具,但选用价值由研究目标决定。 面向预测、分类任务时机器学习优势突出:适配大样本数据集、捕捉复杂非线性关联、对新样本泛化能力优异。随机森林、提升算法、神经网络等有监督算法,常用于病程演化、信贷违约、股价等结果预测;聚类、降维等无监督方法能够挖掘数据潜藏结构与分组规律,支撑探索性分析。
但当研究目标为厘清因果逻辑、作用机理、评估政策干预效果时,回归、工具变量(IV)、双重差分(DID)、断点回归(RDD)等传统计量方法更适配。这类建模依托反事实、样本自选择、参数识别等严谨前提假设,而机器学习无法仅凭数据内生生成上述约束。举例:测算某项干预在无政策落地场景下的潜在结果,需要无混杂偏误或有效工具变量等识别假定,无法单纯依靠数据拟合得到。
第二个短板是模型可解释性:大量机器学习属于黑箱模型,难以还原预测生成逻辑。在需要落地政策解读、权责界定的研究场景,仅做预测远远不够,还需要明晰机理;尽管特征重要度、SHAP、可解释人工智能(XAI)改善了解读难度,但依旧达不到计量模型用于假设检验与因果推断的严谨推导标准。
机器学习依托历史样本训练,在金融危机、疫情、自然灾害等前所未见的极端事件中极易失效;小样本下灵活模型极易出现过拟合:模型拟合噪声而非客观规律,训练集表现优异、新样本预测效果极差。正则化通过惩罚模型复杂度抑制过拟合,交叉验证衡量跨子集泛化性能,两类工具落脚于偏差-方差权衡:模型过于简单易欠拟合、遗漏关键规律(高偏差),结构过度复杂则容易过拟合(高方差)。
实证中二者并非二选一,融合使用效果最优。机器学习助力因果推断:高维场景用LASSO筛选控制变量(如双重差分前置变量筛选)、依托因果森林刻画处理效应异质性;预测模型用于特征构造、量化变量重要度;计量提供严谨框架,保障因果结论可信。
全书后续章节将围绕研究目标区分预测与因果的边界,依托双重机器学习、广义随机森林等前沿方法,详解机器学习与因果框架的融合落地;接下来进入实证建模的基础理论体系。
1.4 核心建模分析框架
现代数据分析中,建模不只是技术性运算,更是决定数据信息挖掘路径的策略选择。本章梳理各学科实证研究的核心理论框架:首先对比统计建模与机器学习两套范式,拆解各自研究目标、前提假设与落地特点;再区分参数/非参数模型,辨析预测导向建模与因果导向建模;最后围绕模型筛选,讲解模型复杂度、可解释性、泛化能力的权衡取舍。全书通篇依托仿真演示理论、在已知真实数据生成规律下校验模型表现,既夯实直观认知,也让建模选择对应的理论与实证代价变得清晰直观。
1.4.1 统计范式与机器学习范式
当代实证研究主流分为统计建模、机器学习两大建模体系,二者虽同归“统计学习”大类,但研究导向、方法论、分析目标存在本质区别,厘清差异才能根据解释/预测/兼顾二者的研究目的匹配对应方法。
统计建模:核心落脚统计推断,依托数据生成过程的前提假设搭建模型,理论与领域经验是建模根基。目标挖掘变量间结构性关联,输出可解释参数(处理效应、变量相关系数),完成效应测算、假设检验、可推广结论落地,在经济、公共卫生等重视推断严谨度、结果透明、理论自洽的领域成为主流。
机器学习(ML):以预测为首要目标,依托灵活的数据驱动算法从自变量-因变量样本中学习规律,极少预设函数形式、分布特征。核心是训练映射函数\(\hat{f}(x)\)实现输入到输出的精准映射,以陌生样本的预测精度优化参数,评价标准聚焦样本外损失、交叉验证准确率,在传统模型难以拟合的高维、强非线性场景优势突出。
两类方法均可做预测与推断,但优先级完全不同:统计建模优先可解释性、因果结构;机器学习优先拟合灵活度与预测精度,往往牺牲结果透明度,实证中需要在解释清晰度和预测效果之间权衡取舍。
多数卫生、社科实证沿用推断导向的统计建模:研究者一般不拆分训练/测试集,立足理论设定模型形式,用于假设检验、参数估计,核心识别因果效应、量化参数不确定性;依托随机试验、工具变量、固定效应等识别策略,结合领域知识完成严谨建模。
机器学习对数据生成机制不做预设,不刻意还原真实生成逻辑,目标只抓取数据里的经验规律、实现精准预测/分类;随数据体量与复杂度提升,在噪声数据里挖掘潜藏规律、自动化复杂分析的价值愈发凸显。
两套思路分歧源自学科发展史:统计建模脱胎经典统计与计量,侧重推断、假设检验、结果透明;机器学习源自计算机与工程领域,聚焦优化、可拓展性、算法预测性能。 \(布雷曼(2021)\)在《统计建模的两种流派》正式总结该分歧:
数据建模(传统统计):预设随机生成模型、估计参数、假设检验;
算法建模(机器学习):自变量与因变量关联未知且复杂,不靠预设模型结构,以高预测效果为目标。
该划分深刻影响学界对模型复杂度、泛化、理论价值的研究思路。
当下实证普遍采用融合方案:LASSO、随机森林等机器学习用于变量筛选、异质性挖掘,后续接入结构化统计模型完成因果推断;融合方案兼顾机器学习灵活探索能力与统计模型可解释优势,不片面依附单一范式。
方法选择依托研究问题、数据特征、可解释/预测的权重:常用机器学习探索高维特征、挖掘规律、生成预测,依靠统计模型解读关联、检验假设、测算因果效应。 无需判定方法优劣,吃透各自优劣边界,才能合理选工具、严谨解读结论、落地数据驱动的决策。
简言之,实证建模难点不在预测和解释二选一,而是匹配研究目标定制分析方案;吃透各类框架的假设、优劣,提升研究严谨度与落地价值。 后续小节继续拆解参数/非参数、预测/因果建模,第\(7\)章结合现代实证再次复盘布雷曼双流派理论。
1.4.2 参数模型与非参数模型
参数、非参数是统计与机器学习两大基础建模路径,适用场景、优缺点由研究问题、数据结构、前提假设可信度决定。
参数模型:提前预设变量间函数形式、数据分布,模型由有限个参数刻画,依靠最小二乘、极大似然估计求解,线性回归、logistic、多项式回归是典型。假设成立时参数高效易解释、运算简便;但若真实规律和预设形式不符(如实际非线性却设定线性),会带来参数偏误、推断失效、预测失真。
非参数模型:几乎不对自变量与结果的关联施加结构约束,不靠事前固定函数形式,由数据本身拟合曲线形态,适配真实关系未知、规律复杂的场景;\(k\)近邻、核密度、局部多项式、决策树、斯皮尔曼相关为常用算法,擅长捕捉非线性、交互项,无需变换即可处理有序/分类变量。
从公式看:
参数:预设\(f(x)=\beta_0+\beta_1 x\),用数据反求\(\beta_0,\beta_1\),简洁可解释,但函数设定错误会误导结论;
非参数:不限定\(f\)形式,直接从数据还原\(m(x)=E[Y|X=x]\),比如核回归不强制线性与特定分布。
非参数代价:需要更多样本、算力开销大,调参不当极易过拟合;核方法带宽、KNN近邻数、决策树深度等超参直接管控偏差方差、模型泛化能力,调参失衡要么过度平滑欠拟合,要么紧贴噪声过拟合。
另一痛点:维度灾难,高维下数据极度稀疏、局部估计失真,必须搭配降维、正则、变量筛选使用。
中间路线:半参数模型,结构化参数部分+灵活非参数部分结合,典型如偏线性模型,全书因果章节(尤其双重机器学习异质性分析)反复用到:理论明确的部分固定参数结构,未知部分非参数灵活拟合,兼顾可解释性与非线性适配。
参数对应布雷曼的数据建模思路(重结构、可解释),非参数对应算法建模(重灵活、预测);当下普遍混合使用:非参数做探索/变量筛选,参数模型做推断解释。 第\(7\)章讲解经典参数估计,第\(8\)章讲解无预设结构的条件期望非参数估计,前后串联两套框架的落地融合。
小结:参数、非参数互为补充;参数简洁可控但依赖强假设,非参数灵活少约束但耗样本、慎调参;掌握取舍逻辑是严谨实证的关键。
1.4.3 预测思路与因果思路
预测、因果建模是实证两大底层逻辑,同源观测数据,但待估目标、前提、评价标准、决策含义完全不同,分清边界才能选对方法、合理解读结果。
预测建模:目标估计条件期望\(E[Y|X]\),构造\(\hat{f}(X)\)最小化新样本预测误差,依托均方误差、分类准确率、AUC等样本外指标评价,广泛用于营销、金融、医疗的风险/结果预判。 仅挖掘变量相关关系,不探究内在机理;时序、正则回归、树、集成、神经网络都是常用工具;高维/复杂场景易过拟合(拟合噪声而非真实信号),依靠交叉验证、正则控过拟合、提升泛化。
因果建模:测算干预/暴露的因果作用,依托潜在结果框架,核心指标平均处理效应\(\text{ATE}=E[Y(1)-Y(0)]\),\(Y(1)/Y(0)\)分别代表处理/控制的潜在结果,回答:干预\(X\)后结果\(Y\)会产生多大变动。 识别因果需要严苛假定(无混杂、排他约束、单调性等),依靠随机对照(RCT)、自然实验、工具变量、双重差分、匹配等引入外生波动,优先保障内部有效性,不苛求单点预测精度。
关键区分:预测精准不代表能识别因果,可靠因果模型也可能个体预测效果很差;预测面向未来样本做精度,因果面向反事实做机制测算。 数据使用逻辑不同:预测靠划分训练/测试、交叉验证优化泛化;因果优先筛选近似随机分配的变异,用全样本/精准分组得到稳健处理效应。
前沿方法打通两条路径:因果森林、双重机器学习把机器学习嵌入因果估计,用机器学习拟合倾向得分、结果方程这类冗余扰动项,在合理假定下兼顾灵活拟合与可靠因果推断。
建模选择锚定研究目的:
预判住院率、信贷违约→预测建模;
评估培训项目对收入的政策效果→因果推断; 明确目标是规避方法误用、结论误读的前提。
小结:
预测:最小化\(E[Y|X]\)估计误差,依托样本外表现评判;
因果:量化\(E[Y(1)-Y(0)]\)反事实差值,依靠研究设计、识别假设落地; 全书后续章节细化全部概念。
1.4.4 模型筛选
模型筛选是实证关键环节,直接决定结论精度、可解释性、政策落地价值:选定模型大类、设定结构、挑选估计算法,全程在灵活度-可解释、复杂度-泛化之间权衡。
第一步:选定模型大类(参数/非参数)。比如房价预测:线性预设面积、区位的固定边际效应,树模型自适应划分特征空间、捕捉非线性与交互;选择看假设是否成立、优先可解释还是自适应拟合。
第二步:设定函数形式。线性暗含边际效应恒定(如每多一年教育带来固定收入涨幅),多项式/交互项刻画增减边际收益;在不引发过拟合的前提下拓展模型,依托探索分析与数据生成规律的理论预期设定。
第三步:选定估计方式。参数场景常用普通最小二乘(OLS)、极大似然;高维用LASSO、岭回归正则降复杂度;非参数依靠带宽、近邻数、树深等超参+交叉验证平衡偏差方差。
筛选逻辑绑定研究目标:
预测导向:优先样本外精度,选高拟合上限的灵活算法;
因果导向:优先可解释、贴合识别假设、适配反事实框架,比如教育对健康的效应优选理论导向+审慎变量筛选,住院率预测优选数据驱动机器学习。
筛选不只是技术操作,还要结合领域知识、理论逻辑、场景约束,平衡假设、算力、可读性,贴合研究问题。 第\(11\)章系统讲解模型筛选:交叉验证、样本外误差、模型诊断与系统化对比方案。
1.4.5 仿真的作用
仿真是现代实证基础工具,在解析解难推导、数据生成机制复杂时,用来观测模型表现、量化不确定性、校验估计量性质。
在已知真实数据生成规则下生成仿真样本,对照真值衡量各类模型优劣;用来具象化偏差、方差、过拟合、泛化等核心概念,在可控环境对比不同算法。全书仿真案例用来展现建模选择如何改变预测精度、估计量性质、假设稳健性。
仿真尤其适合有限样本下校验估计表现:蒙特卡洛反复从已知分布抽样,测算偏差、均方误差;直观展示模型复杂度、超参、识别失效带来的影响,后续正则、因果、模型筛选章节反复复用该思路。
依托仿真,已知真值下模型表现可观测,既做模型校验诊断,也辅助理论教学;打通公式理论和直观认知,帮读者看清各类统计工具在不同数据环境里的运行规律。
1.5 本章小结
本章梳理全书核心脉络:机器学习(ML)在实证研究中的定位、预测与参数估计的概念分界、机器学习与计量方法的融合思路、指导实证落地的各类建模框架。同时铺垫全书关键知识点:因果推断、正则化、仿真实验、异质性分析、参数与非参数模型、模型筛选,上述内容将在后续各章节从理论原理到实操落地逐层细化,贯穿理论推导与实务案例。 第\(2\)章将系统化规范统计建模与机器学习两大框架,为全场景实证建模提供标准化分析逻辑。
附注
- 瓦普尼克-切尔沃年基斯理论、计算复杂度、贝叶斯学习等理论在深度学习、理论机器学习领域具备重要价值,但和本书聚焦的数据类型、研究议题关联度偏低,因此不作深入展开。
- 若想要深挖预测与参数估计的内在差异,可参阅三篇文献:布拉德利·埃弗隆\(2020\)年《预测、估计与归因》、加利特·什穆埃利\(2010\)年《解释还是预测?》、泰特洛克与加德纳\(2015\)年《超级预测:预测的艺术与科学》。
- 贝叶斯建模依托概率形式纳入不确定性与先验信息,可整合统计与机器学习两大范式;该类方法实用性突出,但超出本书写作范围。