第01章介绍

本章梳理全书核心脉络，搭建依托机器学习（ML）与计量经济学开展经济、卫生、社科实证研究的理论基础。开篇区分预测与参数估计两类任务，继而介绍机器学习在各领域的落地应用，对比机器学习与计量经济学的定位差异，梳理主流建模框架：统计范式与机器学习范式、参数/非参数方法、预测导向建模与因果导向建模。同时讲解模型筛选思路，引入仿真作为学习与模型校验的工具，上述内容将在全书各章节逐步展开、落地实操。

本章以一则寓言切入，类比不同研究视角的差异化解读：有一群盲人听闻小镇运来一头陌生异兽，众人从未见过这种生物。几人商量：“我们亲手触摸探查，弄清它的样貌。”于是动身摸索，每个人只摸到了动物身体的一处。

“这生物像一棵树！”摸到象腿的人说道。

“这是一面高墙！”摸到宽厚象身的人说道。

“是一条蟒蛇！”攥住象鼻的人说道。

“一根绳索！”抓住象尾的人说道。

“一把蒲扇！”抚到耳朵的人说道。

“一柄长矛！”摸到象牙的人说道。

所有人描述的都是同一只大象，却都只窥见局部。

这则寓言恰好对应机器学习与计量经济学的研究逻辑：两条研究路径依托数据解释客观规律，只是切入视角不同。计量学界内部同样存在分歧：频率派与贝叶斯、理论导向与实证导向、参数与非参数、宏观与微观、预测研究和因果研究，一众学者立足同一客观问题却各持己见；机器学习领域定义同样多元：计算机研究者眼中的深度强化学习，在计量学者眼里的LASSO只是变量筛选优化版回归。大家各自掌握局部真理，看待问题如同盲人摸象。

抛开字面含义，机器学习并非具备自主认知层面的“智能学习”，本质是依托统计学原理、以数据驱动算法搭建模型，目标提升预测或推断效果。这类模型从线性回归、决策树到神经网络，全部依靠算法参数估计、在现代计算设备上完成运算。

如同孩童反复观摩猫狗样本区分两类动物，有监督学习依托带标注数据集训练输入映射输出的算法；这类模型广泛用于图像滤镜、语音助手、推荐系统。而本书聚焦机器学习在实证研究里的价值：优化估计量、挖掘数据内在结构、完善因果分析。

在经济、卫生社科领域，机器学习越来越多用于因果关系挖掘。预测侧重结果预判，因果推断聚焦政策、干预措施对结果的作用。举例：奖学金项目能否提升毕业率？远程诊疗能否降低再入院率？尽管图像识别、自然语言处理领域已被机器学习彻底革新，本书侧重它在实证数据分析的价值：优化参数估计、刻画异质性、搭建灵活且可解释的模型。

全书围绕实证里的估计与推断难点排布内容，以偏差-方差权衡为核心锚点，统一讲解模型泛化、过拟合、正则化的底层逻辑。

机器学习常规分为四类：

有监督学习：依托标注数据训练（回归、分类为典型）
无监督学习：无标签数据里挖掘规律（聚类、降维）
强化学习：依托持续反馈迭代优化模型
深度学习：多层神经网络搭建模型

上述范式覆盖机器人、基因组学等海量场景，本书重点聚焦有监督学习（回归、分类），顺带介绍聚类、降维等无监督算法。写作主旨：机器学习是计量方法的补充而非替代。全书从基础理论→预测建模→前沿因果推断循序渐进，给读者一套理论扎实、贴合实务的机器学习实证落地框架。

1.1 预测与参数估计

在经济、公共卫生与社科研究中，研究者通常需要识别数据规律、量化变量关联、开展预估研判、测算因果效应。但在机器学习（ML）相关研究里，预测、外推、预报、参数估计几个名词经常被混用；尽管概念存在交集，但各自定义与分析目标存在本质区别。

简单来说：预测依托已有样本数据，对未知或未来样本做可靠泛化推演。相关衍生概念：

外推：在现有数据取值区间之外延伸数据变化规律；
时序预报：依托历史趋势做带时间标签的预判，在宏观经济、金融领域广泛使用。机器学习范畴下的预测，一般是拟合一套映射函数，实现自变量（特征/协变量）到被解释变量的映射，依托样本外未知数据集评判模型优劣。

与之相对，社科与计量学者聚焦参数估计，尤其在因果研究框架中：参数估计重在量化变量间关联，从抽样数据反推总体层面参数，核心落脚于因果推断。

预测：侧重个体层面结果的精准预判；
参数估计：侧重挖掘、量化变量间内在关联，比如测算某项政策干预的因果作用。

分清二者研究目标是选定实证方法、敲定研究设计的关键。举例：临床医学场景中，精准预判病患预后结果能够辅助诊疗决策；而卫生经济学更关心一项诊疗方案在全人群层面的平均干预效果。

社科领域的预测建模存在特有难点：经济主体、机构会根据预测结果调整自身行为，反过来改变原本待预测的数据规律，卢卡斯批判正式对该逻辑做了规范表述：

计量模型的内核由经济主体最优决策规则构成，而主体最优决策会随相关经济环境系统性变动；因此政策调整会系统性改变原有计量模型的结构。（罗伯特·卢卡斯，\(1976\)）

自然科学的变量规律在固定环境下往往保持稳定，但社科数据受政策、人群行为变动持续扰动，变量关联不断变化，天然加大预测难度。即便如此，经过严谨校准的预测仍具备实务价值，优质预测往往需要在模型简洁度与灵活拟合能力之间做权衡。

现实场景也直观体现个体预测与总体平均因果估计的落地差异：家长更关心教育政策对自家孩子的影响，而非全体学生平均效果；医生优先关注单名病患个体化预后，而非群体平均干预效应；执法部门依靠个体预测模型调配资源，体现个体层面预测的落地价值。

总而言之，预测与参数估计同为实证研究的基础工具：

机器学习：预测=学习一套在陌生样本上表现优异的映射函数；
计量估计：重在参数识别、因果含义解读。

厘清二者边界，方便研究者依据分析目标匹配对应实证方法。

依托以上概念区分，下文展开介绍机器学习在实务中的两类落地：提升预测精度、跨领域支撑因果推断。

1.2 机器学习在经济与社科领域的应用

机器学习（ML）正持续重塑经济学及相关领域的实证研究。大众普遍将机器学习和预测绑定，但它的价值远不止趋势预判；与计量逻辑结合后，机器学习可以提升数据利用率、优化因果参数估计、挖掘处理效应异质性、支撑精细化政策评估。本节梳理机器学习赋能实证研究的核心方向。

机器学习一大核心优势：从非结构化、非常规数据源中提取结构化变量。依托自然语言处理（NLP）、计算机视觉技术，文本、图像、历史档案均可转化为量化指标，例如情感得分、复杂度指数、分类标签，拓展了人类行为、制度环境、政策场景的量化研究边界。

尽管传统计量的核心优势仍是因果识别，但机器学习从多维度补足传统识别框架：双重机器学习、定向正则化等算法，解决高维数据下的处理效应测算。在工具变量（IV）、双重差分（DID）、断点回归（RD）、合成控制等经典识别范式里，机器学习用于构造反事实、筛选控制变量、提升估计稳健性，这套融合方案同时优化实证可信度与估计精度。

处理效应异质性是政策分析的重点，因果森林等机器学习工具可以识别分组层面的效应差异。例如甄别补贴政策对低收入学生的增益幅度、不同病患群体从诊疗项目中获益的差异化水平，依托结论落地更精准、兼顾公平的政策设计。

劳动与卫生经济学：依托机器学习处理海量行政台账数据，挖掘潜在规律与变量交互作用；

产业组织领域：优化离散选择模型（logit、嵌套logit、动态离散选择），改进需求测算，提升样本外预测精度、完善反事实仿真，助力企业经营与产业政策研判。

金融与宏观经济方向：机器学习用于征信建模、资产定价、宏观指标预测；提升算法、深度学习、灵活时序模型可纳入海量异质特征（政策冲击、事件变量），完成通胀、经济增速、波动率预判；各国央行、金融机构用机器学习开展风险监控、压力测试与货币政策分析。

社科领域：聚类、图算法用于社交网络、舆论传播、政治极化与社会影响力研究；城市与区域经济学依托卫星遥感、交通、住房数据，评估基建落地、区划改革的实际影响；环境经济学结合遥感算法监测植被退化、污染排放、气候脆弱性，支撑落地循证环保政策。

机器学习应用虽覆盖面广，但同样存在局限：黑箱类算法可解释性偏弱，结果易受数据质量、算法固有偏误干扰，在高风险、高社会敏感性课题中该问题尤为突出。因此社科落地机器学习，必须锚定理论根基、依托领域专业知识，坚守建模透明、结果可复现的准则。

总而言之，机器学习拓展了实证研究工具箱：拓展量化维度、精进因果推断、深挖效应异质性。机器学习不会替代经济理论与经典计量，合理使用下二者互补增效。全书搭配卫生、劳动、教育、金融、发展经济的实证案例落地演示，旨在说明如何依托现代机器学习严谨规范地解答政策相关研究问题。同时衍生关键方法论议题：什么场景选用机器学习、什么场景必须依托计量结构化建模，该内容为下一章节重点。

1.3 机器学习与计量经济学：互补的研究定位

机器学习（ML）是高效的数据分析工具，但选用价值由研究目标决定。面向预测、分类任务时机器学习优势突出：适配大样本数据集、捕捉复杂非线性关联、对新样本泛化能力优异。随机森林、提升算法、神经网络等有监督算法，常用于病程演化、信贷违约、股价等结果预测；聚类、降维等无监督方法能够挖掘数据潜藏结构与分组规律，支撑探索性分析。

但当研究目标为厘清因果逻辑、作用机理、评估政策干预效果时，回归、工具变量（IV）、双重差分（DID）、断点回归（RDD）等传统计量方法更适配。这类建模依托反事实、样本自选择、参数识别等严谨前提假设，而机器学习无法仅凭数据内生生成上述约束。举例：测算某项干预在无政策落地场景下的潜在结果，需要无混杂偏误或有效工具变量等识别假定，无法单纯依靠数据拟合得到。

第二个短板是模型可解释性：大量机器学习属于黑箱模型，难以还原预测生成逻辑。在需要落地政策解读、权责界定的研究场景，仅做预测远远不够，还需要明晰机理；尽管特征重要度、SHAP、可解释人工智能（XAI）改善了解读难度，但依旧达不到计量模型用于假设检验与因果推断的严谨推导标准。

机器学习依托历史样本训练，在金融危机、疫情、自然灾害等前所未见的极端事件中极易失效；小样本下灵活模型极易出现过拟合：模型拟合噪声而非客观规律，训练集表现优异、新样本预测效果极差。正则化通过惩罚模型复杂度抑制过拟合，交叉验证衡量跨子集泛化性能，两类工具落脚于偏差-方差权衡：模型过于简单易欠拟合、遗漏关键规律（高偏差），结构过度复杂则容易过拟合（高方差）。

实证中二者并非二选一，融合使用效果最优。机器学习助力因果推断：高维场景用LASSO筛选控制变量（如双重差分前置变量筛选）、依托因果森林刻画处理效应异质性；预测模型用于特征构造、量化变量重要度；计量提供严谨框架，保障因果结论可信。

全书后续章节将围绕研究目标区分预测与因果的边界，依托双重机器学习、广义随机森林等前沿方法，详解机器学习与因果框架的融合落地；接下来进入实证建模的基础理论体系。

1.4 核心建模分析框架

现代数据分析中，建模不只是技术性运算，更是决定数据信息挖掘路径的策略选择。本章梳理各学科实证研究的核心理论框架：首先对比统计建模与机器学习两套范式，拆解各自研究目标、前提假设与落地特点；再区分参数/非参数模型，辨析预测导向建模与因果导向建模；最后围绕模型筛选，讲解模型复杂度、可解释性、泛化能力的权衡取舍。全书通篇依托仿真演示理论、在已知真实数据生成规律下校验模型表现，既夯实直观认知，也让建模选择对应的理论与实证代价变得清晰直观。

1.4.1 统计范式与机器学习范式

当代实证研究主流分为统计建模、机器学习两大建模体系，二者虽同归“统计学习”大类，但研究导向、方法论、分析目标存在本质区别，厘清差异才能根据解释/预测/兼顾二者的研究目的匹配对应方法。

统计建模：核心落脚统计推断，依托数据生成过程的前提假设搭建模型，理论与领域经验是建模根基。目标挖掘变量间结构性关联，输出可解释参数（处理效应、变量相关系数），完成效应测算、假设检验、可推广结论落地，在经济、公共卫生等重视推断严谨度、结果透明、理论自洽的领域成为主流。

机器学习（ML）：以预测为首要目标，依托灵活的数据驱动算法从自变量-因变量样本中学习规律，极少预设函数形式、分布特征。核心是训练映射函数\(\hat{f}(x)\)实现输入到输出的精准映射，以陌生样本的预测精度优化参数，评价标准聚焦样本外损失、交叉验证准确率，在传统模型难以拟合的高维、强非线性场景优势突出。

两类方法均可做预测与推断，但优先级完全不同：统计建模优先可解释性、因果结构；机器学习优先拟合灵活度与预测精度，往往牺牲结果透明度，实证中需要在解释清晰度和预测效果之间权衡取舍。

多数卫生、社科实证沿用推断导向的统计建模：研究者一般不拆分训练/测试集，立足理论设定模型形式，用于假设检验、参数估计，核心识别因果效应、量化参数不确定性；依托随机试验、工具变量、固定效应等识别策略，结合领域知识完成严谨建模。

机器学习对数据生成机制不做预设，不刻意还原真实生成逻辑，目标只抓取数据里的经验规律、实现精准预测/分类；随数据体量与复杂度提升，在噪声数据里挖掘潜藏规律、自动化复杂分析的价值愈发凸显。

两套思路分歧源自学科发展史：统计建模脱胎经典统计与计量，侧重推断、假设检验、结果透明；机器学习源自计算机与工程领域，聚焦优化、可拓展性、算法预测性能。 \(布雷曼(2021)\)在《统计建模的两种流派》正式总结该分歧：

数据建模（传统统计）：预设随机生成模型、估计参数、假设检验；
算法建模（机器学习）：自变量与因变量关联未知且复杂，不靠预设模型结构，以高预测效果为目标。

该划分深刻影响学界对模型复杂度、泛化、理论价值的研究思路。

当下实证普遍采用融合方案：LASSO、随机森林等机器学习用于变量筛选、异质性挖掘，后续接入结构化统计模型完成因果推断；融合方案兼顾机器学习灵活探索能力与统计模型可解释优势，不片面依附单一范式。

方法选择依托研究问题、数据特征、可解释/预测的权重：常用机器学习探索高维特征、挖掘规律、生成预测，依靠统计模型解读关联、检验假设、测算因果效应。无需判定方法优劣，吃透各自优劣边界，才能合理选工具、严谨解读结论、落地数据驱动的决策。

简言之，实证建模难点不在预测和解释二选一，而是匹配研究目标定制分析方案；吃透各类框架的假设、优劣，提升研究严谨度与落地价值。后续小节继续拆解参数/非参数、预测/因果建模，第\(7\)章结合现代实证再次复盘布雷曼双流派理论。

1.4.2 参数模型与非参数模型

参数、非参数是统计与机器学习两大基础建模路径，适用场景、优缺点由研究问题、数据结构、前提假设可信度决定。

参数模型：提前预设变量间函数形式、数据分布，模型由有限个参数刻画，依靠最小二乘、极大似然估计求解，线性回归、logistic、多项式回归是典型。假设成立时参数高效易解释、运算简便；但若真实规律和预设形式不符（如实际非线性却设定线性），会带来参数偏误、推断失效、预测失真。

非参数模型：几乎不对自变量与结果的关联施加结构约束，不靠事前固定函数形式，由数据本身拟合曲线形态，适配真实关系未知、规律复杂的场景；\(k\)近邻、核密度、局部多项式、决策树、斯皮尔曼相关为常用算法，擅长捕捉非线性、交互项，无需变换即可处理有序/分类变量。

从公式看：

参数：预设\(f(x)=\beta_0+\beta_1 x\)，用数据反求\(\beta_0,\beta_1\)，简洁可解释，但函数设定错误会误导结论；
非参数：不限定\(f\)形式，直接从数据还原\(m(x)=E[Y|X=x]\)，比如核回归不强制线性与特定分布。

非参数代价：需要更多样本、算力开销大，调参不当极易过拟合；核方法带宽、KNN近邻数、决策树深度等超参直接管控偏差方差、模型泛化能力，调参失衡要么过度平滑欠拟合，要么紧贴噪声过拟合。

另一痛点：维度灾难，高维下数据极度稀疏、局部估计失真，必须搭配降维、正则、变量筛选使用。
中间路线：半参数模型，结构化参数部分+灵活非参数部分结合，典型如偏线性模型，全书因果章节（尤其双重机器学习异质性分析）反复用到：理论明确的部分固定参数结构，未知部分非参数灵活拟合，兼顾可解释性与非线性适配。

参数对应布雷曼的数据建模思路（重结构、可解释），非参数对应算法建模（重灵活、预测）；当下普遍混合使用：非参数做探索/变量筛选，参数模型做推断解释。第\(7\)章讲解经典参数估计，第\(8\)章讲解无预设结构的条件期望非参数估计，前后串联两套框架的落地融合。

小结：参数、非参数互为补充；参数简洁可控但依赖强假设，非参数灵活少约束但耗样本、慎调参；掌握取舍逻辑是严谨实证的关键。

1.4.3 预测思路与因果思路

预测、因果建模是实证两大底层逻辑，同源观测数据，但待估目标、前提、评价标准、决策含义完全不同，分清边界才能选对方法、合理解读结果。

预测建模：目标估计条件期望\(E[Y|X]\)，构造\(\hat{f}(X)\)最小化新样本预测误差，依托均方误差、分类准确率、AUC等样本外指标评价，广泛用于营销、金融、医疗的风险/结果预判。仅挖掘变量相关关系，不探究内在机理；时序、正则回归、树、集成、神经网络都是常用工具；高维/复杂场景易过拟合（拟合噪声而非真实信号），依靠交叉验证、正则控过拟合、提升泛化。

因果建模：测算干预/暴露的因果作用，依托潜在结果框架，核心指标平均处理效应\(\text{ATE}=E[Y(1)-Y(0)]\)，\(Y(1)/Y(0)\)分别代表处理/控制的潜在结果，回答：干预\(X\)后结果\(Y\)会产生多大变动。识别因果需要严苛假定（无混杂、排他约束、单调性等），依靠随机对照（RCT）、自然实验、工具变量、双重差分、匹配等引入外生波动，优先保障内部有效性，不苛求单点预测精度。

关键区分：预测精准不代表能识别因果，可靠因果模型也可能个体预测效果很差；预测面向未来样本做精度，因果面向反事实做机制测算。数据使用逻辑不同：预测靠划分训练/测试、交叉验证优化泛化；因果优先筛选近似随机分配的变异，用全样本/精准分组得到稳健处理效应。

前沿方法打通两条路径：因果森林、双重机器学习把机器学习嵌入因果估计，用机器学习拟合倾向得分、结果方程这类冗余扰动项，在合理假定下兼顾灵活拟合与可靠因果推断。

建模选择锚定研究目的：

预判住院率、信贷违约→预测建模；
评估培训项目对收入的政策效果→因果推断；明确目标是规避方法误用、结论误读的前提。

小结：

预测：最小化\(E[Y|X]\)估计误差，依托样本外表现评判；
因果：量化\(E[Y(1)-Y(0)]\)反事实差值，依靠研究设计、识别假设落地；全书后续章节细化全部概念。

1.4.4 模型筛选

模型筛选是实证关键环节，直接决定结论精度、可解释性、政策落地价值：选定模型大类、设定结构、挑选估计算法，全程在灵活度-可解释、复杂度-泛化之间权衡。

第一步：选定模型大类（参数/非参数）。比如房价预测：线性预设面积、区位的固定边际效应，树模型自适应划分特征空间、捕捉非线性与交互；选择看假设是否成立、优先可解释还是自适应拟合。

第二步：设定函数形式。线性暗含边际效应恒定（如每多一年教育带来固定收入涨幅），多项式/交互项刻画增减边际收益；在不引发过拟合的前提下拓展模型，依托探索分析与数据生成规律的理论预期设定。

第三步：选定估计方式。参数场景常用普通最小二乘（OLS）、极大似然；高维用LASSO、岭回归正则降复杂度；非参数依靠带宽、近邻数、树深等超参+交叉验证平衡偏差方差。

筛选逻辑绑定研究目标：

预测导向：优先样本外精度，选高拟合上限的灵活算法；
因果导向：优先可解释、贴合识别假设、适配反事实框架，比如教育对健康的效应优选理论导向+审慎变量筛选，住院率预测优选数据驱动机器学习。

筛选不只是技术操作，还要结合领域知识、理论逻辑、场景约束，平衡假设、算力、可读性，贴合研究问题。第\(11\)章系统讲解模型筛选：交叉验证、样本外误差、模型诊断与系统化对比方案。

1.4.5 仿真的作用

仿真是现代实证基础工具，在解析解难推导、数据生成机制复杂时，用来观测模型表现、量化不确定性、校验估计量性质。

在已知真实数据生成规则下生成仿真样本，对照真值衡量各类模型优劣；用来具象化偏差、方差、过拟合、泛化等核心概念，在可控环境对比不同算法。全书仿真案例用来展现建模选择如何改变预测精度、估计量性质、假设稳健性。

仿真尤其适合有限样本下校验估计表现：蒙特卡洛反复从已知分布抽样，测算偏差、均方误差；直观展示模型复杂度、超参、识别失效带来的影响，后续正则、因果、模型筛选章节反复复用该思路。

依托仿真，已知真值下模型表现可观测，既做模型校验诊断，也辅助理论教学；打通公式理论和直观认知，帮读者看清各类统计工具在不同数据环境里的运行规律。

1.5 本章小结

本章梳理全书核心脉络：机器学习（ML）在实证研究中的定位、预测与参数估计的概念分界、机器学习与计量方法的融合思路、指导实证落地的各类建模框架。同时铺垫全书关键知识点：因果推断、正则化、仿真实验、异质性分析、参数与非参数模型、模型筛选，上述内容将在后续各章节从理论原理到实操落地逐层细化，贯穿理论推导与实务案例。第\(2\)章将系统化规范统计建模与机器学习两大框架，为全场景实证建模提供标准化分析逻辑。

附注

瓦普尼克-切尔沃年基斯理论、计算复杂度、贝叶斯学习等理论在深度学习、理论机器学习领域具备重要价值，但和本书聚焦的数据类型、研究议题关联度偏低，因此不作深入展开。
若想要深挖预测与参数估计的内在差异，可参阅三篇文献：布拉德利·埃弗隆\(2020\)年《预测、估计与归因》、加利特·什穆埃利\(2010\)年《解释还是预测？》、泰特洛克与加德纳\(2015\)年《超级预测：预测的艺术与科学》。
贝叶斯建模依托概率形式纳入不确定性与先验信息，可整合统计与机器学习两大范式；该类方法实用性突出，但超出本书写作范围。