ARTICLE

政策评价

政策评价 (Policy Evaluation) 政策评价（Policy Evaluation）是计量经济学与公共经济学交叉的核心领域，旨在运用统计和计量方法，基于观测或实验数据，对某项公共政策、干预措施或社会项目的因果效应进行系统性估计与推断。政策评价回答的根本问题是：相较于没有该政策的反事实（Counterfactual）状态，政策本身带来了怎样的净效果

浏览 0 更新 2025-10-26

政策评价 (Policy Evaluation)

政策评价（Policy Evaluation）是计量经济学与公共经济学交叉的核心领域，旨在运用统计和计量方法，基于观测或实验数据，对某项公共政策、干预措施或社会项目的因果效应进行系统性估计与推断。政策评价回答的根本问题是：相较于没有该政策的反事实（Counterfactual）状态，政策本身带来了怎样的净效果。这一范式构成了现代证据为本的政策制定（Evidence-Based Policy Making）的实证基础。

核心框架：因果效应与反事实

政策评价的方法论基础根植于 Rubin 因果模型（Rubin Causal Model, RCM），也称 潜在结果框架（Potential Outcomes Framework）。对于个体 $i$ ，定义二值处理变量 $D_i \in \{0, 1\}$ （接受或未接受政策干预），以及一对潜在结果 $(Y_i(1), Y_i(0))$ ，分别表示接受与未接受政策时的结果。个体的因果效应为 $\tau_i = Y_i(1) - Y_i(0)$ 。然而，对任何个体，仅能观测到一个潜在结果——即因果推断的基本问题（Fundamental Problem of Causal Inference）。因此政策评价聚焦于识别和估计可识别的聚合因果参数，最常见的为 平均处理效应（Average Treatment Effect on the Treated, ATT）：

\tau_{\text{ATT}} = \mathbb{E}[Y_i(1) - Y_i(0) \mid D_i = 1]

以及 平均处理效应（Average Treatment Effect, ATE）：

\tau_{\text{ATE}} = \mathbb{E}[Y_i(1) - Y_i(0)]

政策评价的核心挑战在于构建可信的反事实——即处理组若未接受政策时的结果。简单地将处理组与对照组直接比较会产生 选择偏误（Selection Bias）：

\mathbb{E}[Y_i \mid D_i = 1] - \mathbb{E}[Y_i \mid D_i = 0] = \tau_{\text{ATT}} + \underbrace{\mathbb{E}[Y_i(0) \mid D_i = 1] - \mathbb{E}[Y_i(0) \mid D_i = 0]}_{\text{选择偏误}}

政策评价的全部技术实质上围绕如何消除这一选择偏误而展开——这也是区分严谨的因果推断与简单的相关性分析的核心所在。

主要计量方法

随机对照试验 (RCT)

随机对照试验（Randomized Controlled Trial）通过随机分配处理与对照地位，确保 $D_i$ 独立于潜在结果 $(Y_i(0), Y_i(1))$ ，从而消除选择偏误。在 RCT 中，简单的均值差异即给出 ATE 的无偏估计。然而，RCT 面临外部有效性（External Validity）、伦理约束、成本高昂、约翰·亨利效应、部分合规等问题。2019 年诺贝尔经济学奖授予 Abhijit Banerjee、Esther Duflo 和 Michael Kremer，正是表彰其在发展经济学领域运用 RCT 进行政策评价的开创性工作。

双重差分法 (DID)

双重差分法（Difference-in-Differences）利用政策实施时间的差异，在满足 平行趋势假设（Parallel Trends Assumption）的条件下，以对照组的结果变化趋势作为处理组反事实趋势的代理：

\tau_{\text{DID}} = \left(\bar{Y}_{\text{treat, post}} - \bar{Y}_{\text{treat, pre}}\right) - \left(\bar{Y}_{\text{control, post}} - \bar{Y}_{\text{control, pre}}\right)

近年来，多期 DID（Staggered DID）和异质处理效应下的稳健估计量（如 Callaway 与 Sant'Anna (2021)、Sun 与 Abraham (2021)、Borusyak 等 (2024)）显著拓展了该方法的适用范围。

断点回归 (RDD)

断点回归（Regression Discontinuity Design）适用于政策分配基于某个连续运行变量（Running Variable）是否超过明确阈值的情形。在阈值附近，略高于和略低于阈值的个体在除政策处理外的其他方面几乎完全可比，从而在局部模拟随机实验。尖锐 RDD（Sharp RDD）的处理效应由条件期望函数在断点处的跳跃识别：

\tau_{\text{SRD}} = \lim_{x \downarrow c} \mathbb{E}[Y_i \mid X_i = x] - \lim_{x \uparrow c} \mathbb{E}[Y_i \mid X_i = x]

模糊 RDD（Fuzzy RDD）则采用阈值变量作为工具变量，估计遵从者（Compliers）的局部平均处理效应（LATE）。

工具变量法 (IV)

在存在未观测混杂因素时，工具变量法利用与处理变量 $D_i$ 相关、与未观测因素不相关且仅通过 $D_i$ 影响结果的工具变量 $Z_i$ 来识别因果效应。IV 估计识别的是遵从者的 局部平均处理效应（LATE），而非全局 ATE——这是理解 IV 估计结果时必须注意的关键限定。

匹配方法与合成控制法

倾向得分匹配（Propensity Score Matching, PSM）基于可观测特征 $X_i$ 估计个体接受处理的概率（倾向得分），并在此一维得分上匹配处理组与对照组，从而在 条件独立性假设（CIA）下识别 ATT。合成控制法（Synthetic Control Method, SCM）则通过构建对照单元加权组合来为单个处理单元构造反事实路径，在比较案例研究中尤其有力——Abadie 与 Gardeazabal (2003) 对巴斯克地区恐怖主义经济影响的研究是其经典应用。

成本-效益分析与福利评价

政策评价不仅关注因果效应的识别，还需将效应转化为可比较的福利单位。成本-效益分析（Cost-Benefit Analysis, CBA）将政策的全部收益与成本货币化，计算净现值来判断政策是否增进社会总福利。成本-效果分析（Cost-Effectiveness Analysis, CEA）则在结果以非货币单位（如挽救的生命年数、受教育年限）衡量时使用。两类方法都需处理贴现率选择、非市场商品估值、分配权重等规范性问题。

挑战与前沿

政策评价面临的核心挑战包括：（1）一般均衡效应与溢出效应——局部均衡估计可能遗漏政策通过市场机制和社交网络传导的间接效应，SUTVA（个体处理值稳定假设）的违反使估计复杂化，例如培训项目可能通过劳动市场的一般均衡调整改变未参与者的工资水平；（2）外部有效性——在特定情境下获得的估计能否推广至其他人群、时期或制度背景，是政策推广决策中的关键不确定性来源；（3）大数据与机器学习的结合——LASSO、随机森林、因果森林（Causal Forest）等方法的引入拓展了高维控制变量选择和异质处理效应估计的可能性，推动了从"平均效应"到"谁受益、谁受损"的精细化分析范式转变；（4）结构性政策评价——将简约式估计与结构模型结合，不仅回答"政策是否有作用"，更回答"政策通过何种机制起作用"以及"若改变政策参数，效果将如何变化"，从而实现从事后评估到事前模拟的跨越。

政策评价已成为连接学术研究与公共决策的中心环节，在劳动市场政策、教育干预、医疗卫生改革、环境规制、贸易政策、扶贫项目等几乎所有公共领域发挥着不可替代的实证支撑作用。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。