ARTICLE

公共政策评估

公共政策评估 (Public Policy Evaluation) 公共政策评估是运用社会科学研究方法，系统性地衡量和分析政府干预措施——包括法律法规、财政支出、税收政策、监管规则和社会项目——是否达成预定目标、产生了哪些非预期后果、以及其成本与收益如何分配的学科领域。它既是福利经济学的应用分支，也是现代实证微观经济学的核心前沿之一。其根本关切可归结为两个问

浏览 4 更新 2026-06-26

公共政策评估 (Public Policy Evaluation)

公共政策评估是运用社会科学研究方法，系统性地衡量和分析政府干预措施——包括法律法规、财政支出、税收政策、监管规则和社会项目——是否达成预定目标、产生了哪些非预期后果、以及其成本与收益如何分配的学科领域。它既是福利经济学的应用分支，也是现代实证微观经济学的核心前沿之一。其根本关切可归结为两个问题：政策是否有效？（因果识别）与政策是否值得？（福利判断）。

公共政策评估的兴起与20世纪中叶以来政府职能的急剧扩张密切相关。随着凯恩斯主义和福利国家理念的推行，政府支出占GDP的比重在发达经济体从19世纪末的不足10\%攀升至21世纪的30-50\%。如此庞大的公共资源配置使得问责性问题变得紧迫——纳税人有权知道钱花得是否有价值。同时，发展经济学对减贫项目效果的实证追问也推动了方法论革新。2019年Abhijit Banerjee、Esther Duflo和Michael Kremer因"减轻全球贫困的实验性方法"获得诺贝尔经济学奖，标志着政策评估从学术边缘进入了学科中心。

理论根基：市场失灵与政府干预的逻辑

公共政策评估的理论出发点建立在福利经济学基本定理之上：在满足完全竞争、无外部性、无公共物品、无信息不对称等严格条件下，竞争性市场均衡是帕累托最优的。然而现实世界普遍存在市场失灵——包括外部性、公共物品、信息不对称、市场势力和不完全市场——为政府干预提供了初步的理由。但政府干预本身也可能因政府失灵而偏离预期效果，包括寻租行为、官僚失灵、信息不足和政策实施中的委托代理问题。公共政策评估的核心功能正在于填补这一逻辑链条中的实证空白：从"理论上应当干预"到"实际干预确实有效"之间，存在需要严格证据支撑的鸿沟。

评估的核心方法论框架

现代政策评估方法论的核心是因果推断（Causal Inference）。政策评估的根本挑战在于反事实缺失问题（Missing Counterfactual Problem）：我们只能观测到个体在"接受政策干预"或"未接受干预"两种状态中的一种，永远无法同时观测同一个体在两个平行世界中的结果。因此，评估的关键在于构建一个可信的反事实——即若受干预者未受干预时的结果会是怎样的。

\text{ATT} = \mathbb{E}[Y(1) - Y(0) \mid D = 1]

其中 $Y(1)$ 是接受干预的潜在结果， $Y(0)$ 是未接受干预的潜在结果， $D = 1$ 表示实际接受了干预。处理组平均处理效应（ATT）是政策评估最关注的参数。以下方法构成了政策评估的主要工具箱：

随机对照试验（Randomized Controlled Trial, RCT）：通过随机分配将受试者分为处理组和对照组，从概率上消除选择偏误（Selection Bias），使得两组在干预前的特征在期望意义上无差异。RCT 被视为因果推断的"黄金标准"，广泛用于发展经济学中的健康、教育、减贫项目评估。其局限包括外部效度（小规模试验能否推广）、伦理约束（能否随机拒绝服务）以及一般均衡效应（局部干预在全局中可能引发溢出效应）。
双重差分法（Difference-in-Differences, DiD）：利用政策在不同地区或群体之间分阶段推行的自然变异，将处理组在政策前后变化与对照组同期变化相减，消除时间趋势和个体固定效应的干扰。核心识别假设是平行趋势假设（Parallel Trends Assumption）——即若处理组未受干预，其结果变化路径应与对照组一致。
断点回归（Regression Discontinuity Design, RDD）：当政策基于一个连续变量的某个阈值（如分数线、年龄截止、收入资格线）分配时，在断点附近的个体近似于随机分配。通过比较断点两侧局部样本的结果差异，可以识别出在断点处的局部平均处理效应。RDD 的吸引之处在于其识别的透明性和可检验性（可通过检验断点处协变量的连续性来验证有效性）。
工具变量法（Instrumental Variables, IV）：当政策参与存在自选择时，寻找一个与处理状态 $D$ 相关但与潜在结果独立且仅通过 $D$ 影响结果的工具变量 $Z$ ，以识别局部平均处理效应（LATE）。经典的例子包括使用征兵抽签号作为服兵役的工具变量来估计兵役对长期收入的影响（Angrist, 1990）。
匹配方法（Matching）：基于可观测特征为每个受处理个体寻找特征相似但未受处理的匹配个体。倾向得分匹配（Propensity Score Matching, PSM）由Rosenbaum和Rubin（1983）提出，将多维协变量压缩为一维的倾向得分——个体接受处理的概率——然后基于该得分进行匹配或加权。
合成控制法（Synthetic Control Method, SCM）：在只有一个或少数处理单元且时间序列足够长的情况下，SCM 通过构造一个由未受处理单元加权组合而成的"合成对照组"来模拟处理单元未受干预时的结果路径，在比较政治经济学和区域政策评估中尤为有用。

福利分析：从因果效应到政策判断

因果推断回答了"政策是否有效"，但政策决策还需要回答"政策是否值得"。这需要将因果估计与福利经济学框架对接。成本-收益分析（Cost-Benefit Analysis, CBA）是最经典的政策评估框架：将政策的全部社会收益和全部社会成本折算为货币现值，若净现值（NPV）为正则政策通过。成本-效果分析（Cost-Effectiveness Analysis, CEA）在健康政策中尤为常见——固定成本下选择产生最多健康效果（如QALY，质量调整生命年）的方案。

福利计算中的核心挑战包括：第一，非市场商品（如生命、环境质量、时间节约）的货币化需要通过显示性偏好或陈述性偏好方法进行估值；第二，分配权重的确定——一元的收益对穷人和富人的社会价值是否应相等？第三，折现率的选择对代际影响巨大的政策（如气候变化减缓）尤为敏感。

中国的政策评估实践

在中国，公共政策评估正在经历从行政内部报告向科学化、实证化评估的转型。扶贫政策的精准识别和实施效果评估大量借用了 RCT 和 DiD 方法；新农合（新型农村合作医疗）对农村居民健康结果和医疗支出影响的实证研究推动了制度优化；环境规制如大气十条的政策效应被断点回归和双重差分广泛检验。开发区政策的经济增长效应、高铁投资的区域经济影响、个税改革的劳动供给回应等议题构成了中国实证政策评估的活跃前沿。但数据可及性、政府透明度和评估的独立性仍是制约该领域发展的瓶颈。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。