ARTICLE

评价

评价 (Evaluation) 评价是经济学与统计学中贯穿理论与应用的核心方法论,广义上涵盖对政策效果、模型表现、估计量优劣以及决策方案的系统性分析与判断。在计量经济学中,评价主要指政策评价与处理效应框架下的因果推断;在统计学中则涉及模型选择、估计量评价准则以及预测性能评估;在公共经济学与运筹学中则延伸至成本-收益分析与多准则综合评价。 政策评价与因果推断

浏览 0 更新 2026-01-11

评价 (Evaluation)

评价是经济学与统计学中贯穿理论与应用的核心方法论,广义上涵盖对政策效果、模型表现、估计量优劣以及决策方案的系统性分析与判断。在计量经济学中,评价主要指政策评价处理效应框架下的因果推断;在统计学中则涉及模型选择估计量评价准则以及预测性能评估;在公共经济学与运筹学中则延伸至成本-收益分析与多准则综合评价。

政策评价与因果推断

现代经济学中,评价最核心的应用场景是因果推断框架下的政策或项目效果估计。核心认识论难题是反事实的不可观测性——个体若不接受处理时的潜在结果永远无法被直接观测。Rubin因果模型将个体ii的处理效应定义为τi=Yi(1)Yi(0)\tau_i = Y_i(1) - Y_i(0),其中Yi(1)Y_i(1)Yi(0)Y_i(0)分别为接受与未接受处理时的潜在结果。由于仅能观测其中一个,评价的根本挑战在于构造可信的反事实基准以消除选择偏差。这一偏差产生于个体是否接受处理并非随机,而是与潜在结果系统相关的情形——例如受教育程度更高的人可能更倾向于参加职业培训项目,直接比较参与者和非参与者将高估培训效果。

随机对照试验通过事前随机化分配处理,确保处理组与对照组在期望意义上所有可观测及不可观测特征均无系统差异,从而消除选择偏差,被视为因果评价的金标准。然而RCT成本高昂、外部有效性有限且面临伦理约束,促使准实验方法的发展。双重差分法利用处理组与对照组在政策实施前后的面板数据差异识别因果效应,其核心识别假设是平行趋势假设——即若无政策干预,两组结果变量的时间趋势应当平行。工具变量法借助与内生处理变量强相关但与误差项正交的工具变量ZZ,通过两阶段最小二乘法在LATE框架下识别complier的平均处理效应。断点回归设计分为精确RDD与模糊RDD,利用驱动变量在临界点附近的局部随机性进行识别,其有效性依赖于个体无法精确操纵驱动变量以选择处理状态的假设。倾向得分匹配由Rosenbaum与Rubin于1983年提出,基于给定可观测协变量下接受处理的概率进行匹配或加权,以近似随机化条件下的可比性。该方法的关键假设是条件独立假设——即给定可观测协变量后,潜在结果与处理分配独立。

近年来,合成控制法通过数据驱动方式为处理单元构造一个由未处理单元加权合成的"反事实"对照组,在比较案例研究中应用广泛。同时,机器学习方法如因果森林借助随机森林的非参数适应性估计异质性处理效应,双重机器学习则利用现代机器学习算法的预测能力结合正交化矩条件实现半参数有效推断,显著拓展了政策评价的方法论边界。

统计模型评价

统计建模中,评价聚焦于模型拟合优度与预测能力的量化权衡。经典指标决定系数R2=1SSE/SSTR^2 = 1 - \text{SSE}/\text{SST}衡量模型解释响应变量总变异的比例,但其单调不减特性意味着向回归中不断添加无关变量也能提高R2R^2值——调整R2R^2引入自由度惩罚以缓解此问题。信息准则方面,AIC源于Kullback-Leibler散度最小化目标,形式为AIC=2lnL+2k\text{AIC} = -2\ln L + 2k,其中kk为参数个数;BIC则从贝叶斯后验概率出发,惩罚项为klnnk\ln n,样本量较大时BIC倾向于选择更简约的模型。交叉验证——特别是KK折交叉验证——通过反复划分训练集与验证集,以样本外预测误差的均值作为泛化性能的估计,避免了样本内过拟合评价的乐观偏差。

分类与预测问题中,评价指标体系更为多元:混淆矩阵将预测结果分解为真正例、假正例、真负例与假负例四类;准确率在类别不平衡时可能产生误导,此时精确率召回率及其调和平均F1分数更具信息量;AUC-ROC通过遍历所有分类阈值下的真正例率与假正例率曲线下的面积,整体衡量模型区分不同类别的能力,取值范围0.5(随机猜测)到1(完美分类)。对于回归预测,均方根误差(RMSE)与平均绝对误差(MAE)是应用最广泛的度量。

估计量评价准则

评价一个估计量θ^\hat{\theta}的统计性质通常依据以下经典准则构成的递进体系:无偏性要求E(θ^)=θE(\hat{\theta}) = \theta,即估计量在重复抽样下的期望值命中参数真值——这是频率学派评价的基础性质但并非必要条件,部分有偏估计量可在其他准则上表现优异。一致性要求随样本量nn \to \inftyθ^pθ\hat{\theta} \overset{p}{\to} \theta,即估计量依概率收敛于真值,是大样本理论的最小要求。有效性在无偏估计量类中寻找方差最小者,其理论下界由Cramér-Rao下界给出——达到此界限的称为有效估计量。均方误差MSE(θ^)=Var(θ^)+[Bias(θ^)]2\text{MSE}(\hat{\theta}) = \text{Var}(\hat{\theta}) + [\text{Bias}(\hat{\theta})]^2将偏差平方与方差统一为单一损失指标,由此催生了Bias-Variance Tradeoff这一机器学习与统计学的核心权衡——降低偏差往往以增大方差为代价,反之亦然。稳健性准则关注估计量在分布假设偏离时的表现,Huber与Hampel等发展的稳健统计理论为厚尾分布与异常值污染下的可靠推断提供了理论基础。

综合评价与多准则决策

超越单一统计指标,综合评价方法在经济学、公共政策与管理科学中的重要性不容忽视。成本-收益分析将项目生命周期内全部社会收益与成本以货币化形式进行贴现比较,其核心决策准则为净现值(NPV)大于零或内部收益率(IRR)超过社会折现率。成本-效果分析则在效果难以货币化的领域(如健康结果以质量调整生命年衡量)比较不同方案的单位效果成本。层次分析法由Saaty于1970年代提出,通过将复杂评价问题分解为目标层、准则层与方案层的递阶层次结构,利用特征向量法从成对比较矩阵中导出优先级权重,为定性与定量混合的多准则决策提供了结构化框架。这些方法在卫生经济学、环境规制影响评估、交通基础设施项目筛选等领域发挥关键作用,但始终需警惕权重设定的主观性、评价维度的遗漏以及不同利益相关方价值判断差异所带来的局限。