ARTICLE
Score
Score(得分或分数)在统计学、计量经济学与机器学习中有多重含义,最核心的是指Fisher得分(Score Function,即对数似然函数的梯度)和倾向得分(Propensity Score,即接受处理的概率)。此外,标准分数(Z-Score)、信用评分(Credit Score)等概念在应用层面也具有重要地位。Score 概念贯穿参数估计、因果推断与数
Score(得分或分数)在统计学、计量经济学与机器学习中有多重含义,最核心的是指Fisher得分(Score Function,即对数似然函数的梯度)和倾向得分(Propensity Score,即接受处理的概率)。此外,标准分数(Z-Score)、信用评分(Credit Score)等概念在应用层面也具有重要地位。Score 概念贯穿参数估计、因果推断与数据标准化三大领域,是现代数据分析的基础工具之一。
1. 统计中的得分函数
1.1 定义与性质
在数理统计中,给定参数 的似然函数 ,得分函数定义为对数似然函数关于参数的一阶导数:
得分函数具有两个核心性质。其一,在真实参数值 下,得分的期望为零:。这一性质来源于密度函数积分为一的微分结果,是矩估计方法的基础。其二,得分的方差等于Fisher 信息量(Fisher Information):
当模型正确设定时,Fisher 信息量也等于对数似然二阶期望导数的相反数,即 。得分函数的大小直接反映了数据对参数的敏感程度——得分绝对值越大,说明观测数据对参数的辨识力越强。
1.2 得分检验(Score Test)
得分检验,又称拉格朗日乘数检验(Lagrange Multiplier Test, LM Test),由拉奥(Rao, 1948)提出,是三大经典假设检验之一(与沃尔德检验和似然比检验并列)。其核心思想是:在原假设 下,得分函数应接近于零。检验统计量为:
在大样本下,该统计量服从 分布,自由度等于约束个数。得分检验的优势在于只需在原假设下估计参数,无需计算无约束模型,因此在计算成本敏感的场合(如变量筛选、广义线性模型的显著性检验)中尤为实用。
1.3 Fisher 得分算法
Fisher 得分算法是一种求解最大似然估计(MLE)的迭代数值方法。与牛顿-拉夫森算法类似,Fisher 得分用 Fisher 信息矩阵 替代观测 Hessian 矩阵进行迭代更新:
相较于牛顿法,Fisher 得分算法具有两个显著优点:其一,Fisher 信息矩阵总是半正定的,因此算法天然具有上升性质,不会陷入不稳定的负曲率区域;其二,在广义线性模型(GLM)中,Fisher 得分算法等价于迭代加权最小二乘法(IWLS),计算简便且收敛稳定。这一算法是 R 语言 \texttt{glm} 函数的默认优化方法。
2. 倾向得分
2.1 定义与基本定理
在因果推断中,倾向得分(Propensity Score)由罗森鲍姆与鲁宾(Rosenbaum \& Rubin, 1983)提出,定义为在给定协变量 的条件下,个体接受处理 的条件概率:
倾向得分的核心价值体现在其"降维"功能:当存在多个协变量时,直接基于全部协变量进行匹配或分层面临维数灾难,而倾向得分将多维协变量压缩为一维概率值。罗森鲍姆与鲁宾证明了倾向得分的平衡性定理:若在给定 下处理分配是条件可忽略的(即 ),则在给定 下处理分配也是条件可忽略的,即 。这意味着只需对倾向得分进行匹配或分层,即可消除可观测协变量带来的选择偏差,而无须对全部协变量逐一控制。
2.2 倾向得分的估计与使用
倾向得分通常通过 Logit 或 Probit 回归估计,也可以用非参数方法如核回归或随机森林。实际操作中,倾向得分的应用有四种主要方式:
匹配法:将处理组与对照组的个体按倾向得分进行最近邻匹配或卡尺匹配,直接构造反事实对照组。分层法:将样本按倾向得分的百分位数分成若干层(通常5层可消除约90\%的偏差),在每层内计算平均处理效应。逆概率加权法(IPTW):用倾向得分的倒数作为权重,构造加权后的伪总体以估计因果效应。协变量调整法:将倾向得分作为控制变量直接纳入回归方程。上述方法各有优劣,其中匹配法和逆概率加权法在应用计量经济学中使用最广。
2.3 共同支撑域与重叠假设
倾向得分的有效性依赖于共同支撑域假设(Common Support):,即每个个体都有非零的概率被分配到处理组和对照组。若倾向得分接近0或1(例如,某些个体几乎注定接受处理或完全不接受处理),则匹配或加权估计的方差会急剧膨胀,甚至导致估计不可靠。实践中常通过绘制倾向得分的核密度图来检查两组分布的重叠程度,并剔除倾向得分超出共同支撑域的个体作为敏感性分析。
3. 标准分数与Z-Score
3.1 定义与标准化
标准分数(Standard Score),又称 Z-Score,是将原始数据转化为以标准差为单位的位置度量。对于观测值 ,其 Z-Score 定义为:
其中 为总体均值, 为总体标准差。Z-Score 表示原始值偏离均值的标准差个数,无量纲,因此可用于跨量纲、跨分布的比较。在经典测验理论(Classical Test Theory)中,标准分数被广泛应用于考试评分、智力测验(如韦氏智商测验以15为标准差)和心理健康量表(如SCL-90)的结果解释中。
3.2 Z-Score 在异常检测中的应用
在金融风控和数据质量监控领域,Z-Score 是最常见的异常值检测方法之一。通常的做法是设定一个阈值(如 ),将超出该阈值的观测值标记为潜在异常。这一做法背后的理论依据是:若数据近似服从正态分布,则 的概率不足0.3\%,属于小概率事件。然而,当数据具有厚尾分布(如金融收益率)或多模态结构时,基于 Z-Score 的异常检测会产生大量误报,因此在实际应用中需结合其他稳健方法(如MAD-Median规则)使用。
3.3 Altman Z-Score
在财务分析领域,Altman Z-Score(奥特曼 Z 值)是一种广泛使用的破产预测指标,由奥特曼(Altman, 1968)基于多元判别分析提出。其计算公式为:
其中 至 分别为营运资本/总资产、留存收益/总资产、息税前利润/总资产、股权市值/总负债、销售收入/总资产。奥特曼给出的判别阈值为: 预示破产风险高, 为安全区。尽管 Altman Z-Score 距今已逾半个世纪,其预测准确率在多个国家和行业中仍保持约70\%—80\%,是信用风险定量分析中的经典指标。
4. 信用评分
4.1 FICO 评分与信用记分卡
信用评分(Credit Score)是金融服务领域最成功的 Score 应用之一,以美国的 FICO 评分(Fair Isaac Corporation)为代表。FICO 评分在300—850分之间,综合考量五大因素:还款历史(35\%)、信用使用率(30\%)、信用历史长度(15\%)、新开账户(10\%)和信用类型(10\%)。在统计学层面,信用评分的构建依赖于逻辑回归记分卡(Scorecard)方法:将原始特征(如逾期次数、负债收入比)进行 WOE(Weight of Evidence)编码后,通过逻辑回归估计违约概率,再将模型系数线性转换为整数分值。这种方法不仅使评分具有可解释性,还便于监管合规审查。
4.2 信用评分的偏差问题
近年来,信用评分面临越来越严峻的公平性挑战。研究表明,传统的信用评分模型可能对少数族裔和低收入群体产生系统性不利影响——这并非源于模型设计的歧视意图,而是因为训练数据中已存在历史不公(如贷款审批中的种族差异),模型在学习过程中"继承"了这些偏差。对此,监管机构(如美国消费者金融保护局,CFPB)要求金融机构进行差异化影响分析(Disparate Impact Analysis),并采用公平性约束(如均等机会、均等化错误率)对评分模型进行调整。
5. 机器学习中的得分
5.1 置信度得分与决策得分
在分类模型中,原始输出通常是连续型的决策得分(Decision Score),再通过阈值转化为离散类别。例如,支持向量机输出样本到超平面的符号距离,逻辑回归输出对数几率(Log-Odds),随机森林输出类别概率的均值。这些得分不仅反映分类结果,还隐含着预测的置信度。在现实中,可靠性较高的置信度得分是选择性分类(Selective Classification)的基础——当模型对某样本的置信度低于预设阈值时,可将其交由人工判断,而非机械地做硬分类。
5.2 评估指标中的 Score
机器学习模型评估依赖多种得分型指标:F1-Score(精确率与召回率的调和平均数)、Brier Score(概率预测的均方误差)、AUROC Score(ROC曲线下面积)以及R² Score(决定系数)。这些得分共同构成了模型选择与超参数调优的客观依据。其中 Brier Score 直接测量预测概率与真实类别的匹配程度,严格适当的(Strictly Proper)评分规则还能激励模型输出校准良好的概率——这对于医疗诊断、天气预测等风险敏感领域尤为关键。
6. 延伸阅读
得分函数与 Fisher 信息量的严格数理推导可参考莱曼与卡塞拉(Lehmann \& Casella, 1998)的《点估计理论》。倾向得分的系统性论述见罗森鲍姆(Rosenbaum, 2002)的《观察性研究的因果推断》。Altman Z-Score 的原论文及后续更新见奥特曼(Altman, 1968; 2000)的系列研究。信用评分的技术细节可参考托马斯等(Thomas et al., 2002)的《信用评分及其应用》。中文读者可参阅陈希孺(2000)的《数理统计学简史》中关于得分检验的历史梳理。