ARTICLE

score function

评分函数 (Score Function) 评分函数是最大似然估计理论中的核心概念,定义为对数似然函数对参数向量的一阶偏导数向量。它是连接似然理论与估计推断的枢纽:评分方程给出最大似然估计量的一阶条件,评分函数的方差矩阵等于费舍信息矩阵,而评分函数的渐近行为直接决定了最大似然估计量的渐近分布。在计量经济学中,评分函数还广泛用于构造LM检验统计量与广义矩估计的

浏览 0 更新 2025-10-26

评分函数 (Score Function)

评分函数最大似然估计理论中的核心概念,定义为对数似然函数对参数向量的一阶偏导数向量。它是连接似然理论与估计推断的枢纽:评分方程给出最大似然估计量的一阶条件,评分函数的方差矩阵等于费舍信息矩阵,而评分函数的渐近行为直接决定了最大似然估计量的渐近分布。在计量经济学中,评分函数还广泛用于构造LM检验统计量与广义矩估计的矩条件。

正式定义

设观测数据 XX 的概率密度函数(或概率质量函数)为 f(X;θ)f(X; \theta),其中 θΘRk\theta \in \Theta \subseteq \mathbb{R}^k 为未知参数向量。对数似然函数记为 (θ;X)=logL(θ;X)=logf(X;θ)\ell(\theta; X) = \log L(\theta; X) = \log f(X; \theta)。则评分函数为对数似然对参数的梯度:

s(θ;X)=(θ;X)θ=(θ1,θ2,,θk)s(\theta; X) = \frac{\partial \ell(\theta; X)}{\partial \theta} = \left( \frac{\partial \ell}{\partial \theta_1}, \frac{\partial \ell}{\partial \theta_2}, \ldots, \frac{\partial \ell}{\partial \theta_k} \right)^\top

在独立同分布样本 X1,,XnX_1, \ldots, X_n 的情形下,联合对数似然为各观测贡献之和:(θ)=i=1nlogf(Xi;θ)\ell(\theta) = \sum_{i=1}^n \log f(X_i; \theta)。此时评分函数同样可加总:s(θ)=i=1nsi(θ)s(\theta) = \sum_{i=1}^n s_i(\theta),其中 si(θ)=logf(Xi;θ)/θs_i(\theta) = \partial \log f(X_i; \theta) / \partial \theta 为第 ii 个观测的个体评分。这一可加性是大样本理论中应用中心极限定理的基础。

零期望性质

评分函数最重要的性质是在真实参数值 θ0\theta_0 处的期望为零:Eθ0[s(θ0;X)]=0\mathbb{E}_{\theta_0}[s(\theta_0; X)] = 0。该性质的推导依赖于两个正则条件:积分与求导可交换次序,且概率密度函数的积分为常数一。具体推导如下:

Eθ0[s(θ0;X)]=logf(x;θ0)θf(x;θ0)dx=1f(x;θ0)f(x;θ0)θf(x;θ0)dx\mathbb{E}_{\theta_0}[s(\theta_0; X)] = \int \frac{\partial \log f(x; \theta_0)}{\partial \theta} f(x; \theta_0) \, dx = \int \frac{1}{f(x; \theta_0)} \frac{\partial f(x; \theta_0)}{\partial \theta} f(x; \theta_0) \, dx
=f(x;θ0)θdx=θf(x;θ0)dx=θ1=0= \int \frac{\partial f(x; \theta_0)}{\partial \theta} \, dx = \frac{\partial}{\partial \theta} \int f(x; \theta_0) \, dx = \frac{\partial}{\partial \theta} 1 = 0

这一结果的直观含义十分深刻:在真实参数值处,对数似然函数的梯度从平均意义上说是"水平的"——真实参数正是使期望对数似然达到最大化的值。换言之,如果你在真实参数值处计算评分函数,它可能会因抽样随机性而偏离零,但大量重复抽样下的平均值收敛于零。这一性质是最大似然估计一致性的理论根基。

经济含义上,零期望性质表明在正确设定的模型中,不存在系统性的方向可以调整参数以提高拟合优度——所有能改善拟合的信息都已被充分利用。这是信息论中模型正确设定这一概念在估计理论中的精确表达。

费舍信息与评分方差

评分函数的第二个基本性质是:在真实参数值处的协方差矩阵等于费舍信息矩阵:

Varθ0[s(θ0;X)]=Eθ0[s(θ0;X)s(θ0;X)]=I(θ0)\operatorname{Var}_{\theta_0}[s(\theta_0; X)] = \mathbb{E}_{\theta_0}\left[ s(\theta_0; X) s(\theta_0; X)^\top \right] = I(\theta_0)

其中 I(θ0)I(\theta_0)费舍信息矩阵,定义为:

I(θ0)=Eθ0[2(θ0;X)θθ]I(\theta_0) = -\mathbb{E}_{\theta_0}\left[ \frac{\partial^2 \ell(\theta_0; X)}{\partial \theta \partial \theta^\top} \right]

即在真实参数值处对数似然黑塞矩阵负值的期望。该等式称为巴特利特等式(Bartlett's Identity),它揭示了评分函数二阶矩与对数似然曲率之间的对偶关系。证明该等式需要对恒等式 f(x;θ)dx=1\int f(x;\theta) dx = 1 求两次导数并交换积分次序。

这一关系的经济直觉是:费舍信息衡量的是数据中关于参数的信息量——对数似然函数在真实值附近的弯曲程度。信息越多,似然函数越陡峭,评分函数的方差越大。这意味着在信息丰富的环境中,评分函数对参数的微小偏离反应更敏感,因而参数估计可以更精确。反之,在信息贫乏(似然函数平坦)的情况下,评分函数方差很小,即使参数偏离真值很远,评分函数也可能接近零,导致估计精度下降。

评分方程与最大似然估计

最大似然估计量 θ^MLE\hat{\theta}_{\text{MLE}} 定义为最大化似然函数的参数值。在正则条件下,内部解满足一阶必要条件——评分方程

s(θ^MLE;X)=0s(\hat{\theta}_{\text{MLE}}; X) = 0

评分方程通常是非线性方程组,很少存在显式解析解。实用中依赖数值优化算法迭代求解,其中最具代表性的两种算法均直接使用评分函数:

牛顿-拉弗森法(Newton-Raphson)利用二阶导数信息:

θ(t+1)=θ(t)[2(θ(t))θθ]1s(θ(t))\theta^{(t+1)} = \theta^{(t)} - \left[ \frac{\partial^2 \ell(\theta^{(t)})}{\partial \theta \partial \theta^\top} \right]^{-1} s(\theta^{(t)})

费舍评分算法(Fisher Scoring)以费舍信息矩阵的期望替代黑塞矩阵:

θ(t+1)=θ(t)+I(θ(t))1s(θ(t))\theta^{(t+1)} = \theta^{(t)} + I(\theta^{(t)})^{-1} s(\theta^{(t)})

费舍评分算法在实践中通常更稳定,因为费舍信息矩阵始终是正定的,而实际黑塞矩阵在远离最优解时可能不正定。此外,在广义线性模型中,费舍评分等价于迭代加权最小二乘法,具有计算上的便利性。

实例:正态分布

以正态分布为例直观理解评分函数的结构。设 X1,,XniidN(μ,σ2)X_1, \ldots, X_n \stackrel{\text{iid}}{\sim} N(\mu, \sigma^2),参数 θ=(μ,σ2)\theta = (\mu, \sigma^2)^\top。对数似然函数为:

(θ)=n2log(2π)n2logσ212σ2i=1n(Xiμ)2\ell(\theta) = -\frac{n}{2} \log(2\pi) - \frac{n}{2} \log \sigma^2 - \frac{1}{2\sigma^2} \sum_{i=1}^n (X_i - \mu)^2

分别对 μ\muσ2\sigma^2 求偏导得评分向量:

s(θ)=(μσ2)s(\theta) = \begin{pmatrix} \frac{\partial \ell}{\partial \mu} \\ \frac{\partial \ell}{\partial \sigma^2} \end{pmatrix}

=

(1σ2i=1n(Xiμ)n2σ2+12σ4i=1n(Xiμ)2)\begin{pmatrix} \frac{1}{\sigma^2} \sum_{i=1}^n (X_i - \mu) \\ -\frac{n}{2\sigma^2} + \frac{1}{2\sigma^4} \sum_{i=1}^n (X_i - \mu)^2 \end{pmatrix}

s(θ^)=0s(\hat{\theta}) = 0:第一个方程给出 μ^=Xˉ\hat{\mu} = \bar{X},代入第二个方程给出 σ^2=1ni=1n(XiXˉ)2\hat{\sigma}^2 = \frac{1}{n}\sum_{i=1}^n (X_i - \bar{X})^2。容易验证 E[s(μ,σ2)]=0\mathbb{E}[s(\mu, \sigma^2)] = 0:对于 μ\mu 分量,E[Xiμ]=0\mathbb{E}[X_i - \mu] = 0;对于 σ2\sigma^2 分量,E[(Xiμ)2]=σ2\mathbb{E}[(X_i - \mu)^2] = \sigma^2,代入即得零。

从这个例子可以读出评分函数的直观含义:第一个分量衡量的是数据均值与参数假设值的偏离(标准化后),第二个分量衡量的是数据方差与参数假设值的偏离。评分函数本质上是数据与模型假设之间"失配程度"的度量。

渐近理论

评分函数是推导最大似然估计量渐近性质的核心工具。将评分方程在真实参数值 θ0\theta_0 处做一阶泰勒展开:

0=s(θ^)=s(θ0)+s(θ0)θ(θ^θ0)+op(θ^θ0)0 = s(\hat{\theta}) = s(\theta_0) + \frac{\partial s(\theta_0)}{\partial \theta^\top} (\hat{\theta} - \theta_0) + o_p(\|\hat{\theta} - \theta_0\|)

移项并乘以 n\sqrt{n}

n(θ^θ0)=[1ns(θ0)θ]11ns(θ0)+op(1)\sqrt{n}(\hat{\theta} - \theta_0) = \left[ -\frac{1}{n} \frac{\partial s(\theta_0)}{\partial \theta^\top} \right]^{-1} \cdot \frac{1}{\sqrt{n}} s(\theta_0) + o_p(1)

由大数定律,1ns(θ0)θpI(θ0)-\frac{1}{n}\frac{\partial s(\theta_0)}{\partial \theta^\top} \xrightarrow{p} I(\theta_0)(费舍信息矩阵)。由中心极限定理,1ns(θ0)dN(0,I(θ0))\frac{1}{\sqrt{n}} s(\theta_0) \xrightarrow{d} N(0, I(\theta_0))(因为 E[si]=0\mathbb{E}[s_i] = 0Var[si]=I\operatorname{Var}[s_i] = I)。应用斯拉茨基定理

n(θ^θ0)dN(0,I(θ0)1)\sqrt{n}(\hat{\theta} - \theta_0) \xrightarrow{d} N\left(0, I(\theta_0)^{-1}\right)

这就是最大似然估计量的渐近正态性。整个推导以评分函数为枢纽:左侧的渐近方差来自评分函数的中心极限定理,右侧的缩放因子来自评分函数导数的极限行为。MLE 的渐近有效性——达到Cramér-Rao下界——也因此得到保证。

在计量经济学中的应用

评分函数在计量经济学中有三个重要应用方向。

第一,拉格朗日乘数检验(LM 检验或评分检验)。在零假设 H0:θ=θ0H_0: \theta = \theta_0 的限制下,无需估计无限制模型,仅需在零假设值处计算评分函数并检验其是否显著偏离零。LM 检验统计量为评分函数的二次型:

LM=s(θ0)I(θ0)1s(θ0)dχk2\text{LM} = s(\theta_0)^\top I(\theta_0)^{-1} s(\theta_0) \xrightarrow{d} \chi^2_k

LM 检验与瓦尔德检验(Wald Test)和似然比检验(Likelihood Ratio Test)并称三大经典检验。LM 检验的优势在于只需在原假设下估计模型,计算便利,特别适用于模型误设定检验(如检验残差的自相关和异方差性)。

第二,广义矩估计(GMM)。在 GMM 框架中,评分函数提供了一组自然的矩条件 E[si(θ0)]=0\mathbb{E}[s_i(\theta_0)] = 0。当似然函数正确设定时,基于评分矩条件的 GMM 估计量与 MLE 等价。若似然函数可能误设定,则可放宽为拟最大似然估计,利用评分函数构建稳健推断——即使分布假设错误,只要条件矩条件成立,估计量仍保持一致性。

第三,信息矩阵检验与模型诊断。White 的信息矩阵检验利用巴特利特等式:若模型正确设定,则 Var[s]=E[s/θ]\operatorname{Var}[s] = -\mathbb{E}[\partial s/\partial \theta]。该等式在误设定下不成立,因此可通过比较评分函数的外积估计与黑塞矩阵来诊断模型设定错误。这一思想是现代模型诊断工具的理论基础。