ARTICLE

检验家族

检验家族 (Testing Family) 检验家族是数理统计与计量经济学中的一个核心概念,广义上指由同一理论框架衍生、彼此关联的一组假设检验方法;狭义上则特指基于最大似然估计(MLE)的三大经典渐近检验——似然比检验(Likelihood Ratio Test, LR)、Wald 检验和拉格朗日乘数检验(Lagrange Multiplier Test,

浏览 0 更新 2025-10-26

检验家族 (Testing Family)

检验家族数理统计计量经济学中的一个核心概念,广义上指由同一理论框架衍生、彼此关联的一组假设检验方法;狭义上则特指基于最大似然估计(MLE)的三大经典渐近检验——似然比检验(Likelihood Ratio Test, LR)、Wald 检验拉格朗日乘数检验(Lagrange Multiplier Test, LM,亦称得分检验)。这三者被统称为"检验三一体"(The Holy Trinity of Tests),构成现代参数推断的理论支柱。

三大检验的构造逻辑

设参数向量 θRk\theta \in \mathbb{R}^k,待检验假设为 H0:c(θ)=0H_0: c(\theta) = 0(其中 c()c(\cdot)rr 维约束函数),H1:c(θ)0H_1: c(\theta) \neq 0。记 θ^\hat{\theta} 为无约束 MLE,θ~\tilde{\theta} 为在 H0H_0 约束下的受限 MLE。对数似然函数为 (θ)=lnf(X;θ)\ell(\theta) = \ln f(X; \theta),得分向量为 s(θ)=θ(θ)s(\theta) = \nabla_\theta \ell(\theta),信息矩阵为 I(θ)=E[θ2(θ)]\mathcal{I}(\theta) = -\mathbb{E}[\nabla^2_\theta \ell(\theta)]

三种检验从不同角度衡量"数据与零假设之间的不一致程度":

  1. 似然比检验(LR):比较无约束与受限似然函数的最大值之比。检验统计量为 \[ \text{LR} = 2\left[ \ell(\hat{\theta}) - \ell(\tilde{\theta}) \right] \xrightarrow{d} \chi^2_r \] 直觉:若 H0H_0 为真,施加约束不应导致似然函数大幅下降;反之,若 (θ^)\ell(\hat{\theta}) 显著高于 (θ~)\ell(\tilde{\theta}),则拒绝 H0H_0。LR 需要同时估计 θ^\hat{\theta}θ~\tilde{\theta},计算成本最高但最为直观。
  2. Wald 检验:直接在无约束估计 θ^\hat{\theta} 处评估约束 c(θ^)c(\hat{\theta}) 偏离零的程度。检验统计量为 \[ W = c(\hat{\theta})^\top \left[ \nabla c(\hat{\theta})^\top \mathcal{I}(\hat{\theta})^{-1} \nabla c(\hat{\theta}) \right]^{-1} c(\hat{\theta}) \xrightarrow{d} \chi^2_r \] 直觉:若 H0H_0 为真,无约束估计应当自然接近满足约束。Wald 检验只需估计无约束模型,计算最简便,故在回归软件输出(如 Stata 的 \texttt{test} 命令、OLS 系数 t 检验)中最为常见。
  3. 拉格朗日乘数检验(LM / 得分检验):在受限估计 θ~\tilde{\theta} 处评估得分向量偏离零的程度——若约束正确,得分函数在该点应接近零。检验统计量为 \[ \text{LM} = s(\tilde{\theta})^\top \mathcal{I}(\tilde{\theta})^{-1} s(\tilde{\theta}) \xrightarrow{d} \chi^2_r \] 直觉:若 H0H_0 为真,受限 MLE 处的对数似然梯度应近乎平坦。LM 检验只需估计受限模型,在检验残差异方差(Breusch-Pagan 检验)、残差自相关(Breusch-Godfrey 检验)等诊断性检验中广泛应用。

几何直觉与 Wald 不等式

在参数空间中,三种检验对应衡量"无约束估计"与"受限估计"之间距离的不同方式。LR 以对数似然曲面的垂直落差度量距离,Wald 以无约束点处切平面的二次型度量距离,LM 以受限点处切平面的二次型度量距离。当似然函数呈标准二次型时,三者精确等价;在一般曲线型似然下,存在Wald 不等式

WLRLMW \geq \text{LR} \geq \text{LM}

即 Wald 检验最倾向于拒绝 H0H_0(检验量最大),LM 检验最保守(检验量最小),LR 居中。这一排序在实践中意味着:若 LM 已拒绝 H0H_0,则 LR 和 Wald 必拒绝;若 Wald 无法拒绝,则前两者更无法拒绝。理解此不等式有助于解释为何不同检验可能给出冲突结论——这并非方法缺陷,而是对同一证据的不同度量视角。

适用场景与选择指南

维度LRWaldLM需估计的模型无约束 + 受限仅无约束仅受限计算负担参数化不变性否(取决于参数化形式)小样本表现较好可能过度拒绝较好典型应用嵌套模型选择回归系数显著性诊断检验\begin{array}{c|c|c|c} \text{维度} & \text{LR} & \text{Wald} & \text{LM} \\ \hline \text{需估计的模型} & \text{无约束 + 受限} & \text{仅无约束} & \text{仅受限} \\ \text{计算负担} & \text{高} & \text{中} & \text{低} \\ \text{参数化不变性} & \text{是} & \text{否(取决于参数化形式)} & \text{是} \\ \text{小样本表现} & \text{较好} & \text{可能过度拒绝} & \text{较好} \\ \text{典型应用} & \text{嵌套模型选择} & \text{回归系数显著性} & \text{诊断检验} \\ \end{array}
  • 选择 LR:当无约束和受限模型均易估计时(如嵌套模型比较、方差分析中比较嵌套方差结构),LR 凭借参数化不变性和稳健的小样本性质成为首选。
  • 选择 Wald:当仅需检验少数线性约束且无约束模型已估计完毕时,Wald 最为便捷。OLS 中的单个系数 t 检验和联合 F 检验本质上是 Wald 检验的特例。但需注意,在非线性约束或似然函数高度非二次时,Wald 可能表现不佳。
  • 选择 LM:当受限模型远易于无约束模型时(如仅需检验是否需添加额外变量),LM 是自然选择。它也广泛用于"从简单出发"的模型诊断——先估计最简模型,再以 LM 检验判断是否需要放宽约束。

历史脉络与人物

三大检验的确立横跨近半个世纪。Jerzy NeymanEgon Pearson 在 1928 年提出似然比检验原理,奠定了 Neyman-Pearson 引理的基础框架。1943 年,Abraham Wald 在《数理统计年鉴》上发表论文,提出了基于无约束估计量的二次型检验——即后来的 Wald 检验,其动机之一是避免似然比检验需两次最大化似然函数的计算负担。1948 年,C. R. Rao 从费雪得分函数的几何性质出发,提出了得分检验(即 LM 检验),后经 Silvey(1959)和 Aitchison(1962)等人完善。直到 1980 年代,Robert Engle 在计量经济学文献中系统阐述了 LM 检验在模型诊断中的广泛应用(包括 ARCH 效应的发现),使得这一检验家族在应用经济学界获得了前所未有的重视。

具体示例:线性回归中检验排除约束

以最常见的情形为例:考虑线性回归模型

y=Xβ+ε,εN(0,σ2In)y = X\beta + \varepsilon, \quad \varepsilon \sim N(0, \sigma^2 I_n)

待检验假设 H0:Rβ=qH_0: R\beta = qRRr×kr \times k 约束矩阵)。记无约束 OLS 估计为 β^\hat{\beta},受限 OLS(在 Rβ=qR\beta = q 下)为 β~\tilde{\beta},残差平方和分别为 SSEU\text{SSE}_USSER\text{SSE}_R

在此经典场合,三种检验简化为:

LR=nln(SSER/SSEU)dχr2W=(Rβ^q)[R(XX)1R]1(Rβ^q)σ^2dχr2LM=(Rβ~q)[R(XX)1R]1(Rβ~q)σ~2dχr2\begin{aligned} \text{LR} &= n \ln(\text{SSE}_R / \text{SSE}_U) \xrightarrow{d} \chi^2_r \\ W &= \frac{(R\hat{\beta} - q)^\top [R(X^\top X)^{-1} R^\top]^{-1} (R\hat{\beta} - q)}{\hat{\sigma}^2} \xrightarrow{d} \chi^2_r \\ \text{LM} &= \frac{(R\tilde{\beta} - q)^\top [R(X^\top X)^{-1} R^\top]^{-1} (R\tilde{\beta} - q)}{\tilde{\sigma}^2} \xrightarrow{d} \chi^2_r \end{aligned}

在线性回归且误差正态的条件下,Wald 和 LM 经适当缩放后均等价于精确的 FF 检验(乘以 rr 后服从 Fr,nkF_{r, n-k} 分布除以 rr),而 LR 则为大样本近似。此例清晰地展示了三者的关系:Wald 以无约束估计为中心评估约束,LM 以受限估计为中心评估约束,LR 通过残差平方和之比同时反映两者的信息差。

软件实现与解读

主流计量软件对三大检验提供了不同程度的支持。Stata 的 \texttt{test} 和 \texttt{testparm} 命令默认给出 Wald 检验结果,\texttt{lrtest} 命令在估计嵌套模型后可输出 LR 检验;LM 检验则需通过 \texttt{estat} 系列命令或用户编写的程序实现。R 语言中,\texttt{lm()} 对象的 \texttt{summary()} 输出系数显著性(Wald 型 t 检验),\texttt{anova()} 比较嵌套模型时默认使用 F 检验(有限样本 Wald 变体),\texttt{lmtest} 包提供 \texttt{waldtest()} 和 \texttt{lrtest()} 函数。Python 的 \texttt{statsmodels} 在 \texttt{model.fit()} 后通过 \texttt{.wald\_test()}、\texttt{.compare\_lr\_test()} 等方法支持三大检验。理解不同软件默认输出的检验归属,是避免错误解读实证结果的基本功。

广义检验家族

  • 卡方检验家族:包括皮尔逊卡方检验似然比卡方检验G2G^2 检验),均基于列联表分析中观测频数与期望频数的差异度量。
  • F 检验家族:在线性回归框架下,Chow 检验、结构变化检验、部分 F 检验等均可视作对线性约束的 Wald 型检验(有限样本精确 F 分布)。
  • 稳健检验家族:以Huber-White 稳健标准误为基础构建的稳健 Wald、稳健 LM 检验,与广义矩方法(GMM)中的 J 检验(Hansen 检验)共享渐近卡方分布的谱系。
  • 信息准则家族AICBIC 虽非正式的假设检验,但在模型选择中与 LR 检验存在密切联系——LR 在嵌套模型中以显著性水平 α\alpha 做裁决,而 AIC 近似于以固定临界值 2 进行 LR 检验。

核心公式汇总

似然比检验:LR=2[(θ^)(θ~)]H0χr2Wald 检验:W=c(θ^)[Var^(c(θ^))]1c(θ^)H0χr2LM / 得分检验:LM=s(θ~)I(θ~)1s(θ~)H0χr2Wald 不等式:WLRLM\begin{aligned} \text{似然比检验:}&\quad \text{LR} = 2\left[ \ell(\hat{\theta}) - \ell(\tilde{\theta}) \right] \xrightarrow{H_0} \chi^2_r \\ \text{Wald 检验:}&\quad W = c(\hat{\theta})^\top \left[ \widehat{\operatorname{Var}}(c(\hat{\theta})) \right]^{-1} c(\hat{\theta}) \xrightarrow{H_0} \chi^2_r \\ \text{LM / 得分检验:}&\quad \text{LM} = s(\tilde{\theta})^\top \mathcal{I}(\tilde{\theta})^{-1} s(\tilde{\theta}) \xrightarrow{H_0} \chi^2_r \\ \text{Wald 不等式:}&\quad W \geq \text{LR} \geq \text{LM} \end{aligned}

检验家族——特别是 LR/Wald/LM 三位一体——的精髓在于:同一统计证据可以通过不同视角(似然值之差、估计值与约束之差、得分向量与零之差)来审视,三种视角在大样本下渐近等价,但在有限样本及非线性约束下各具优势与局限。理解这一家族的内在结构,是深入掌握现代统计推断方法论的关键。