ARTICLE
检验家族
检验家族 (Testing Family) 检验家族是数理统计与计量经济学中的一个核心概念,广义上指由同一理论框架衍生、彼此关联的一组假设检验方法;狭义上则特指基于最大似然估计(MLE)的三大经典渐近检验——似然比检验(Likelihood Ratio Test, LR)、Wald 检验和拉格朗日乘数检验(Lagrange Multiplier Test,
检验家族 (Testing Family)
检验家族是数理统计与计量经济学中的一个核心概念,广义上指由同一理论框架衍生、彼此关联的一组假设检验方法;狭义上则特指基于最大似然估计(MLE)的三大经典渐近检验——似然比检验(Likelihood Ratio Test, LR)、Wald 检验和拉格朗日乘数检验(Lagrange Multiplier Test, LM,亦称得分检验)。这三者被统称为"检验三一体"(The Holy Trinity of Tests),构成现代参数推断的理论支柱。
三大检验的构造逻辑
设参数向量 ,待检验假设为 (其中 为 维约束函数),。记 为无约束 MLE, 为在 约束下的受限 MLE。对数似然函数为 ,得分向量为 ,信息矩阵为 。
三种检验从不同角度衡量"数据与零假设之间的不一致程度":
- 似然比检验(LR):比较无约束与受限似然函数的最大值之比。检验统计量为 \[ \text{LR} = 2\left[ \ell(\hat{\theta}) - \ell(\tilde{\theta}) \right] \xrightarrow{d} \chi^2_r \] 直觉:若 为真,施加约束不应导致似然函数大幅下降;反之,若 显著高于 ,则拒绝 。LR 需要同时估计 和 ,计算成本最高但最为直观。
- Wald 检验:直接在无约束估计 处评估约束 偏离零的程度。检验统计量为 \[ W = c(\hat{\theta})^\top \left[ \nabla c(\hat{\theta})^\top \mathcal{I}(\hat{\theta})^{-1} \nabla c(\hat{\theta}) \right]^{-1} c(\hat{\theta}) \xrightarrow{d} \chi^2_r \] 直觉:若 为真,无约束估计应当自然接近满足约束。Wald 检验只需估计无约束模型,计算最简便,故在回归软件输出(如 Stata 的 \texttt{test} 命令、OLS 系数 t 检验)中最为常见。
- 拉格朗日乘数检验(LM / 得分检验):在受限估计 处评估得分向量偏离零的程度——若约束正确,得分函数在该点应接近零。检验统计量为 \[ \text{LM} = s(\tilde{\theta})^\top \mathcal{I}(\tilde{\theta})^{-1} s(\tilde{\theta}) \xrightarrow{d} \chi^2_r \] 直觉:若 为真,受限 MLE 处的对数似然梯度应近乎平坦。LM 检验只需估计受限模型,在检验残差异方差(Breusch-Pagan 检验)、残差自相关(Breusch-Godfrey 检验)等诊断性检验中广泛应用。
几何直觉与 Wald 不等式
在参数空间中,三种检验对应衡量"无约束估计"与"受限估计"之间距离的不同方式。LR 以对数似然曲面的垂直落差度量距离,Wald 以无约束点处切平面的二次型度量距离,LM 以受限点处切平面的二次型度量距离。当似然函数呈标准二次型时,三者精确等价;在一般曲线型似然下,存在Wald 不等式:
即 Wald 检验最倾向于拒绝 (检验量最大),LM 检验最保守(检验量最小),LR 居中。这一排序在实践中意味着:若 LM 已拒绝 ,则 LR 和 Wald 必拒绝;若 Wald 无法拒绝,则前两者更无法拒绝。理解此不等式有助于解释为何不同检验可能给出冲突结论——这并非方法缺陷,而是对同一证据的不同度量视角。
适用场景与选择指南
- 选择 LR:当无约束和受限模型均易估计时(如嵌套模型比较、方差分析中比较嵌套方差结构),LR 凭借参数化不变性和稳健的小样本性质成为首选。
- 选择 Wald:当仅需检验少数线性约束且无约束模型已估计完毕时,Wald 最为便捷。OLS 中的单个系数 t 检验和联合 F 检验本质上是 Wald 检验的特例。但需注意,在非线性约束或似然函数高度非二次时,Wald 可能表现不佳。
- 选择 LM:当受限模型远易于无约束模型时(如仅需检验是否需添加额外变量),LM 是自然选择。它也广泛用于"从简单出发"的模型诊断——先估计最简模型,再以 LM 检验判断是否需要放宽约束。
历史脉络与人物
三大检验的确立横跨近半个世纪。Jerzy Neyman 和 Egon Pearson 在 1928 年提出似然比检验原理,奠定了 Neyman-Pearson 引理的基础框架。1943 年,Abraham Wald 在《数理统计年鉴》上发表论文,提出了基于无约束估计量的二次型检验——即后来的 Wald 检验,其动机之一是避免似然比检验需两次最大化似然函数的计算负担。1948 年,C. R. Rao 从费雪得分函数的几何性质出发,提出了得分检验(即 LM 检验),后经 Silvey(1959)和 Aitchison(1962)等人完善。直到 1980 年代,Robert Engle 在计量经济学文献中系统阐述了 LM 检验在模型诊断中的广泛应用(包括 ARCH 效应的发现),使得这一检验家族在应用经济学界获得了前所未有的重视。
具体示例:线性回归中检验排除约束
以最常见的情形为例:考虑线性回归模型
待检验假设 ( 为 约束矩阵)。记无约束 OLS 估计为 ,受限 OLS(在 下)为 ,残差平方和分别为 和 。
在此经典场合,三种检验简化为:
在线性回归且误差正态的条件下,Wald 和 LM 经适当缩放后均等价于精确的 检验(乘以 后服从 分布除以 ),而 LR 则为大样本近似。此例清晰地展示了三者的关系:Wald 以无约束估计为中心评估约束,LM 以受限估计为中心评估约束,LR 通过残差平方和之比同时反映两者的信息差。
软件实现与解读
主流计量软件对三大检验提供了不同程度的支持。Stata 的 \texttt{test} 和 \texttt{testparm} 命令默认给出 Wald 检验结果,\texttt{lrtest} 命令在估计嵌套模型后可输出 LR 检验;LM 检验则需通过 \texttt{estat} 系列命令或用户编写的程序实现。R 语言中,\texttt{lm()} 对象的 \texttt{summary()} 输出系数显著性(Wald 型 t 检验),\texttt{anova()} 比较嵌套模型时默认使用 F 检验(有限样本 Wald 变体),\texttt{lmtest} 包提供 \texttt{waldtest()} 和 \texttt{lrtest()} 函数。Python 的 \texttt{statsmodels} 在 \texttt{model.fit()} 后通过 \texttt{.wald\_test()}、\texttt{.compare\_lr\_test()} 等方法支持三大检验。理解不同软件默认输出的检验归属,是避免错误解读实证结果的基本功。
广义检验家族
- 卡方检验家族:包括皮尔逊卡方检验、似然比卡方检验( 检验),均基于列联表分析中观测频数与期望频数的差异度量。
- F 检验家族:在线性回归框架下,Chow 检验、结构变化检验、部分 F 检验等均可视作对线性约束的 Wald 型检验(有限样本精确 F 分布)。
- 稳健检验家族:以Huber-White 稳健标准误为基础构建的稳健 Wald、稳健 LM 检验,与广义矩方法(GMM)中的 J 检验(Hansen 检验)共享渐近卡方分布的谱系。
- 信息准则家族:AIC、BIC 虽非正式的假设检验,但在模型选择中与 LR 检验存在密切联系——LR 在嵌套模型中以显著性水平 做裁决,而 AIC 近似于以固定临界值 2 进行 LR 检验。
核心公式汇总
检验家族——特别是 LR/Wald/LM 三位一体——的精髓在于:同一统计证据可以通过不同视角(似然值之差、估计值与约束之差、得分向量与零之差)来审视,三种视角在大样本下渐近等价,但在有限样本及非线性约束下各具优势与局限。理解这一家族的内在结构,是深入掌握现代统计推断方法论的关键。