ARTICLE

嵌套模型

嵌套模型 (Nested Models) 嵌套模型是统计学和计量经济学中描述两个模型之间包含关系的基本概念:若模型 A 可通过对模型 B 的参数施加一组约束而得到,则称模型 A 嵌套于模型 B。换言之,受限模型是更一般模型的特例——前者的参数空间是后者参数空间的子集。嵌套关系是假设检验中三大经典检验——似然比检验、Wald检验和拉格朗日乘数检验——的逻辑基础

浏览 0 更新 2026-07-20

嵌套模型 (Nested Models)

嵌套模型是统计学和计量经济学中描述两个模型之间包含关系的基本概念:若模型 A 可通过对模型 B 的参数施加一组约束而得到,则称模型 A 嵌套于模型 B。换言之,受限模型是更一般模型的特例——前者的参数空间是后者参数空间的子集。嵌套关系是假设检验中三大经典检验——似然比检验Wald检验拉格朗日乘数检验——的逻辑基础,也是模型选择与模型简化策略的理论出发点。

形式化定义

设有两个统计模型,分别以参数向量 θΘRp\boldsymbol{\theta} \in \Theta \subseteq \mathbb{R}^pβBRq\boldsymbol{\beta} \in \mathcal{B} \subseteq \mathbb{R}^q 刻画,其中 q<pq < p。称参数化为 β\boldsymbol{\beta} 的模型(受限模型)嵌套于参数化为 θ\boldsymbol{\theta} 的模型(无约束模型),当存在满射 g:ΘBg: \Theta \to \mathcal{B} 使得受限模型下的似然函数可表示为:

Lrestricted(βy)=Lunrestricted(θy)对一切满足 g(θ)=β 的 θ.L_{\text{restricted}}(\boldsymbol{\beta} \mid \mathbf{y}) = L_{\text{unrestricted}}(\boldsymbol{\theta} \mid \mathbf{y}) \quad \text{对一切满足 } g(\boldsymbol{\theta}) = \boldsymbol{\beta} \text{ 的 } \boldsymbol{\theta}.

最常见的嵌套形式是线性约束:令 θ=(θ1,θ2)\boldsymbol{\theta} = (\boldsymbol{\theta}_1, \boldsymbol{\theta}_2),其中 θ1Rq\boldsymbol{\theta}_1 \in \mathbb{R}^qθ2Rpq\boldsymbol{\theta}_2 \in \mathbb{R}^{p - q}。若约束为 θ2=0\boldsymbol{\theta}_2 = \mathbf{0},则受限模型仅包含前 qq 个参数,显然嵌套于全模型。

线性回归模型框架下,这一概念尤为直观。考虑两个嵌套的回归设定:

\begin{align} \(\text{Model U (Unrestricted):}\)\&\quad \(y_i\) = \(\beta_0\) + \(\beta_1\) \(x_{i1}\) + \(\beta_2\) \(x_{i2}\) + \(\beta_3\) \(x_{i3}\) + \(\varepsilon_i\), \\ \(\text{Model R (Restricted):}\)\&\quad \(y_i\) = \(\beta_0\) + \(\beta_1\) \(x_{i1}\) + \(\varepsilon_i\). \end{align}

模型 R 是模型 U 在约束 β2=β3=0\beta_2 = \beta_3 = 0 下的特例,因此模型 R 嵌套于模型 U。

嵌套模型的检验框架

嵌套结构使得研究者能够以严格的统计推断方式判断额外参数的引入是否具有实质性的解释力增益。三种渐近等价的检验构成了经典框架:

  1. 似然比检验 (Likelihood Ratio Test, LRT):直接比较受限与无约束模型的最大化似然值。检验统计量为: \[ \text{LR} = -2 \left[ \log L(\hat{\boldsymbol{\beta}}_{\text{R}}) - \log L(\hat{\boldsymbol{\theta}}_{\text{U}}) \right] \xrightarrow{d} \chi^2_{p - q}, \] 其中 β^R\hat{\boldsymbol{\beta}}_{\text{R}}θ^U\hat{\boldsymbol{\theta}}_{\text{U}} 分别为受限与无约束模型的极大似然估计。LR 检验需要同时估计两个模型,计算量相对较大,但直觉清晰:若约束为真,施加约束的似然损失应当微小。
  2. Wald 检验:仅需估计无约束模型,直接检验约束是否近似成立。设约束为 H0:Rθ=rH_0: \mathbf{R}\boldsymbol{\theta} = \mathbf{r},其中 R\mathbf{R}(pq)×p(p - q) \times p 的选择矩阵。Wald 统计量为: \[ W = (\mathbf{R}\hat{\boldsymbol{\theta}}_{\text{U}} - \mathbf{r})^{\top} \left[ \mathbf{R} \, \widehat{\operatorname{Var}}(\hat{\boldsymbol{\theta}}_{\text{U}}) \, \mathbf{R}^{\top} \right]^{-1} (\mathbf{R}\hat{\boldsymbol{\theta}}_{\text{U}} - \mathbf{r}) \xrightarrow{d} \chi^2_{p - q}. \] Wald 检验的便利在于只需拟合一次模型,因此在实证研究中广受欢迎。但其有限样本性质对参数化的非线性变换敏感。
  3. 拉格朗日乘数检验 (Lagrange Multiplier Test / Score Test):仅需估计受限模型,基于受限估计下得分函数是否接近零来判断约束的有效性。其典型代表是Breusch-Pagan检验(检验同方差性)和Durbin-Watson检验(检验自相关)。LM 检验的计算负担最轻,在仅拟合受限模型即可完成检验的场景中具有明显优势。

在线性回归的正态误差假设下,上述检验退化为精确的F检验

F=(RSSRRSSU)/(pq)RSSU/(np)Fpq,np,F = \frac{(\text{RSS}_{\text{R}} - \text{RSS}_{\text{U}}) / (p - q)}{\text{RSS}_{\text{U}} / (n - p)} \sim F_{p - q,\, n - p},

其中 RSS 为残差平方和。F 检验在有限样本下精确成立,是线性回归中最常用的嵌套模型比较工具。

嵌套模型选择与信息准则

检验框架天然倾向于保留更复杂的模型(控制第 I 类错误),但在预测导向的建模中,核心关切并非"约束是否严格为真",而是"额外参数是否带来足够的预测改善以补偿其估计噪声"。AICBIC等信息准则提供了不同于假设检验的决策逻辑:

  • AICAIC=2logL+2k\text{AIC} = -2 \log L + 2k,其中 kk 为参数个数。AIC 最小化等价于以 KL 散度衡量的最优渐近预测。AIC 不要求模型嵌套,但嵌套框架下的比较更能揭示参数增减的边际信息贡献。
  • BICBIC=2logL+klogn\text{BIC} = -2 \log L + k \log n,对额外参数的惩罚随样本量增大而加重,在大样本下渐近一致地选择真实模型(若真实模型在候选集中)。

AIC 和 BIC 可能给出相互矛盾的推荐:AIC 倾向于选择更复杂的模型(惩罚系数为 2),而 BIC 在大样本下更偏好简洁模型(惩罚系数为 logn\log n)。这一张力本质上反映了预测精度与模型可解释性之间的权衡。

嵌套与非嵌套:Davidson-MacKinnon J 检验

并非所有模型比较问题都具有嵌套结构。当两个竞争模型互不嵌套时——例如一个模型使用线性形式而另一个使用对数线性形式,或两个模型各包含对方所没有的变量——前述检验方法失效。此时常采用Davidson-MacKinnon J检验:将模型 A 的拟合值作为额外回归元纳入模型 B,检验其系数是否显著;反之亦然。可能出现四种结果:A 被拒绝而 B 不被拒绝、B 被拒绝而 A 不被拒绝、两者均被拒绝(两个模型都不充分)、两者均不被拒绝(数据不足以区分)。

常见误区

嵌套模型的检验存在若干容易误用的陷阱。其一,顺序检验中的多重比较问题:若以逐步回归或"从一般到特殊"的策略反复进行嵌套检验,名义显著性水平被严重低估,倾向于保留过多无关变量。其二,忽略预检验偏差:以预检验结果决定是否将某个变量纳入模型后,后续标准误的估计并未考虑模型选择的不确定性,导致置信区间的实际覆盖率低于名义水平。其三,误用 Wald 检验于边界约束:当零假设落在参数空间的边界上(如方差分量的零假设 σ2=0\sigma^2 = 0),标准的 χ2\chi^2 渐近分布不再适用,需改用混合 χ2\chi^2 分布或自助法推断。

因此,嵌套模型的检验宜与交叉验证、信息准则和稳健性分析结合使用,避免机械地以单一 pp 值驱动模型选择。