ARTICLE

广义最小二乘法 (GLS)

广义最小二乘法 (Generalized Least Squares, GLS) 广义最小二乘法(Generalized Least Squares, GLS)是普通最小二乘法(OLS)在误差项存在异方差或自相关时的推广。在经典线性回归模型的Gauss-Markov 定理中,误差项需满足球面方差假设 Var( X) = ^2 I_n。当该假设被违反时,OLS

浏览 0 更新 2025-10-26

广义最小二乘法 (Generalized Least Squares, GLS)

广义最小二乘法(Generalized Least Squares, GLS)是普通最小二乘法(OLS)在误差项存在异方差自相关时的推广。在经典线性回归模型的Gauss-Markov 定理中,误差项需满足球面方差假设 Var(εX)=σ2In\mathrm{Var}(\boldsymbol{\varepsilon} \mid \mathbf{X}) = \sigma^2 \mathbf{I}_n。当该假设被违反时,OLS 虽仍保持无偏性和一致性,但丧失最佳线性无偏估计量(BLUE)的性质。GLS 通过对模型进行适当变换,恢复球面误差结构,从而重新获得 BLUE 地位。

模型设定

考虑广义线性回归模型:

y=Xβ+ε,Var(εX)=σ2Ω\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon},\qquad \mathrm{Var}(\boldsymbol{\varepsilon} \mid \mathbf{X}) = \sigma^2 \boldsymbol{\Omega}

其中 Ω\boldsymbol{\Omega}n×nn \times n 已知的正定对称矩阵。GLS 的核心思想是利用 Ω\boldsymbol{\Omega}Cholesky 分解 Ω=LL\boldsymbol{\Omega} = \mathbf{L}\mathbf{L}' 对原模型进行变换。令 P=L1\mathbf{P} = \mathbf{L}^{-1},则变换后的模型为:

y~=Py=PXβ+Pε=X~β+ε~\tilde{\mathbf{y}} = \mathbf{P}\mathbf{y} = \mathbf{P}\mathbf{X}\boldsymbol{\beta} + \mathbf{P}\boldsymbol{\varepsilon} = \tilde{\mathbf{X}}\boldsymbol{\beta} + \tilde{\boldsymbol{\varepsilon}}

由于 Var(ε~X)=σ2PΩP=σ2In\mathrm{Var}(\tilde{\boldsymbol{\varepsilon}} \mid \mathbf{X}) = \sigma^2 \mathbf{P}\boldsymbol{\Omega}\mathbf{P}' = \sigma^2 \mathbf{I}_n,变换后的误差满足球面方差条件,对变换后模型应用 OLS 即得 GLS 估计量:

β^GLS=(X~X~)1X~y~=(XΩ1X)1XΩ1y\hat{\boldsymbol{\beta}}_{\text{GLS}} = (\tilde{\mathbf{X}}'\tilde{\mathbf{X}})^{-1}\tilde{\mathbf{X}}'\tilde{\mathbf{y}} = (\mathbf{X}'\boldsymbol{\Omega}^{-1}\mathbf{X})^{-1}\mathbf{X}'\boldsymbol{\Omega}^{-1}\mathbf{y}

Aitken 定理

Aitken 定理是 Gauss-Markov 定理在广义模型中的自然推广:在 Var(ε)=σ2Ω\mathrm{Var}(\boldsymbol{\varepsilon}) = \sigma^2\boldsymbol{\Omega} 的设定下,GLS 估计量在所有线性无偏估计量中具有最小方差,即 GLS 是 BLUE。该定理的证明思路与 Gauss-Markov 定理完全一致:任一线性无偏估计量可表示为 β~=β^GLS+Dy\tilde{\boldsymbol{\beta}} = \hat{\boldsymbol{\beta}}_{\text{GLS}} + \mathbf{D}\mathbf{y},在无偏约束 DX=0\mathbf{D}\mathbf{X} = \mathbf{0} 下,其方差矩阵总可分解为 Var(β~)=Var(β^GLS)+σ2DΩD\mathrm{Var}(\tilde{\boldsymbol{\beta}}) = \mathrm{Var}(\hat{\boldsymbol{\beta}}_{\text{GLS}}) + \sigma^2\mathbf{D}\boldsymbol{\Omega}\mathbf{D}',其中第二项为半正定矩阵。GLS 估计量的方差矩阵为:

Var(β^GLSX)=σ2(XΩ1X)1\mathrm{Var}(\hat{\boldsymbol{\beta}}_{\text{GLS}} \mid \mathbf{X}) = \sigma^2 (\mathbf{X}'\boldsymbol{\Omega}^{-1}\mathbf{X})^{-1}

该方差表达式表明,GLS 的效率取决于 Ω1\boldsymbol{\Omega}^{-1}X\mathbf{X} 列空间的"投影"方式。与 OLS 方差 σ2(XX)1\sigma^2(\mathbf{X}'\mathbf{X})^{-1} 相比,GLS 方差中的 XΩ1X\mathbf{X}'\boldsymbol{\Omega}^{-1}\mathbf{X} 可视为对每个观测按其误差方差的倒数重新加权后的协方差矩阵,这使得具有较小误差方差的观测在估计中发挥更大作用。

加权最小二乘法 (WLS) 作为特例

Ω\boldsymbol{\Omega} 为对角矩阵(即仅存在异方差而无自相关)时,GLS 退化为加权最小二乘法(Weighted Least Squares, WLS):

Ω=diag(ω1,ω2,,ωn),β^WLS=(i=1nxixiωi)1i=1nxiyiωi\boldsymbol{\Omega} = \mathrm{diag}(\omega_1, \omega_2, \dots, \omega_n),\quad \hat{\boldsymbol{\beta}}_{\text{WLS}} = \left(\sum_{i=1}^n \frac{\mathbf{x}_i\mathbf{x}_i'}{\omega_i}\right)^{-1}\sum_{i=1}^n \frac{\mathbf{x}_i y_i}{\omega_i}

此时 GLS 等价于以 1/ωi1/\sqrt{\omega_i} 作为权重的变换——每个观测均按其误差方差倒数的平方根进行缩放,方差大的观测获得较小权重,方差小的观测获得较大权重,从而实现效率上的最优组合。WLS 在横截面数据分析中尤为常见,例如在估计企业层面的生产函数时,大规模企业的利润方差通常较小企业更大,以企业规模(如员工人数或资产总额)的倒数作为权重的 WLS 估计比简单 OLS 更为有效。

可行广义最小二乘法 (FGLS)

在实证应用中,Ω\boldsymbol{\Omega} 通常是未知的,必须从数据中估计。此时使用估计的 Ω^\hat{\boldsymbol{\Omega}} 代替真实 Ω\boldsymbol{\Omega} 所得到的 GLS 估计量称为可行广义最小二乘法(Feasible Generalized Least Squares, FGLS)。标准的 FGLS 流程为:

  1. 首先用 OLS 估计模型,获得一致估计量 β^OLS\hat{\boldsymbol{\beta}}_{\text{OLS}},并计算残差序列 ε^\hat{\boldsymbol{\varepsilon}}
  2. 利用残差构建 Ω\boldsymbol{\Omega} 的一致估计 Ω^\hat{\boldsymbol{\Omega}}。具体方法取决于 Ω\boldsymbol{\Omega} 的参数化结构——若为异方差,可对 lnε^i2\ln \hat{\varepsilon}_i^2 进行辅助回归;若为自相关,可估计一阶自回归系数 ρ^\hat{\rho}
  3. Ω^1\hat{\boldsymbol{\Omega}}^{-1} 对数据进行变换,计算 FGLS 估计量:β^FGLS=(XΩ^1X)1XΩ^1y\hat{\boldsymbol{\beta}}_{\text{FGLS}} = (\mathbf{X}'\hat{\boldsymbol{\Omega}}^{-1}\mathbf{X})^{-1}\mathbf{X}'\hat{\boldsymbol{\Omega}}^{-1}\mathbf{y}

在适当正则条件下,FGLS 与真实 GLS 具有相同的渐近分布。需注意的是,FGLS 在有限样本下不再是 BLUE——因为 Ω^\hat{\boldsymbol{\Omega}} 的估计引入了额外的不确定性——但在大样本下一次迭代即可达到渐近有效。FGLS 与 OLS 的有限样本比较是计量经济学理论的重要课题:蒙特卡洛模拟研究表明,当样本量较小时,FGLS 的方差可能超过 OLS,产生所谓的"效率损失悖论"。

与 OLS 及 MLE 的关系

一个重要的理论结果是:当且仅当 Ω\boldsymbol{\Omega} 可表示为 XΛX+σ2I\mathbf{X}\mathbf{\Lambda}\mathbf{X}' + \sigma^2\mathbf{I} 的形式或 X\mathbf{X} 的列向量恰好是 Ω1\boldsymbol{\Omega}^{-1} 的特征向量时,GLS 与 OLS 在数值上等价。更一般地,GLS 相对于 OLS 的效率增益取决于 Ω\boldsymbol{\Omega}X\mathbf{X} 列空间的关系:如果 Ω\boldsymbol{\Omega} 的变化方向与 X\mathbf{X} 的列空间密切相关,GLS 的增益可能相当可观。计量经济学文献中常用效率比(efficiency ratio)来量化这一增益——即 OLS 方差与 GLS 方差的比值在某种意义下的度量。

对于 GLS 与极大似然估计(MLE)的关系,在误差服从多元正态分布的假设下,GLS 估计量与 MLE 完全等价。具体而言,多元正态对数似然函数的一阶条件恰好导出 GLS 估计量,这意味着 GLS 不仅在线性无偏类中是最优的,在正态分布假设下也是全参数模型中的有效估计量,能够达到Cramér-Rao 下界

应用场景

GLS 在计量经济学中有广泛的应用:

  • 异方差处理:在横截面数据中,当各组观测的误差方差不同时(如不同收入阶层消费支出的方差差异),WLS 是标准处理方法。Breusch-Pagan 检验White 检验常用于诊断异方差的存在。
  • 自相关修正:在时间序列回归中,误差项往往存在序列相关,此时Cochrane-Orcutt 迭代法Prais-Winsten 估计等 FGLS 程序被广泛使用。Durbin-Watson 检验是诊断一阶自相关的经典工具,但需注意其对高阶自相关和包含滞后因变量模型的不适用性。
  • 似无关回归 (SUR):Zellner 提出的 SUR 模型利用不同方程误差项之间的同期相关性,通过系统 GLS 实现比逐方程 OLS 更高的估计效率。SUR 在需求系统估计和生产函数联立估计中有重要应用。
  • 面板数据随机效应模型:在面板数据中,若个体效应与解释变量不相关,随机效应估计量本质上是对复合误差结构实施 GLS 变换的结果。相对于固定效应模型,它在个体间变异上提取更多信息,从而获得更高的效率。Hausman 检验正是通过比较固定效应和随机效应估计量的差异来判断 GLS 假设是否成立。
  • 空间计量经济学:当相邻区域之间的误差存在空间依赖时,GLS 框架可用于空间误差模型(Spatial Error Model)的估计,其中 Ω\boldsymbol{\Omega} 的参数化依赖于区域间的地理或经济距离矩阵。

局限性与注意事项

GLS 虽然在理论上具有最优线性性质,但实际应用需谨慎:若 Ω\boldsymbol{\Omega} 被错误设定,FGLS 可能比 OLS 效率更低甚至不一致。这体现了偏差-方差权衡在更一般框架下的存在——当研究者为了获得效率增益而引入对 Ω\boldsymbol{\Omega} 结构的参数化假设时,模型误设风险也随之上升。此外,GLS 要求 Ω\boldsymbol{\Omega} 的维度随样本量平方增长(n×nn \times n),当 nn 较大时,直接计算 Ω1\boldsymbol{\Omega}^{-1} 的数值运算量巨大,计算复杂度可能达到 O(n3)O(n^3)。针对此问题,实践中常对 Ω\boldsymbol{\Omega} 施加稀疏结构(如 AR(1) 的带状逆矩阵)或使用迭代算法进行近似求解。

Ω\boldsymbol{\Omega} 的真实结构无法合理参数化时,使用异方差稳健标准误(如 White 标准误或 Newey-West 标准误)配合 OLS 估计可能是比 FGLS 更稳妥的策略——虽然 OLS 在此情形下不是 BLUE,但稳健标准误至少能提供正确的统计推断。这一策略在应用计量经济学中被称为"在估计中容忍低效率,在推断中保持正确性",是偏误-效率权衡的一种务实取向。

总体而言,GLS 是现代计量经济学和统计学中处理相关误差和异方差的基础性方法,其理论框架从 Aitken(1935)的经典论文延续至今,在时间序列计量经济学面板数据分析和空间统计等分支中持续发挥核心作用。GLS 的思想也渗透到机器学习的核方法和高斯过程回归中——后者本质上是在函数空间中对协方差结构进行 GLS 式的建模和推断,体现了这一经典统计工具在现代数据科学中的持久生命力。