ARTICLE

GLS

GLS:广义最小二乘法 概述 GLS(Generalized Least Squares,广义最小二乘法)是经典最小二乘法(OLS)的重要推广,由计量经济学家阿诺德·策尔纳(Arnold Zellner)等人在20世纪60年代系统发展。GLS的核心贡献在于:当回归模型的误差项不满足经典假设(即存在异方差性或自相关性)时,仍能提供有效且一致的参数估计。在经济学

浏览 6 更新 2025-11-10

GLS:广义最小二乘法

概述

GLS(Generalized Least Squares,广义最小二乘法)是经典最小二乘法(OLS)的重要推广,由计量经济学家阿诺德·策尔纳(Arnold Zellner)等人在20世纪60年代系统发展。GLS的核心贡献在于:当回归模型的误差项不满足经典假设(即存在异方差性或自相关性)时,仍能提供有效且一致的参数估计。在经济学、金融学、社会科学和生物统计学等领域,GLS已成为处理复杂数据结构不可或缺的工具。

理论基础

模型设定

经典线性回归模型可表示为:

y=Xβ+ε,E[ε]=0,Var(ε)=σ2Ω\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon}, \quad \mathbb{E}[\boldsymbol{\varepsilon}] = \mathbf{0}, \quad \text{Var}(\boldsymbol{\varepsilon}) = \sigma^2 \boldsymbol{\Omega}

其中 Ω\boldsymbol{\Omega} 是一个 n×nn \times n 的正定对称矩阵,刻画了误差项之间的相关结构和方差差异。当 Ω=I\boldsymbol{\Omega} = \mathbf{I} 时,GLS退化为OLS。GLS的核心思想是对原模型进行线性变换,使得变换后的误差项满足球面扰动假设。

GLS估计量

P\mathbf{P}Ω1\boldsymbol{\Omega}^{-1} 的Cholesky分解因子,即 Ω1=PP\boldsymbol{\Omega}^{-1} = \mathbf{P}^\top \mathbf{P}。对原模型左乘 P\mathbf{P},得到变换后的模型:

Py=PXβ+Pε\mathbf{P}\mathbf{y} = \mathbf{P}\mathbf{X}\boldsymbol{\beta} + \mathbf{P}\boldsymbol{\varepsilon}

变换后的误差项 Pε\mathbf{P}\boldsymbol{\varepsilon} 满足 Var(Pε)=σ2I\text{Var}(\mathbf{P}\boldsymbol{\varepsilon}) = \sigma^2 \mathbf{I}。对变换后的模型应用OLS,即得到GLS估计量:

β^GLS=(XΩ1X)1XΩ1y\hat{\boldsymbol{\beta}}_{\mathrm{GLS}} = (\mathbf{X}^\top \boldsymbol{\Omega}^{-1} \mathbf{X})^{-1} \mathbf{X}^\top \boldsymbol{\Omega}^{-1} \mathbf{y}

GLS估计量是最优线性无偏估计量(BLUE),即在所有线性无偏估计量中具有最小方差。这一性质是高斯—马尔可夫定理在广义情形下的自然推广。

特殊情形

加权最小二乘法(WLS)

Ω\boldsymbol{\Omega} 为对角矩阵时,GLS退化为加权最小二乘法。此时,每个观测被赋予一个权重,权重与误差方差成反比。WLS常被用于处理异方差性问题,例如在调查数据中,不同群体的抽样方差不同。

可行广义最小二乘法(FGLS)

实际应用中 Ω\boldsymbol{\Omega} 通常是未知的。FGLS采用两步策略:首先用OLS估计残差,利用残差估计 Ω\boldsymbol{\Omega} 的参数结构;然后将估计值 Ω^\hat{\boldsymbol{\Omega}} 代入GLS公式。常见的FGLS方法包括:

  • 异方差情形:通过残差平方对解释变量的回归估计方差函数
  • 自相关情形:利用残差估计自回归系数,构造 Ω\boldsymbol{\Omega} 的估计
  • 面板数据:利用组内和组间变异估计随机效应模型中的方差成分

FGLS在大样本下具有与已知 Ω\boldsymbol{\Omega} 的GLS相同的渐近性质,但在小样本中可能存在偏差,因此需要谨慎使用。

应用场景

时间序列分析

在时间序列回归中,误差项往往存在序列相关(自相关),违反OLS的独立同分布假设。GLS通过建模误差的自回归结构(如AR(1)或ARMA过程)来校正这一问题。例如,在估计消费函数时,如果当期消费受上一期冲击的影响,则误差项存在一阶自相关,此时GLS比OLS更有效。

面板数据

面板数据同时包含个体和时间维度,误差结构更为复杂。随机效应模型假定个体效应与解释变量不相关,其误差结构具有组内相关的特点,恰好可由GLS框架处理。GLS在此情境下能够利用个体内部的序列信息和个体之间的截面信息,实现更高效率的估计。

空间计量

在区域经济学和地理学中,邻近地区的观测往往相互影响,导致误差项存在空间相关性。GLS通过构造空间权重矩阵来描述这种空间依赖结构,从而获得一致的参数估计。

分层数据

在教育、卫生和劳动经济学中,数据常具有分层结构(如学生嵌套于班级,班级嵌套于学校)。GLS能够合理地分配各层之间的方差,避免因忽略组内相关性而导致的标准误低估问题。

GLS与OLS的对比

从估计量的形式来看,OLS是GLS在 Ω=I\boldsymbol{\Omega} = \mathbf{I} 时的特例。两者的核心区别在于:

  • 效率:当误差项存在异方差或自相关时,GLS的方差更小,估计更精确
  • 标准误:OLS的标准误即使在异方差一致估计下也无法达到GLS的效率
  • 计算成本:GLS需要估计 Ω\boldsymbol{\Omega} 并计算矩阵逆,计算量显著大于OLS
  • 稳健性:如果 Ω\boldsymbol{\Omega} 被错误指定,GLS可能比OLS更差;而OLS在错误指定下至少保持一致性

实践中,研究者通常在怀疑误差结构复杂时首选GLS(或FGLS),而在样本量较小或对误差结构缺乏先验信息时倾向使用带有稳健标准误的OLS。

局限性

GLS的优势依赖于对误差协方差结构的正确设定。若 Ω\boldsymbol{\Omega} 被错误指定,GLS估计量可能不一致,且推断结论不可靠。这一局限在FGLS中尤为突出,因为两步法的误差会在有限样本中放大。此外,当样本量相对于参数规模较小时,GLS可能面临过度参数化的问题。

拓展方向

  • 迭代FGLS:将两步法扩展为迭代过程,重复估计协方差结构和回归系数直至参数收敛,以提高小样本表现和估计稳定性
  • 半参数GLS:不对 Ω\boldsymbol{\Omega} 施加严格的参数形式,采用核平滑或样条等非参数方法灵活估计协方差结构
  • 贝叶斯GLS:将误差协方差矩阵视为随机参数,通过MCMC或变分推断进行参数与超参数的联合推断
  • 高维GLS:结合LASSO或弹性网等正则化技术,处理解释变量维度远大于样本量的高维稀疏场景
  • 非线性GLS:将GLS思想推广至非线性回归模型,通过迭代重加权最小二乘算法实现参数估计

小结

GLS是计量经济学的基石方法之一,它将OLS的应用范围从理想化的球面扰动拓展至更贴近现实的复杂误差结构。理解GLS的原理、适用条件和局限性,对于正确运用回归方法进行因果推断和预测具有重要意义。在当代大数据环境中,GLS的思想已渗透到机器学习中的广义可加模型、高斯过程回归等前沿方法之中,持续发挥着基础性的理论价值。