ARTICLE
广义最小二乘
广义最小二乘(Generalized Least Squares,简称GLS)是经典线性回归模型的重要推广,主要解决误差项存在异方差或自相关时普通最小二乘(OLS)估计失效的问题。在古典OLS假设中,误差项需满足球形扰动条件,即同方差且无自相关。然而在实际经济数据中,这一条件往往难以成立。例如截面数据中不同观测单位的方差可能不同,时间序列数据中相邻期的误差常
广义最小二乘(Generalized Least Squares,简称GLS)是经典线性回归模型的重要推广,主要解决误差项存在异方差或自相关时普通最小二乘(OLS)估计失效的问题。在古典OLS假设中,误差项需满足球形扰动条件,即同方差且无自相关。然而在实际经济数据中,这一条件往往难以成立。例如截面数据中不同观测单位的方差可能不同,时间序列数据中相邻期的误差常常相互关联。在这些情形下,直接使用OLS虽然仍能得到无偏的系数估计,但不再有效——估计量的方差不再是所有线性无偏估计中最小的,因而无法进行可靠的统计推断。具体而言,当存在异方差时,OLS标准误的计算会出错,导致t统计量和F统计量失真;当存在自相关时,OLS会低估回归系数的标准误,使检验结果过度乐观。这些问题在金融资产定价、宏观经济预测和面板数据分析中尤为突出。
GLS的基本思想是利用误差协方差矩阵的结构信息,对原始数据进行适当变换,使得变换后的数据满足球形扰动假设,从而恢复最优线性无偏估计(BLUE)的性质。具体而言,考虑线性模型y = Xβ + ε,其中E[ε] = 0,Var[ε] = σ²Ω,Ω是一个已知的正定对称矩阵。由于Ω的存在,误差项不再满足同方差或无自相关的条件。GLS通过对模型两边同时左乘Ω的负二分之一次方,即用Ω的平方根逆矩阵对数据进行加权,将原模型转化为一个误差项为球形扰动的新模型。在这个变换后的模型中,误差项的协方差矩阵变为σ²I,满足古典高斯-马尔可夫定理的所有条件,因此可以直接应用OLS得到β的GLS估计量。从几何角度看,GLS相当于在适当的度量下重新定义了距离,使得每个观测对估计的贡献与其精度成比例。
GLS估计量具有若干优良性质。第一,在Ω已知的条件下,GLS估计量是最优线性无偏估计,其方差小于OLS估计量的方差,这一结论由扩展的高斯-马尔可夫定理保证。第二,GLS估计量是一致估计,在大样本下渐进正态分布,因此可以基于正态分布构造置信区间和进行假设检验。第三,与OLS相比,GLS的标准误更为可靠,基于GLS的t检验和F检验具有正确的显著性水平,不会因异方差或自相关的存在而产生扭曲。第四,GLS的拟合优度指标如广义R²也具有合理的解释。
在实证研究中,Ω通常是未知的,需要从数据中估计。当Ω被估计而非事先已知时,该方法称为可行广义最小二乘(Feasible Generalized Least Squares,FGLS)。FGLS的标准步骤分为两个阶段:第一阶段,用OLS估计原模型,得到残差向量ê;第二阶段,利用残差估计Ω的结构参数,例如在异方差情形下用残差平方估计各观测的方差,在自相关情形下用残差的自相关系数估计Ω中的相关结构;最后,用估计出的Ω̂进行GLS估计。FGLS在大样本下与已知Ω的GLS具有相同的渐近分布,因此在大规模数据集中有广泛应用。但在小样本中,FGLS可能出现有限样本偏误,需要借助Bootstrap等重抽样方法进行修正。此外,迭代FGLS方法通过反复交替估计β和Ω直至收敛,通常能获得更好的有限样本表现。
GLS在计量经济学中有多个重要应用场景。加权最小二乘(Weighted Least Squares,WLS)是GLS在异方差情形下的特例,此时Ω为一个对角矩阵,每个对角元素对应各观测误差的方差,估计时对方差较大的观测赋予较小的权重。在时间序列分析中,Cochrane-Orcutt方法和Prais-Winsten方法用于处理一阶自相关误差AR(1),这本质上是GLS在Ω具有特定自相关结构时的实现。似不相关回归(Seemingly Unrelated Regressions,SUR)模型利用GLS的思想对多个回归方程进行联合估计,通过跨方程误差相关性的校正提高估计效率。此外,随机效应面板数据模型也通过GLS在组内和组间变异之间进行最优加权,从而获得比OLS更有效的估计。在空间计量经济学中,GLS还被推广为空间广义最小二乘,用于处理截面单元之间的空间依赖关系。
使用GLS需注意几个关键前提和局限性。第一,Ω的设定必须正确,错误设定会导致估计不一致或效率损失,因此在应用中应对残差进行充分的诊断检验,如Breusch-Pagan检验、White检验、Durbin-Watson检验等。第二,Ω的结构越复杂,待估参数越多,小样本下的估计风险越大,容易出现过度拟合的问题。第三,GLS对异常值高度敏感,因为异常值会同时影响残差和Ω的估计,应在建模之前进行稳健性筛查。第四,FGLS的两步估计法可能导致标准误的低估,建议使用迭代FGLS或最大似然估计加以改进。第五,GLS要求Ω为正定矩阵,这一条件在实际计算中可能因数值精度问题而难以满足,可采用适当的正则化方法处理。
总体而言,广义最小二乘是回归分析工具箱中的核心方法。当数据存在异方差或自相关时,GLS和FGLS为实证研究者提供了比OLS更可靠、更高效的推断基础。理解GLS的原理、适用条件及其与OLS的关系,对于正确开展计量经济分析和统计建模具有重要意义。在实际应用中,研究者应结合数据特点和诊断检验结果,审慎选择估计方法,并报告相应的稳健标准误以确保结论的可信度。