ARTICLE
普通最小二乘估计
%% id: 4389 word: "普通最小二乘估计" created\_model: "stub" verified: true verified\_at: "2025-10-27T12:26:07" created\_by\_id: 1 view\_counts: 0 inserted\_at: "2025-10-27T12:26:07" update
%%
id: 4389 word: "普通最小二乘估计" created\_model: "stub" verified: true verified\_at: "2025-10-27T12:26:07" created\_by\_id: 1 view\_counts: 0 inserted\_at: "2025-10-27T12:26:07" updated\_at: "2025-10-27T12:26:07" \%\%
普通最小二乘估计(Ordinary Least Squares,简称OLS)是计量经济学和统计学中最核心的参数估计方法之一,广泛应用于线性回归模型中参数向量的估计。其基本思想是:选择一组参数估计值,使得模型预测值与实际观测值之间的残差平方和达到最小,从而获得对未知参数的最优线性无偏估计。
基本模型设定
考虑经典线性回归模型:
将其写成矩阵形式为:
其中 是 的因变量向量, 是 的解释变量矩阵, 是 的未知参数向量, 是 的随机误差项向量。模型中的解释变量可以是定量变量,也可以是虚拟变量,还可以包含交互项和高次项,以刻画变量之间的非线性关系。
最小二乘原理
OLS估计量的核心目标是使残差平方和最小化,即求解如下优化问题:
通过对目标函数求一阶导数并令其为零,可以得到正规方程组:
在矩阵 列满秩的条件下,正规方程组有唯一解,即OLS估计量的解析表达式:
这一表达式简洁优美,仅依赖于样本数据的二阶矩矩阵,计算方便且具有明确的几何意义:OLS估计量实际上是将因变量向量 正交投影到由解释变量 张成的列空间上,投影向量即为拟合值 。
高斯-马尔可夫定理
高斯-马尔可夫定理(Gauss-Markov Theorem)是OLS估计理论中的核心定理。该定理指出,在经典线性回归模型的若干基本假设下,OLS估计量是所有线性无偏估计量中方差最小的,因此被称为最佳线性无偏估计量(Best Linear Unbiased Estimator,简称BLUE)。这一结论不依赖于误差项的正态分布假设,仅要求误差项具有零均值、同方差且互不相关。高斯-马尔可夫定理为OLS方法在实证研究中的主导地位提供了坚实的理论支撑。
经典假设条件
OLS估计量要具备上述优良统计性质,需要满足以下经典假设条件:
第一,线性性,即模型参数以线性形式进入回归方程,因变量是参数和误差项的线性组合。第二,严格外生性,即 ,意味着解释变量与误差项在所有时期都不相关,这是保证无偏性的关键条件。第三,不存在完全多重共线性,即解释变量矩阵 为列满秩矩阵,保证 存在且参数可识别。第四,球形误差假设,即误差项满足 ,包括同方差性和无自相关两方面含义。第五,正态性假设为可选条件,即 ,该条件在小样本下精确推断时使用,在大样本下可由中心极限定理替代。
统计性质
在经典假设得到满足的前提下,OLS估计量具有一系列令人满意的统计性质:
- 无偏性:,即估计量的期望等于真实的未知参数值,不存在系统性的估计偏差。
- 有效性:在所有线性无偏估计量中,OLS估计量的方差-协方差矩阵在矩阵意义下最小,这意味着估计量具有最高的估计精度。
- 一致性:当样本容量 趋于无穷大时,估计量 依概率收敛于真实参数值 ,即样本量越大,估计越准确。
- 渐近正态性:在大样本条件下, 依分布收敛于多元正态分布,这使得我们可以利用正态分布进行区间估计和假设检验。
OLS估计量的方差-协方差矩阵为 ,其中总体误差方差 通常用残差方差的无偏估计量 来替代,从而得到参数估计量的标准误差。
模型拟合优度
可决系数 是衡量线性回归模型整体拟合优度的重要指标,其定义为:
其中 为残差平方和, 为回归平方和, 为总离差平方和。 的取值介于0和1之间,数值越大表示解释变量对因变量的解释程度越高,模型的拟合效果越好。然而, 的一个显著缺陷是,即使加入无关的解释变量,其值也不会降低,因此容易产生过度拟合的问题。为解决这一缺陷,引入了调整后的可决系数 ,它对解释变量的个数施加了惩罚,从而在模型比较中更具参考价值。
假设违背与处理方法
在实际应用中,经典假设往往无法完全满足,此时需要采取相应的诊断和处理措施:
- 异方差性表现为误差项方差随观测值不同而变化,可通过绘制残差图或进行Breusch-Pagan检验、White检验来诊断。处理方法包括使用Huber-White稳健标准误以得到正确的统计推断,或采用加权最小二乘法(WLS)对模型进行重新估计。
- 自相关常见于时间序列数据中,指不同期误差项之间存在相关性,可通过Durbin-Watson检验或Breusch-Godfrey LM检验识别。处理方法包括使用广义最小二乘法(GLS)或Newey-West标准误。
- 多重共线性指解释变量之间存在高度相关关系,可通过方差膨胀因子(VIF)进行诊断。处理方法包括删除冗余变量、使用主成分分析降维,或采用岭回归、LASSO等有偏估计方法。
- 内生性是计量经济学中最严重的问题之一,表现为解释变量与误差项相关,通常源于遗漏变量、测量误差或联立性。工具变量法(IV)和两阶段最小二乘法(2SLS)是处理内生性的标准方法。
应用与拓展
OLS是计量经济学实证分析的逻辑起点,几乎所有现代估计方法都可以看作是其在不同情境下的推广与修正。广义最小二乘法(GLS)处理异方差和自相关,两阶段最小二乘法(2SLS)应对内生性,面板数据固定效应和随机效应模型拓展了OLS在截面-时间混合数据中的应用。在实际应用OLS方法时,研究者通常需要进行一系列诊断检验,包括残差的正态性检验、异方差检验、自相关检验以及模型设定检验(如Ramsey RESET检验)等,以验证模型设定的合理性并确保统计推断的可信度。