普通最小二乘法 (Ordinary Least Squares, OLS)
普通最小二乘法 (Ordinary Least Squares, OLS) 是计量经济学和统计学中最基本的参数估计方法,广泛应用于线性回归模型。其核心思想是寻找一组参数估计值 β^,使得模型预测值 Y^i 与实际观测值 Yi 之间的残差平方和达到最小。这一准则在数学上简洁优美,在理论上具备一系列优良的统计性质,是学习更高级估计方法(如广义最小二乘法、工具变量法、极大似然估计)的基石。
模型设定
考虑多元线性回归模型:
Yi=β0+β1Xi1+β2Xi2+⋯+βkXik+ui,i=1,2,…,n
其中 Yi 为因变量,Xij 为第 j 个自变量,βj 为待估参数,ui 为误差项。用矩阵形式可简洁表示为:
Y=Xβ+u
其中 Y 为 n×1 向量,X 为 n×(k+1) 设计矩阵,β 为 (k+1)×1 参数向量,u 为 n×1 误差向量。
最小化问题
OLS 估计量 β^ 通过求解以下无约束优化问题得到:
β^=argβmini=1∑n(Yi−Xi′β)2
或等价地:
β^=argβmin(Y−Xβ)′(Y−Xβ)
展开目标函数 S(β)=Y′Y−2β′X′Y+β′X′Xβ,求一阶条件:
∂β∂S(β)=−2X′Y+2X′Xβ=0
解得:
β^=(X′X)−1X′Y
这就是 OLS 估计量的闭式解。其几何意义是将 Y 正交投影到 X 的列空间上:Y^=PY,其中投影矩阵 P=X(X′X)−1X′。残差向量 u^=Y−Y^ 与 X 的列空间正交,体现了 OLS 的"最小二乘"本质——残差在欧几里得范数下达到最短。该解的存在性要求 X′X 可逆,即设计矩阵满秩——换言之,自变量之间不存在完全多重共线性。
Gauss-Markov 定理
Gauss-Markov 定理是 OLS 的理论基石。在以下经典假设下:
- 线性性:模型对参数线性。
- 严格外生性:E[ui∣X]=0,即误差项条件均值为零。
- 球形误差:Var[ui∣X]=σ2(同方差性)且 Cov(ui,uj∣X)=0(无自相关)。
- 满秩:X 列满秩。
Gauss-Markov 定理断言:OLS 估计量 β^ 是所有线性无偏估计量中方差最小的,即 BLUE(Best Linear Unbiased Estimator)。这意味着,在经典假设框架内,不存在任何其他线性无偏估计量能在更小的方差意义上优于 OLS。这一结论不依赖于正态分布假设,是 OLS 相对其他估计方法的关键优势。
有限样本性质
在 Gauss-Markov 假设下,OLS 具备以下有限样本性质:
- 无偏性:E[β^∣X]=β。
- 条件方差:Var[β^∣X]=σ2(X′X)−1。
- 误差方差估计:σ^2=n−k−11∑u^i2 是 σ2 的无偏估计,其中 u^i=Yi−Xi′β^ 为残差。
- 正态性:若进一步假设 ui∣X∼N(0,σ2),则 β^ 服从正态分布,从而精确的 t 检验和 F 检验可行。
大样本性质
当样本量 n→∞ 时,即使放松严格外生性或正态性假设,OLS 仍保持良好的大样本性质:
- 一致性:β^pβ,即估计量依概率收敛到真值。一致性要求 E[Xiui]=0,只要解释变量与误差项正交,即使存在条件异方差,OLS 仍保持一致。
- 渐近正态性:n(β^−β)dN(0,Σ),其中 Σ 为渐近协方差矩阵。
- 渐近有效性:在适当正则条件下,OLS 在线性估计类中渐近有效。
这些大样本性质使得 OLS 在违背经典假设(如轻微异方差或非正态误差)时仍可可靠使用,只需使用稳健标准误(如 Eicker-Huber-White 标准误)进行推断即可。
拟合优度与模型评价
OLS 估计完成后,常用以下指标评价模型拟合效果:
- R2(判定系数):R2=1−TSSRSS,衡量自变量对因变量变异的解释比例。R2 介于 [0,1] 之间,越接近 1 表示拟合越好,但增加自变量总会使 R2 上升,因此需使用调整 R2。
- 调整 R2:Rˉ2=1−TSS/(n−1)RSS/(n−k−1),对自变量个数施加惩罚,避免过度拟合。
- F 检验:检验所有斜率系数是否同时为零,判断模型整体显著性。F 统计量定义为 F=RSS/(n−k−1)(TSS−RSS)/k,在正态性假设下服从 Fk,n−k−1 分布。
- 信息准则:AIC 和 BIC 在模型选择中权衡拟合优度与模型复杂度。AIC 侧重于预测精度,BIC 则对参数个数施加更强惩罚,适用于寻找真实模型维度的场景。
- 赤池信息准则与贝叶斯信息准则:两者均基于对数似然函数值构造,但惩罚项不同:AIC=−2lnL+2k,BIC=−2lnL+klnn。当样本量较大时,BIC 倾向于选择更简约的模型。
假设检验
在 OLS 框架下,最常见的检验包括:
- 单个系数的 t 检验:H0:βj=βj0,统计量 t=(β^j−βj0)/SE(β^j),在正态性假设下服从 tn−k−1 分布。
- 多个线性约束的 F 检验:检验 H0:Rβ=r,使用受约束与无约束模型的残差平方和之差构造 F 统计量。
- 联合显著性 F 检验:检验所有斜率系数同时为零的显著性。F 统计量定义为 F=RSSu/(n−k−1)(RSSr−RSSu)/q,其中 q 为约束个数,RSSr 和 RSSu 分别为受约束与无约束模型的残差平方和。
- 线性假设的 Wald 检验:在大样本下,Wald 统计量渐近服从 χ2 分布,不要求误差正态性,适用于更一般的推断场景。
重要扩展与局限
尽管 OLS 理论优雅且应用广泛,在实际应用中仍需注意以下局限与扩展:
- 异方差:当 Var[ui∣X] 非常数时,OLS 仍是无偏且一致的,但标准误有偏。解决方案包括稳健标准误(White 标准误)或使用加权最小二乘法 (WLS)。
- 自相关:在时间序列数据中,误差项跨期相关。可使用Newey-West 标准误或广义最小二乘法 (GLS) 处理。
- 内生性:当 E[u∣X]=0(如遗漏变量、测量误差或联立性),OLS 不再一致。此时需使用工具变量法 (IV) 或两阶段最小二乘法 (2SLS)。
- 多重共线性:自变量高度相关时,(X′X)−1 接近奇异,导致估计量方差膨胀,但 OLS 仍为 BLUE。方差膨胀因子 (VIF) 是检测共线性的常用指标,一般认为 VIF > 10 需引起关注。
- 异常值与强影响点:OLS 对异常值敏感,单个极端观测可能大幅改变估计结果。稳健回归方法(如 Huber-White 估计或分位数回归)可提供互补信息。Cook 距离和杠杆值是诊断强影响点的常用统计量。
- 模型设定偏误:遗漏重要变量、错误设定函数形式(如忽略非线性关系)或包含无关变量均会影响 OLS 的性质。模型设定检验(如 Ramsey RESET 检验)有助于诊断此类问题。
历史与发展
最小二乘法的思想最早由 Carl Friedrich Gauss 于 1795 年提出,并于 1809 年在《天体运动论》中正式发表。法国数学家 Adrien-Marie Legendre 于 1805 年独立发表相同方法。Gauss 还率先指出了该方法在正态分布假设下的最优性,奠定了Gauss-Markov 定理的基础。20 世纪中叶,随着计算技术的突破,OLS 从理论工具转化为实证研究的日常武器。今天,OLS 是经济学、金融学、社会学、政治学、流行病学等学科的标配分析工具,也是机器学习中线性回归算法的理论原型。
总结
普通最小二乘法以其简洁的数学形式、清晰的几何解释和扎实的统计理论,成为数据科学中最具影响力的方法之一。理解 OLS 的前提条件、估计原理、推断逻辑及其局限性,是掌握现代计量经济学和统计学习的第一步。无论是作为独立分析工具,还是作为更复杂模型(如Lasso、岭回归、广义线性模型)的对照基准,OLS 始终占据着不可替代的核心地位。