ARTICLE

普通最小二 överes (Ordinary Least Squares, OLS)

普通最小二乘法 (Ordinary Least Squares, OLS) 普通最小二乘法 (Ordinary Least Squares, OLS) 是计量经济学和统计学中最基本的参数估计方法,广泛应用于线性回归模型。其核心思想是寻找一组参数估计值 ,使得模型预测值 Y_i 与实际观测值 Y_i 之间的残差平方和达到最小。这一准则在数学上简洁优美,在理论上

浏览 0 更新 2026-05-26

普通最小二乘法 (Ordinary Least Squares, OLS)

普通最小二乘法 (Ordinary Least Squares, OLS) 是计量经济学统计学中最基本的参数估计方法,广泛应用于线性回归模型。其核心思想是寻找一组参数估计值 β^ \hat{\boldsymbol{\beta}} ,使得模型预测值 Y^i \hat{Y}_i 与实际观测值 Yi Y_i 之间的残差平方和达到最小。这一准则在数学上简洁优美,在理论上具备一系列优良的统计性质,是学习更高级估计方法(如广义最小二乘法工具变量法极大似然估计)的基石。

模型设定

考虑多元线性回归模型:

Yi=β0+β1Xi1+β2Xi2++βkXik+ui,i=1,2,,nY_i = \beta_0 + \beta_1 X_{i1} + \beta_2 X_{i2} + \cdots + \beta_k X_{ik} + u_i, \quad i = 1, 2, \dots, n

其中 Yi Y_i 因变量Xij X_{ij} 为第 j j 自变量βj \beta_j 为待估参数,ui u_i 误差项。用矩阵形式可简洁表示为:

Y=Xβ+u\mathbf{Y} = \mathbf{X} \boldsymbol{\beta} + \mathbf{u}

其中 Y \mathbf{Y} n×1 n \times 1 向量,X \mathbf{X} n×(k+1) n \times (k+1) 设计矩阵,β \boldsymbol{\beta} (k+1)×1 (k+1) \times 1 参数向量,u \mathbf{u} n×1 n \times 1 误差向量。

最小化问题

OLS 估计量 β^ \hat{\boldsymbol{\beta}} 通过求解以下无约束优化问题得到:

β^=argminβi=1n(YiXiβ)2\hat{\boldsymbol{\beta}} = \arg\min_{\boldsymbol{\beta}} \sum_{i=1}^{n} (Y_i - \mathbf{X}_i' \boldsymbol{\beta})^2

或等价地:

β^=argminβ(YXβ)(YXβ)\hat{\boldsymbol{\beta}} = \arg\min_{\boldsymbol{\beta}} (\mathbf{Y} - \mathbf{X} \boldsymbol{\beta})' (\mathbf{Y} - \mathbf{X} \boldsymbol{\beta})

展开目标函数 S(β)=YY2βXY+βXXβ S(\boldsymbol{\beta}) = \mathbf{Y}'\mathbf{Y} - 2\boldsymbol{\beta}'\mathbf{X}'\mathbf{Y} + \boldsymbol{\beta}'\mathbf{X}'\mathbf{X}\boldsymbol{\beta} ,求一阶条件:

S(β)β=2XY+2XXβ=0\frac{\partial S(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}} = -2\mathbf{X}'\mathbf{Y} + 2\mathbf{X}'\mathbf{X}\boldsymbol{\beta} = 0

解得:

β^=(XX)1XY\hat{\boldsymbol{\beta}} = (\mathbf{X}'\mathbf{X})^{-1} \mathbf{X}'\mathbf{Y}

这就是 OLS 估计量的闭式解。其几何意义是将 Y \mathbf{Y} 正交投影到 X \mathbf{X} 的列空间上:Y^=PY \hat{\mathbf{Y}} = \mathbf{P}\mathbf{Y} ,其中投影矩阵 P=X(XX)1X \mathbf{P} = \mathbf{X}(\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}' 。残差向量 u^=YY^ \hat{\mathbf{u}} = \mathbf{Y} - \hat{\mathbf{Y}} X \mathbf{X} 的列空间正交,体现了 OLS 的"最小二乘"本质——残差在欧几里得范数下达到最短。该解的存在性要求 XX \mathbf{X}'\mathbf{X} 可逆,即设计矩阵满秩——换言之,自变量之间不存在完全多重共线性

Gauss-Markov 定理

Gauss-Markov 定理是 OLS 的理论基石。在以下经典假设下:

  1. 线性性:模型对参数线性。
  2. 严格外生性E[uiX]=0 \mathbb{E}[u_i \mid \mathbf{X}] = 0 ,即误差项条件均值为零。
  3. 球形误差Var[uiX]=σ2 \text{Var}[u_i \mid \mathbf{X}] = \sigma^2 同方差性)且 Cov(ui,ujX)=0 \text{Cov}(u_i, u_j \mid \mathbf{X}) = 0 (无自相关)。
  4. 满秩X \mathbf{X} 列满秩。

Gauss-Markov 定理断言:OLS 估计量 β^ \hat{\boldsymbol{\beta}} 是所有线性无偏估计量中方差最小的,即 BLUE(Best Linear Unbiased Estimator)。这意味着,在经典假设框架内,不存在任何其他线性无偏估计量能在更小的方差意义上优于 OLS。这一结论不依赖于正态分布假设,是 OLS 相对其他估计方法的关键优势。

有限样本性质

在 Gauss-Markov 假设下,OLS 具备以下有限样本性质:

  • 无偏性E[β^X]=β \mathbb{E}[\hat{\boldsymbol{\beta}} \mid \mathbf{X}] = \boldsymbol{\beta}
  • 条件方差Var[β^X]=σ2(XX)1 \text{Var}[\hat{\boldsymbol{\beta}} \mid \mathbf{X}] = \sigma^2 (\mathbf{X}'\mathbf{X})^{-1}
  • 误差方差估计σ^2=1nk1u^i2 \hat{\sigma}^2 = \frac{1}{n-k-1} \sum \hat{u}_i^2 σ2 \sigma^2 的无偏估计,其中 u^i=YiXiβ^ \hat{u}_i = Y_i - \mathbf{X}_i'\hat{\boldsymbol{\beta}} 残差
  • 正态性:若进一步假设 uiXN(0,σ2) u_i \mid \mathbf{X} \sim \mathcal{N}(0, \sigma^2) ,则 β^ \hat{\boldsymbol{\beta}} 服从正态分布,从而精确的 t 检验和 F 检验可行。

大样本性质

当样本量 n n \to \infty 时,即使放松严格外生性或正态性假设,OLS 仍保持良好的大样本性质:

  • 一致性β^pβ \hat{\boldsymbol{\beta}} \xrightarrow{p} \boldsymbol{\beta} ,即估计量依概率收敛到真值。一致性要求 E[Xiui]=0 \mathbb{E}[X_i u_i] = 0 ,只要解释变量与误差项正交,即使存在条件异方差,OLS 仍保持一致。
  • 渐近正态性n(β^β)dN(0,Σ) \sqrt{n}(\hat{\boldsymbol{\beta}} - \boldsymbol{\beta}) \xrightarrow{d} \mathcal{N}(0, \mathbf{\Sigma}) ,其中 Σ \mathbf{\Sigma} 为渐近协方差矩阵。
  • 渐近有效性:在适当正则条件下,OLS 在线性估计类中渐近有效。

这些大样本性质使得 OLS 在违背经典假设(如轻微异方差或非正态误差)时仍可可靠使用,只需使用稳健标准误(如 Eicker-Huber-White 标准误)进行推断即可。

拟合优度与模型评价

OLS 估计完成后,常用以下指标评价模型拟合效果:

  • R2 R^2 (判定系数)R2=1RSSTSS R^2 = 1 - \frac{\text{RSS}}{\text{TSS}} ,衡量自变量对因变量变异的解释比例。R2 R^2 介于 [0,1] [0,1] 之间,越接近 1 表示拟合越好,但增加自变量总会使 R2 R^2 上升,因此需使用调整 R2 R^2
  • 调整 R2 R^2 Rˉ2=1RSS/(nk1)TSS/(n1) \bar{R}^2 = 1 - \frac{\text{RSS} / (n-k-1)}{\text{TSS} / (n-1)} ,对自变量个数施加惩罚,避免过度拟合。
  • F 检验:检验所有斜率系数是否同时为零,判断模型整体显著性。F 统计量定义为 F=(TSSRSS)/kRSS/(nk1) F = \frac{(\text{TSS} - \text{RSS}) / k}{\text{RSS} / (n - k - 1)} ,在正态性假设下服从 Fk,nk1 F_{k, n-k-1} 分布。
  • 信息准则AICBIC 在模型选择中权衡拟合优度与模型复杂度。AIC 侧重于预测精度,BIC 则对参数个数施加更强惩罚,适用于寻找真实模型维度的场景。
  • 赤池信息准则与贝叶斯信息准则:两者均基于对数似然函数值构造,但惩罚项不同:AIC=2lnL+2k \text{AIC} = -2\ln L + 2k BIC=2lnL+klnn \text{BIC} = -2\ln L + k\ln n 。当样本量较大时,BIC 倾向于选择更简约的模型。

假设检验

在 OLS 框架下,最常见的检验包括:

  1. 单个系数的 t 检验H0:βj=βj0 H_0: \beta_j = \beta_j^0 ,统计量 t=(β^jβj0)/SE(β^j) t = (\hat{\beta}_j - \beta_j^0) / \text{SE}(\hat{\beta}_j) ,在正态性假设下服从 tnk1 t_{n-k-1} 分布。
  2. 多个线性约束的 F 检验:检验 H0:Rβ=r H_0: \mathbf{R}\boldsymbol{\beta} = \mathbf{r} ,使用受约束与无约束模型的残差平方和之差构造 F 统计量。
  3. 联合显著性 F 检验:检验所有斜率系数同时为零的显著性。F 统计量定义为 F=(RSSrRSSu)/qRSSu/(nk1) F = \frac{(\text{RSS}_r - \text{RSS}_u) / q}{\text{RSS}_u / (n - k - 1)} ,其中 q q 为约束个数,RSSr \text{RSS}_r RSSu \text{RSS}_u 分别为受约束与无约束模型的残差平方和。
  4. 线性假设的 Wald 检验:在大样本下,Wald 统计量渐近服从 χ2 \chi^2 分布,不要求误差正态性,适用于更一般的推断场景。

重要扩展与局限

尽管 OLS 理论优雅且应用广泛,在实际应用中仍需注意以下局限与扩展:

  • 异方差:当 Var[uiX] \text{Var}[u_i \mid \mathbf{X}] 非常数时,OLS 仍是无偏且一致的,但标准误有偏。解决方案包括稳健标准误(White 标准误)或使用加权最小二乘法 (WLS)。
  • 自相关:在时间序列数据中,误差项跨期相关。可使用Newey-West 标准误广义最小二乘法 (GLS) 处理。
  • 内生性:当 E[uX]0 \mathbb{E}[u \mid \mathbf{X}] \neq 0 (如遗漏变量、测量误差或联立性),OLS 不再一致。此时需使用工具变量法 (IV) 或两阶段最小二乘法 (2SLS)。
  • 多重共线性:自变量高度相关时,(XX)1 (\mathbf{X}'\mathbf{X})^{-1} 接近奇异,导致估计量方差膨胀,但 OLS 仍为 BLUE。方差膨胀因子 (VIF) 是检测共线性的常用指标,一般认为 VIF > 10 需引起关注。
  • 异常值与强影响点:OLS 对异常值敏感,单个极端观测可能大幅改变估计结果。稳健回归方法(如 Huber-White 估计或分位数回归)可提供互补信息。Cook 距离和杠杆值是诊断强影响点的常用统计量。
  • 模型设定偏误:遗漏重要变量、错误设定函数形式(如忽略非线性关系)或包含无关变量均会影响 OLS 的性质。模型设定检验(如 Ramsey RESET 检验)有助于诊断此类问题。

历史与发展

最小二乘法的思想最早由 Carl Friedrich Gauss 于 1795 年提出,并于 1809 年在《天体运动论》中正式发表。法国数学家 Adrien-Marie Legendre 于 1805 年独立发表相同方法。Gauss 还率先指出了该方法在正态分布假设下的最优性,奠定了Gauss-Markov 定理的基础。20 世纪中叶,随着计算技术的突破,OLS 从理论工具转化为实证研究的日常武器。今天,OLS 是经济学、金融学、社会学、政治学、流行病学等学科的标配分析工具,也是机器学习中线性回归算法的理论原型。

总结

普通最小二乘法以其简洁的数学形式、清晰的几何解释和扎实的统计理论,成为数据科学中最具影响力的方法之一。理解 OLS 的前提条件、估计原理、推断逻辑及其局限性,是掌握现代计量经济学统计学习的第一步。无论是作为独立分析工具,还是作为更复杂模型(如Lasso岭回归广义线性模型)的对照基准,OLS 始终占据着不可替代的核心地位。