ARTICLE

OLS回归

OLS回归 OLS回归(Ordinary Least Squares Regression,普通最小二乘回归)是计量经济学和统计学中最核心的参数估计方法,由德国数学家卡尔·弗里德里希·高斯(Carl Friedrich Gauss)于19世纪初提出。其基本思想是:在给定样本数据的前提下,寻找一组参数估计值,使得模型预测值与实际观测值之间的残差平方和达到最小。

浏览 4 更新 2025-07-16

OLS回归

OLS回归(Ordinary Least Squares Regression,普通最小二乘回归)是计量经济学和统计学中最核心的参数估计方法,由德国数学家卡尔·弗里德里希·高斯(Carl Friedrich Gauss)于19世纪初提出。其基本思想是:在给定样本数据的前提下,寻找一组参数估计值,使得模型预测值与实际观测值之间的残差平方和达到最小。OLS回归广泛应用于经济学、金融学、社会科学、生物医学等领域的因果推断与预测建模中。

模型设定与数学表达

标准的线性回归模型可表示为矩阵形式:

y=Xβ+u\boldsymbol{y} = \boldsymbol{X}\boldsymbol{\beta} + \boldsymbol{u}

其中,y \boldsymbol{y} n×1 n \times 1 维因变量向量,X \boldsymbol{X} n×k n \times k 维自变量矩阵(通常包含截距项),β \boldsymbol{\beta} k×1 k \times 1 维待估参数向量,u \boldsymbol{u} n×1 n \times 1 维误差项向量。OLS的目标函数为:

minβS(β)=minβ(yXβ)(yXβ)\min_{\boldsymbol{\beta}} S(\boldsymbol{\beta}) = \min_{\boldsymbol{\beta}} (\boldsymbol{y} - \boldsymbol{X\beta})'(\boldsymbol{y} - \boldsymbol{X\beta})

通过求解一阶条件 S/β=0 \partial S / \partial \boldsymbol{\beta} = 0 ,得到 OLS 估计量的解析表达式:

β^OLS=(XX)1Xy\hat{\boldsymbol{\beta}}_{\text{OLS}} = (\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'\boldsymbol{y}

该表达式成立的前提是 XX \boldsymbol{X}'\boldsymbol{X} 可逆,即自变量矩阵满秩,意味着不存在完全的多重共线性。

高斯-马尔可夫假设

OLS估计量在小样本下具备优良性质,依赖于以下高斯-马尔可夫假设(Gauss-Markov Assumptions):

  1. 线性于参数:模型在参数 β \boldsymbol{\beta} 上是线性的,确保 OLS 具有闭合形式的解析解。这一假设允许变量本身进行非线性变换(如取对数、平方或交互项),只要变换后的模型仍保持参数线性即可。
  2. 严格外生性E(uX)=0 E(\boldsymbol{u} \mid \boldsymbol{X}) = \boldsymbol{0} ,即误差项的条件均值为零。这意味着自变量 X \boldsymbol{X} 与误差项 u \boldsymbol{u} 在各期均不相关,是 OLS 无偏性的核心前提。若存在遗漏变量、测量误差或反向因果,则严格外生性被违反,β^ \hat{\boldsymbol{\beta}} 将产生偏误。
  3. 球形误差Var(uX)=σ2In Var(\boldsymbol{u} \mid \boldsymbol{X}) = \sigma^2 \boldsymbol{I}_n ,包含两个子条件。其一为同方差性(Homoskedasticity),即所有观测的误差项方差相同;其二为无自相关(No Autocorrelation),即不同观测的误差项互不相关,Cov(ui,ujX)=0 Cov(u_i, u_j \mid \boldsymbol{X}) = 0 ij i \neq j )。球形误差主要影响估计量的效率而非无偏性。
  4. 无完全共线性:自变量矩阵 X \boldsymbol{X} 的列向量线性无关,即 rank(X)=k rank(\boldsymbol{X}) = k 。若某一自变量可由其他自变量的线性组合近似表示(近似多重共线性),虽不影响无偏性,但会导致估计量的方差膨胀,降低推断精度。

在上述假设下,OLS估计量 β^ \hat{\boldsymbol{\beta}} β \boldsymbol{\beta} 的最佳线性无偏估计量(BLUE, Best Linear Unbiased Estimator),即在线性无偏估计量类中方差最小。这正是高斯-马尔可夫定理的核心结论。

统计推断与假设检验

获得参数估计值后,需对系数的统计显著性进行推断。β^ \hat{\boldsymbol{\beta}} 的方差-协方差矩阵为:

Var(β^X)=σ2(XX)1Var(\hat{\boldsymbol{\beta}} \mid \boldsymbol{X}) = \sigma^2 (\boldsymbol{X}'\boldsymbol{X})^{-1}

其中,误差项方差 σ2 \sigma^2 由残差方差的估计值 σ^2=SSR/(nk) \hat{\sigma}^2 = SSR / (n - k) 替代(SSR为残差平方和)。单个系数的显著性可通过 t 检验进行:

t=β^jβj,0se(β^j)tnkt = \frac{\hat{\beta}_j - \beta_{j,0}}{se(\hat{\beta}_j)} \sim t_{n-k}

多个线性约束的联合显著性则使用 F 检验:

F=(SSRrSSRur)/qSSRur/(nk)Fq,nkF = \frac{(SSR_r - SSR_{ur}) / q}{SSR_{ur} / (n - k)} \sim F_{q, \, n-k}

其中,SSRr SSR_r SSRur SSR_{ur} 分别为受约束模型和不受约束模型的残差平方和,q q 为约束个数。此外,回归模型的整体拟合优度由 R2=1SSR/SST R^2 = 1 - SSR/SST 衡量,表示自变量对因变量变异的解释比例;调整 R2 R^2 则在 R2 R^2 基础上对自变量个数进行惩罚,避免因增加无关变量而人为提高拟合度。

模型诊断与实际问题

在实证应用中,OLS回归面临多种挑战,需进行相应的诊断与处理:

  • 异方差性(Heteroskedasticity):误差项方差随自变量变化,导致标准误估计有偏。可通过 White 检验或 Breusch-Pagan 检验诊断,并使用异方差稳健标准误(Heteroskedasticity-Consistent Standard Errors)加以修正,如 Huber-White 估计量。
  • 多重共线性(Multicollinearity):自变量之间高度相关,使系数估计的方差膨胀。通常使用方差膨胀因子(VIF, Variance Inflation Factor)进行诊断,当 VIF > 10 时认为存在严重的多重共线性。处理方法包括剔除冗余变量、合并变量或使用岭回归等有偏估计方法。
  • 异常值与强影响点(Outliers \& Influential Points):个别观测值可能对回归结果产生不成比例的影响。通过学生化残差、Cook距离、DFFITS等诊断统计量识别异常点。
  • 模型设定偏误(Specification Error):包括遗漏重要变量、错误函数形式(如未考虑非线性关系)以及数据测量误差等。Ramsey RESET检验可用于检测函数形式的设定偏误,而遗漏变量问题通常需要借助工具变量法或面板数据模型加以解决。
  • 内生性(Endogeneity):当 Cov(X,u)0 Cov(\boldsymbol{X}, \boldsymbol{u}) \neq 0 时,OLS估计量不一致。内生性的主要来源包括遗漏变量、测量误差和联立性(反向因果)。解决内生性的标准方法包括工具变量回归(IV/2SLS)、 Heckman 选择模型以及差分 GMM 等。

拓展与相关方法

OLS回归构成了计量经济学方法论的基石,多项重要拓展是在其基础上发展而来。当误差项违背球形假设时,广义最小二乘法(GLS)可提供更有效的估计;当因变量为二值变量时,Logit 和 Probit 模型取代了线性概率模型;当经典假设无法满足时,稳健标准误、聚类标准误和自相关稳健标准误等方法为正确推断提供了保障。此外,现代机器学习中的正则化回归方法(如岭回归、LASSO 和弹性网)在 OLS 的目标函数中加入惩罚项,以在高维数据场景下提升预测性能并实现变量选择。

总体而言,OLS回归凭借其简洁的解析解、良好的统计性质和直观的经济含义,至今仍是实证研究中最常用的工具之一,也是学习更高级计量方法的重要起点。