ARTICLE

最小二乘

最小二乘法 (Ordinary Least Squares, OLS) 最小二乘法(Ordinary Least Squares,简称OLS)是回归分析中最基础且应用最广泛的参数估计方法。其核心思想是:选择一组参数,使得所有观测值与模型预测值之间的残差平方和(Residual Sum of Squares, RSS)达到最小。该方法由高斯(Carl Frie

浏览 0 更新 2026-01-07

最小二乘法 (Ordinary Least Squares, OLS)

最小二乘法(Ordinary Least Squares,简称OLS)是回归分析中最基础且应用最广泛的参数估计方法。其核心思想是:选择一组参数,使得所有观测值与模型预测值之间的残差平方和(Residual Sum of Squares, RSS)达到最小。该方法由高斯(Carl Friedrich Gauss)于1809年正式发表,后经马尔可夫(Andrey Markov)等人在20世纪初建立严格的统计理论基础,成为计量经济学的基石。

基本设定与估计量

考虑经典线性回归模型:

yi=β0+β1xi1++βkxik+ϵi=xiβ+ϵi,i=1,,ny_i = \beta_0 + \beta_1 x_{i1} + \cdots + \beta_k x_{ik} + \epsilon_i = \mathbf{x}_i'\boldsymbol{\beta} + \epsilon_i, \quad i = 1, \ldots, n

其中 yiy_i 为因变量,xi\mathbf{x}_ikk 个解释变量(含截距项时第一个元素取值为1),β\boldsymbol{\beta} 为待估参数向量,ϵi\epsilon_i误差项,捕获模型未能解释的随机因素。OLS的核心思路简洁而直观:在所有可能的参数取值中,选择使得预测误差的平方和最小化的那一组。形式上,OLS估计量通过求解如下极小化问题得到:

β^OLS=argminβi=1n(yixiβ)2\hat{\boldsymbol{\beta}}_{\text{OLS}} = \arg\min_{\boldsymbol{\beta}} \sum_{i=1}^{n} (y_i - \mathbf{x}_i'\boldsymbol{\beta})^2

对目标函数关于 β\boldsymbol{\beta} 求一阶导数并设为零,可得正规方程组,在 (XX)(\mathbf{X}'\mathbf{X}) 可逆的条件下得到著名的闭式解(closed-form):

β^OLS=(XX)1Xy\hat{\boldsymbol{\beta}}_{\text{OLS}} = (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{y}

其中 X\mathbf{X}n×kn \times k 设计矩阵,每一行对应一个观测的 kk 个解释变量取值;y\mathbf{y}n×1n \times 1 因变量观测向量。该闭式解是OLS在计算上高效、在理论上便于分析的基础。需要注意的是,该公式仅在 (XX)(\mathbf{X}'\mathbf{X}) 可逆时成立,即解释变量之间不能存在完全多重共线性——若某一变量可由其余变量的线性组合精确表出,则矩阵不可逆,OLS无法唯一求解。

高斯-马尔可夫定理

OLS之所以在计量经济学中占据核心地位,其理论基石是高斯-马尔可夫定理。该定理在一组标准假定下确立了OLS的最优性。这些假定包括:

  1. 线性性(Linearity):因变量 yy 关于参数 β\boldsymbol{\beta} 呈线性关系,即模型可写为 y=Xβ+ϵ\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\epsilon}
  2. 严格外生性(Strict Exogeneity):误差项的条件期望为零,E[ϵiX]=0\mathbb{E}[\epsilon_i \mid \mathbf{X}] = 0,意味着解释变量与误差项在每一观测上均不相关。
  3. 无完全多重共线性(No Perfect Collinearity):设计矩阵 X\mathbf{X} 满列秩,即 XX\mathbf{X}'\mathbf{X} 可逆。
  4. 球面误差方差(Spherical Error Variance):Var(ϵX)=σ2In\text{Var}(\boldsymbol{\epsilon} \mid \mathbf{X}) = \sigma^2 \mathbf{I}_n,误差项具有同方差性且无自相关,即每一观测的误差方差相等,不同观测的误差互不相关。

在以上四条假定同时满足时,高斯-马尔可夫定理断言:OLS估计量是最佳线性无偏估计量(Best Linear Unbiased Estimator,简称BLUE)。具体而言,在全体关于 y\mathbf{y} 为线性的无偏估计量所构成的类中,OLS拥有最小的方差-协方差矩阵。其含义是:对于参数的任意线性组合 cβ\mathbf{c}'\boldsymbol{\beta}c\mathbf{c} 为任意非零常向量),OLS给出的估计量 cβ^OLS\mathbf{c}'\hat{\boldsymbol{\beta}}_{\text{OLS}} 的方差不超过任何其他线性无偏估计量的方差:

Var(cβ^OLSX)Var(cβ~X)\text{Var}(\mathbf{c}'\hat{\boldsymbol{\beta}}_{\text{OLS}} \mid \mathbf{X}) \leq \text{Var}(\mathbf{c}'\tilde{\boldsymbol{\beta}} \mid \mathbf{X})

OLS估计量的方差-协方差矩阵具有简洁的解析形式:

Var(β^OLSX)=σ2(XX)1\text{Var}(\hat{\boldsymbol{\beta}}_{\text{OLS}} \mid \mathbf{X}) = \sigma^2 (\mathbf{X}'\mathbf{X})^{-1}

实际应用中,未知的误差方差 σ2\sigma^2 由残差方差的无偏估计量替代:σ^2=i=1nϵ^i2nk\hat{\sigma}^2 = \frac{\sum_{i=1}^{n} \hat{\epsilon}_i^2}{n - k},其中 ϵ^i=yixiβ^OLS\hat{\epsilon}_i = y_i - \mathbf{x}_i'\hat{\boldsymbol{\beta}}_{\text{OLS}} 为OLS残差,分母 nkn - k 为自由度校正,确保 σ^2\hat{\sigma}^2σ2\sigma^2 的无偏估计。

渐近性质与大样本理论

高斯-马尔可夫定理依赖的球面误差方差假定在实证研究中常常不成立。当存在异方差(即 Var(ϵiX)\text{Var}(\epsilon_i \mid \mathbf{X})ii 不同而变化)时,OLS虽然丧失了有限样本下的BLUE性质,但在相当宽松的正则条件下仍保持一致性渐近正态性。这是OLS得以广泛应用的深层原因:即使部分假定被违反,只要核心的均值独立条件(E[ϵixi]=0\mathbb{E}[\epsilon_i \mid \mathbf{x}_i] = 0)成立,OLS在大样本下依然可靠。

具体而言,在大样本下OLS估计量满足:

n(β^OLSβ)dN(0,Qxx1ΩQxx1)\sqrt{n}(\hat{\boldsymbol{\beta}}_{\text{OLS}} - \boldsymbol{\beta}) \xrightarrow{d} N(\mathbf{0}, \mathbf{Q}_{xx}^{-1}\boldsymbol{\Omega}\mathbf{Q}_{xx}^{-1})

其中 Qxx=plim 1nXX\mathbf{Q}_{xx} = \text{plim } \frac{1}{n}\mathbf{X}'\mathbf{X} 为设计矩阵二阶矩的概率极限,Ω=plim 1nXϵϵX\boldsymbol{\Omega} = \text{plim } \frac{1}{n}\mathbf{X}'\boldsymbol{\epsilon}\boldsymbol{\epsilon}'\mathbf{X} 捕获误差项的可能异方差和自相关结构。在异方差情形下,传统的OLS标准误不再一致,需采用异方差稳健标准误(Huber-White sandwich estimator)进行有效推断:

Var^(β^)=(XX)1(i=1nϵ^i2xixi)(XX)1\widehat{\text{Var}}(\hat{\boldsymbol{\beta}}) = (\mathbf{X}'\mathbf{X})^{-1} \left( \sum_{i=1}^{n} \hat{\epsilon}_i^2 \mathbf{x}_i \mathbf{x}_i' \right) (\mathbf{X}'\mathbf{X})^{-1}

该估计量的形式如三明治——两侧为相同的 (XX)1(\mathbf{X}'\mathbf{X})^{-1} "面包",中间夹着以残差平方加权的"肉馅"。它无需对异方差的具体形式建模,因而成为实证研究中报告标准误的默认做法。若数据存在聚类结构(如面板数据中同一个体在不同时期的重复观测),还可进一步推广为聚类稳健标准误

拟合优度与模型诊断

OLS估计完成后,研究者通常首先报告决定系数 R2R^2 以评估模型的整体拟合程度:R2=1RSSTSSR^2 = 1 - \frac{\text{RSS}}{\text{TSS}},即模型所解释的因变量变异占总变异的比例。然而R2R^2 的解读需格外审慎:在微观计量应用中(如工资方程或消费函数),由于个体异质性极大,R2R^2 在 0.1 至 0.3 之间十分常见,这并不代表模型"失败"。更重要的是,R2R^2 的高低与模型因果推断的有效性并无必然联系——一个R2R^2 极高的回归可能因严重的内生性偏误而给出误导性结论。

OLS估计量的一致性从根本上依赖于外生性假定 E[xiϵi]=0\mathbb{E}[\mathbf{x}_i \epsilon_i] = 0。当该条件被违反时(常见原因包括遗漏变量偏误测量误差以及联立性偏差),OLS不一致,其概率极限偏离真实参数值。此种情形需借助工具变量估计策略——例如两阶段最小二乘法(2SLS)——来实现一致估计。此外,OLS对异常值(outliers)高度敏感:由于目标函数为残差的平方和,单个偏离极远的观测便可对估计结果产生不成比例的杠杆效应。稳健回归(如Huber的M估计或分位数回归)通过对残差施加线性惩罚或绝对值惩罚,在存在离群点的情况下提供更可靠的参数估计。

经济学中的应用与扩展

OLS是实证经济学研究中使用频率最高的统计工具,其应用遍及经济学的各个分支。在劳动经济学中,明瑟工资方程以受教育年限和工作经验的对数工资回归是OLS的经典应用场景;在金融经济学中,资本资产定价模型(CAPM)的β\beta 系数通过个股超额收益对市场超额收益的OLS回归估计得到;在发展经济学中,跨国增长回归将人均GDP增长率对初始收入水平、储蓄率和人力资本等变量进行OLS拟合,以检验增长理论。

OLS的框架具有极强的可拓展性。加权最小二乘法(WLS)在已知异方差函数形式时通过对各观测施加不同权重提高效率;广义最小二乘法(GLS)将OLS推广至任意形式的误差协方差矩阵;非线性最小二乘法(NLS)处理参数非线性进入模型的场合;而面板数据中的固定效应和随机效应估计量均可视为在变换后数据上应用OLS。在当代经济学训练中,OLS不仅是第一门计量课程的核心内容,更是理解所有后续高级方法——从工具变量到广义矩估计(GMM),从断点回归双重差分——的必备基础。