ARTICLE

最小二乘法 (Ordinary Least Squares, OLS)

最小二乘法 (Ordinary Least Squares, OLS) 最小二乘法(Ordinary Least Squares,简称 OLS)是计量经济学和统计学中最基础、应用最广泛的参数估计方法。其核心思想是:在线性回归模型的框架下,通过最小化残差平方和(Sum of Squared Residuals, SSR)来寻找回归系数的最优估计量。OLS 不仅

浏览 0 更新 2026-05-25

最小二乘法 (Ordinary Least Squares, OLS)

最小二乘法(Ordinary Least Squares,简称 OLS)是计量经济学统计学中最基础、应用最广泛的参数估计方法。其核心思想是:在线性回归模型的框架下,通过最小化残差平方和(Sum of Squared Residuals, SSR)来寻找回归系数的最优估计量。OLS 不仅是理解更复杂估计方法(如广义最小二乘法最大似然估计工具变量法)的理论起点,也是实证研究中默认的基准估计策略。

核心思想与几何直觉

给定一组观测数据 {(Yi,Xi1,,Xik)}i=1n\{(Y_i, X_{i1}, \dots, X_{ik})\}_{i=1}^n,我们假设因变量 YiY_i 与自变量 Xi1,,XikX_{i1}, \dots, X_{ik} 之间存在线性关系:

Yi=β0+β1Xi1++βkXik+ui,i=1,,nY_i = \beta_0 + \beta_1 X_{i1} + \cdots + \beta_k X_{ik} + u_i, \quad i = 1, \dots, n

其中 uiu_i 为不可观测的扰动项(误差项)。OLS 的目标是找到一组系数 β^0,β^1,,β^k\hat{\beta}_0, \hat{\beta}_1, \dots, \hat{\beta}_k,使得拟合值 Y^i=β^0+β^1Xi1++β^kXik\hat{Y}_i = \hat{\beta}_0 + \hat{\beta}_1 X_{i1} + \cdots + \hat{\beta}_k X_{ik} 与实际观测值 YiY_i 之间差距的平方和最小:

minβ^0,,β^ki=1n(YiY^i)2=minβ^0,,β^ki=1nu^i2\min_{\hat{\beta}_0, \dots, \hat{\beta}_k} \sum_{i=1}^n \left(Y_i - \hat{Y}_i\right)^2 = \min_{\hat{\beta}_0, \dots, \hat{\beta}_k} \sum_{i=1}^n \hat{u}_i^2

其中 u^i=YiY^i\hat{u}_i = Y_i - \hat{Y}_i 称为残差。从几何角度看,OLS 等价于在 nn 维观测空间中,将因变量向量 Y\mathbf{Y} 投影到由自变量列向量张成的子空间上,残差向量 u^\hat{\mathbf{u}} 与该子空间正交。这一正交性条件直接导出 OLS 的正规方程组。

一元线性回归的推导

在最简单的一元情形 Yi=β0+β1Xi+uiY_i = \beta_0 + \beta_1 X_i + u_i 中,最小化目标函数 S(β^0,β^1)=i=1n(Yiβ^0β^1Xi)2S(\hat{\beta}_0, \hat{\beta}_1) = \sum_{i=1}^n (Y_i - \hat{\beta}_0 - \hat{\beta}_1 X_i)^2。对 β^0\hat{\beta}_0β^1\hat{\beta}_1 分别求一阶导数并令其为零:

Sβ^0=2i=1n(Yiβ^0β^1Xi)=0\frac{\partial S}{\partial \hat{\beta}_0} = -2\sum_{i=1}^n (Y_i - \hat{\beta}_0 - \hat{\beta}_1 X_i) = 0
Sβ^1=2i=1nXi(Yiβ^0β^1Xi)=0\frac{\partial S}{\partial \hat{\beta}_1} = -2\sum_{i=1}^n X_i(Y_i - \hat{\beta}_0 - \hat{\beta}_1 X_i) = 0

解此正规方程组,得到著名的 OLS 估计量:

β^1=i=1n(XiXˉ)(YiYˉ)i=1n(XiXˉ)2=Cov^(X,Y)Var^(X)\hat{\beta}_1 = \frac{\sum_{i=1}^n (X_i - \bar{X})(Y_i - \bar{Y})}{\sum_{i=1}^n (X_i - \bar{X})^2} = \frac{\widehat{\operatorname{Cov}}(X, Y)}{\widehat{\operatorname{Var}}(X)}
β^0=Yˉβ^1Xˉ\hat{\beta}_0 = \bar{Y} - \hat{\beta}_1 \bar{X}

斜率估计量 β^1\hat{\beta}_1 具有直观的经济含义:XX 每变动一个单位,YY 平均变动 β^1\hat{\beta}_1 个单位。截距 β^0\hat{\beta}_0 确保回归线通过样本均值点 (Xˉ,Yˉ)(\bar{X}, \bar{Y})

矩阵形式的OLS

对于多元回归,使用矩阵代数可以给出简洁的表示。令 Y\mathbf{Y}n×1n \times 1 因变量向量,X\mathbf{X}n×(k+1)n \times (k+1) 设计矩阵(第一列全为 1,对应截距项),β\boldsymbol{\beta}(k+1)×1(k+1) \times 1 参数向量,u\mathbf{u} 为扰动项向量。模型写为:

Y=Xβ+u\mathbf{Y} = \mathbf{X}\boldsymbol{\beta} + \mathbf{u}

残差平方和为 u^u^=(YXβ^)(YXβ^)\hat{\mathbf{u}}'\hat{\mathbf{u}} = (\mathbf{Y} - \mathbf{X}\hat{\boldsymbol{\beta}})'(\mathbf{Y} - \mathbf{X}\hat{\boldsymbol{\beta}})。对 β^\hat{\boldsymbol{\beta}} 求导并令其为零向量,得到正规方程:

XXβ^=XY\mathbf{X}'\mathbf{X}\hat{\boldsymbol{\beta}} = \mathbf{X}'\mathbf{Y}

假设 XX\mathbf{X}'\mathbf{X} 可逆(即无完全多重共线性),则 OLS 估计量的矩阵表达式为:

β^=(XX)1XY\hat{\boldsymbol{\beta}} = (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{Y}

这一紧凑形式是所有后续推导的基础。矩阵 P=X(XX)1X\mathbf{P} = \mathbf{X}(\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}' 被称为投影矩阵(或"帽子矩阵"),因为 Y^=PY\hat{\mathbf{Y}} = \mathbf{P}\mathbf{Y};而 M=IP\mathbf{M} = \mathbf{I} - \mathbf{P} 是残差生成矩阵,满足 u^=MY\hat{\mathbf{u}} = \mathbf{M}\mathbf{Y}

高斯-马尔可夫定理

在满足以下经典线性回归模型假设的条件下,OLS 估计量是最佳线性无偏估计量(Best Linear Unbiased Estimator, BLUE):

  1. 线性性: 模型关于参数是线性的,即 Yi=β0+β1Xi1++βkXik+uiY_i = \beta_0 + \beta_1 X_{i1} + \cdots + \beta_k X_{ik} + u_i
  2. 随机抽样: 观测样本 {(Yi,Xi1,,Xik)}\{(Y_i, X_{i1}, \dots, X_{ik})\} 是从总体中随机抽取的。
  3. 无完全多重共线性: 自变量之间不存在精确的线性关系,即 XX\mathbf{X}'\mathbf{X} 满秩可逆。
  4. 零条件均值: E[uiXi1,,Xik]=0E[u_i \mid X_{i1}, \dots, X_{ik}] = 0。这是最关键的外生性假设,保证了解释变量与扰动项不相关。
  5. 同方差性: Var(uiXi1,,Xik)=σ2\operatorname{Var}(u_i \mid X_{i1}, \dots, X_{ik}) = \sigma^2(常数方差)。

若假设 1-4 成立,OLS 是无偏且一致的。若假设 5 也成立,则 OLS 在所有线性无偏估计量中具有最小方差,即高斯-马尔可夫定理成立。若同方差假设被违背(即存在异方差性),OLS 仍然无偏且一致,但不再是有效的;此时应使用异方差稳健标准误(如White 标准误)进行推断。

OLS 估计量的统计性质

方差-协方差矩阵

在假设 1-5 下,OLS 估计量的方差-协方差矩阵为:

Var(β^X)=σ2(XX)1\operatorname{Var}(\hat{\boldsymbol{\beta}} \mid \mathbf{X}) = \sigma^2 (\mathbf{X}'\mathbf{X})^{-1}

其中 σ2\sigma^2 是扰动项方差的无偏估计量:σ^2=u^u^nk1=SSRnk1\hat{\sigma}^2 = \frac{\hat{\mathbf{u}}'\hat{\mathbf{u}}}{n - k - 1} = \frac{\text{SSR}}{n - k - 1}。分母中的 nk1n - k - 1 是自由度修正。单个系数 β^j\hat{\beta}_j 的标准误为 SE(β^j)=σ^[(XX)1]jj\operatorname{SE}(\hat{\beta}_j) = \hat{\sigma} \sqrt{[(\mathbf{X}'\mathbf{X})^{-1}]_{jj}}

拟合优度:R2R^2

决定系数 R2R^2 衡量模型对数据变异的解释比例:

R2=1SSRSST=1i=1nu^i2i=1n(YiYˉ)2R^2 = 1 - \frac{\text{SSR}}{\text{SST}} = 1 - \frac{\sum_{i=1}^n \hat{u}_i^2}{\sum_{i=1}^n (Y_i - \bar{Y})^2}

R2R^2 的取值范围为 [0,1][0, 1],越接近 1 表示模型拟合越好。然而,R2R^2 的一个缺陷是:只要向模型中加入任何新变量(即使与 YY 无关),R2R^2 都不会下降。调整后 R 方Rˉ2=1SSR/(nk1)SST/(n1)\bar{R}^2 = 1 - \frac{\text{SSR}/(n-k-1)}{\text{SST}/(n-1)})通过自由度惩罚额外变量,是更合理的模型比较指标。

OLSE 的大样本性质

在小样本假设之外,OLS 估计量还具有优良的大样本(渐近)性质。在假设 1-4 成立(不强求同方差和正态性)时:

  • 一致性: β^pβ\hat{\boldsymbol{\beta}} \xrightarrow{p} \boldsymbol{\beta},即随着样本量增大,估计量以概率收敛到真实参数值。
  • 渐近正态性: n(β^β)dN(0,V)\sqrt{n}(\hat{\boldsymbol{\beta}} - \boldsymbol{\beta}) \xrightarrow{d} N(\mathbf{0}, \mathbf{V}),其中 V\mathbf{V} 是渐近方差-协方差矩阵。这一性质使得在大样本下可以用正态分布进行t 检验F 检验,即使扰动项不服从正态分布。

假设检验

在扰动项正态性假设 uiXN(0,σ2)u_i \mid \mathbf{X} \sim N(0, \sigma^2) 下,OLS 估计量服从精确的正态分布,可以进行有限样本推断:

  • 单系数检验(t 检验): 检验 H0:βj=0H_0: \beta_j = 0,构造 t 统计量 t=β^j/SE(β^j)tnk1t = \hat{\beta}_j / \operatorname{SE}(\hat{\beta}_j) \sim t_{n-k-1}
  • 多系数联合检验(F 检验): 检验 H0:βkq+1==βk=0H_0: \beta_{k-q+1} = \cdots = \beta_k = 0(排除性约束),构造 F 统计量: \[ F = \frac{(\text{SSR}_{\text{restricted}} - \text{SSR}_{\text{unrestricted}}) / q}{\text{SSR}_{\text{unrestricted}} / (n - k - 1)} \sim F_{q, n-k-1} \]

OLS 的局限性与扩展

尽管 OLS 是实证工作的基石,其局限性也十分明确。首先,若零条件均值假设被违背(例如遗漏变量、联立性偏误测量误差),OLS 估计量将是有偏且不一致的。此时需要诉诸工具变量法(两阶段最小二乘法,2SLS)。其次,OLS 对异常值和杠杆点高度敏感,单个极端观测可能大幅扭曲回归线。稳健回归方法(如 Huber 的 M-估计、分位数回归)可减轻此问题。

最后,当因变量为二分变量、计数变量或截断变量时,线性概率模型的 OLS 估计会系统性地错误——Logit 模型Probit 模型泊松回归Tobit 模型等非线性估计方法应运而生。然而,所有这些广义模型的核心思想——通过某种目标函数的极值化寻找参数——都可以追溯到 OLS 的最小化残差平方和原则上。

OLS 之所以经久不衰,不仅因为它在满足假设时的优良统计性质,更因为它为理解参数估计的权衡——偏差与方差、简单与灵活、假设与稳健——提供了一个不可替代的分析框架。掌握 OLS 的假设、推导和局限,是深入学习一切计量经济学方法的前提。