ARTICLE

OLS 估计量

OLS 估计量 (Ordinary Least Squares Estimator) 普通最小二乘估计量(OLS 估计量)是计量经济学和数理统计中最基础、应用最广泛的参数估计方法。其核心思想由Carl Friedrich Gauss于18世纪末在天体轨道计算中首次系统使用,后经Andrey Markov等人的理论化,成为线性回归模型的标准估计框架。OLS 通

浏览 0 更新 2026-07-14

OLS 估计量 (Ordinary Least Squares Estimator)

普通最小二乘估计量(OLS 估计量)是计量经济学数理统计中最基础、应用最广泛的参数估计方法。其核心思想由Carl Friedrich Gauss于18世纪末在天体轨道计算中首次系统使用,后经Andrey Markov等人的理论化,成为线性回归模型的标准估计框架。OLS 通过最小化残差平方和(Sum of Squared Residuals, SSR)来求解回归系数,兼具计算简便性与优良统计性质。

估计量的构造与推导

考虑线性回归模型的矩阵形式:

y=Xβ+ε\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon}

其中 yRn\mathbf{y} \in \mathbb{R}^n 为因变量观测向量,XRn×k\mathbf{X} \in \mathbb{R}^{n \times k} 为设计矩阵,βRk\boldsymbol{\beta} \in \mathbb{R}^k 为待估参数向量,εRn\boldsymbol{\varepsilon} \in \mathbb{R}^n 为不可观测的误差项。OLS 的目标是选择 β^\hat{\boldsymbol{\beta}} 使得残差平方和最小:

β^=argminβ  (yXβ)(yXβ)\hat{\boldsymbol{\beta}} = \arg\min_{\boldsymbol{\beta}} \; (\mathbf{y} - \mathbf{X}\boldsymbol{\beta})'(\mathbf{y} - \mathbf{X}\boldsymbol{\beta})

对目标函数关于 β\boldsymbol{\beta} 求一阶条件:

β(yy2yXβ+βXXβ)=2Xy+2XXβ=0\frac{\partial}{\partial \boldsymbol{\beta}} (\mathbf{y}'\mathbf{y} - 2\mathbf{y}'\mathbf{X}\boldsymbol{\beta} + \boldsymbol{\beta}'\mathbf{X}'\mathbf{X}\boldsymbol{\beta}) = -2\mathbf{X}'\mathbf{y} + 2\mathbf{X}'\mathbf{X}\boldsymbol{\beta} = \mathbf{0}

XX\mathbf{X}'\mathbf{X} 可逆的假设下(即不存在严格多重共线性),OLS 估计量的闭式解为:

β^=(XX)1Xy\boxed{\hat{\boldsymbol{\beta}} = (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{y}}

该公式揭示了 OLS 估计量的本质:它是 y\mathbf{y} 的线性函数。定义投影矩阵 P=X(XX)1X\mathbf{P} = \mathbf{X}(\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}',则拟合值 y^=Py\hat{\mathbf{y}} = \mathbf{P}\mathbf{y},残差 ε^=(IP)y=My\hat{\boldsymbol{\varepsilon}} = (\mathbf{I} - \mathbf{P})\mathbf{y} = \mathbf{M}\mathbf{y},其中 M=IP\mathbf{M} = \mathbf{I} - \mathbf{P}残差生成矩阵(零化矩阵),满足 MX=0\mathbf{M}\mathbf{X} = \mathbf{0}——即残差与所有解释变量正交。这一正交条件是理解 OLS 几何性质与统计性质的关键。

有限样本性质

OLS 估计量的统计性质依赖于对模型假设的层层递进。

无偏性(Unbiasedness)

在假设 E(εX)=0\mathbb{E}(\boldsymbol{\varepsilon} \mid \mathbf{X}) = \mathbf{0}(严格外生性)下:

E(β^X)=E((XX)1X(Xβ+ε)X)=β+(XX)1XE(εX)=β\mathbb{E}(\hat{\boldsymbol{\beta}} \mid \mathbf{X}) = \mathbb{E}((\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'(\mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon}) \mid \mathbf{X}) = \boldsymbol{\beta} + (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbb{E}(\boldsymbol{\varepsilon} \mid \mathbf{X}) = \boldsymbol{\beta}

无偏性意味着 OLS 估计量在重复抽样中不会系统性地高估或低估真实参数。但需注意,无偏性是有限样本性质,且严重依赖于严格外生性——若存在内生性E(xiεi)0\mathbb{E}(x_i \varepsilon_i) \neq 0),OLS 连无偏性也无法保证。

方差-协方差矩阵

同方差且无自相关的球面误差假设下(Var(εX)=σ2In\mathrm{Var}(\boldsymbol{\varepsilon} \mid \mathbf{X}) = \sigma^2 \mathbf{I}_n):

Var(β^X)=(XX)1Xσ2InX(XX)1=σ2(XX)1\mathrm{Var}(\hat{\boldsymbol{\beta}} \mid \mathbf{X}) = (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}' \cdot \sigma^2\mathbf{I}_n \cdot \mathbf{X}(\mathbf{X}'\mathbf{X})^{-1} = \sigma^2 (\mathbf{X}'\mathbf{X})^{-1}

其中 σ2\sigma^2 的无偏估计量为 σ^2=ε^ε^nk=SSRnk\hat{\sigma}^2 = \frac{\hat{\boldsymbol{\varepsilon}}'\hat{\boldsymbol{\varepsilon}}}{n-k} = \frac{SSR}{n-k},分母使用 nkn-k(自由度调整)而非 nn 正是为保无偏性。由此可构造单个系数的标准误:SE(β^j)=σ^(XX)jj1\mathrm{SE}(\hat{\beta}_j) = \hat{\sigma} \sqrt{(\mathbf{X}'\mathbf{X})^{-1}_{jj}}

Gauss-Markov 定理与 BLUE

Gauss-Markov 定理是 OLS 理论的核心支柱:在经典线性回归假设(线性性、满秩、严格外生性、球面误差方差)下,OLS 估计量在所有线性无偏估计量中具有最小方差——即 OLS 是BLUE(Best Linear Unbiased Estimator)。

该定理的证明思路简练而深刻:设 β~=Cy\tilde{\boldsymbol{\beta}} = \mathbf{C}\mathbf{y} 为任一线性无偏估计量,无偏性要求 CX=Ik\mathbf{C}\mathbf{X} = \mathbf{I}_k。将 β~\tilde{\boldsymbol{\beta}} 写为 β~=β^+Dy\tilde{\boldsymbol{\beta}} = \hat{\boldsymbol{\beta}} + \mathbf{D}\mathbf{y}(其中 D=C(XX)1X\mathbf{D} = \mathbf{C} - (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'),无偏条件等价于 DX=0\mathbf{D}\mathbf{X} = \mathbf{0}。于是:

Var(β~)=Var(β^)+σ2DD+Cov(β^,Dε)=0\mathrm{Var}(\tilde{\boldsymbol{\beta}}) = \mathrm{Var}(\hat{\boldsymbol{\beta}}) + \sigma^2\mathbf{D}\mathbf{D}' + \underbrace{\mathrm{Cov}(\hat{\boldsymbol{\beta}}, \mathbf{D}\boldsymbol{\varepsilon})}_{= \mathbf{0}}

由于 σ2DD\sigma^2\mathbf{D}\mathbf{D}' 半正定,Var(β~)Var(β^)\mathrm{Var}(\tilde{\boldsymbol{\beta}}) - \mathrm{Var}(\hat{\boldsymbol{\beta}}) 半正定,证毕。关键在于:任何偏离 OLS 的线性无偏估计量等价于在 OLS 基础上加入与 X\mathbf{X} 正交的噪声项(DX=0\mathbf{D}\mathbf{X} = \mathbf{0}),只会增加而不会减少方差。

渐近性质

当样本量 nn \to \infty 时,OLS 具有更稳健的性质。

一致性(Consistency)

在较弱的条件下——仅需 plimXεn=0\mathrm{plim}\, \frac{\mathbf{X}'\boldsymbol{\varepsilon}}{n} = \mathbf{0}(解释变量与误差的样本协方差依概率趋于零)和 plimXXn=Q\mathrm{plim}\, \frac{\mathbf{X}'\mathbf{X}}{n} = \mathbf{Q}Q\mathbf{Q} 正定)——OLS 即满足一致性

plimβ^=β+Q1plimXεn=β\mathrm{plim}\,\hat{\boldsymbol{\beta}} = \boldsymbol{\beta} + \mathbf{Q}^{-1} \cdot \mathrm{plim}\,\frac{\mathbf{X}'\boldsymbol{\varepsilon}}{n} = \boldsymbol{\beta}

一致性比无偏性更为根本:即使有限样本中 OLS 存在偏误,只要样本足够大,估计值仍会收敛到真实参数。这为工具变量法等处理内生性的方法提供了理论基础。

渐近正态性

在 i.i.d. 抽样且存在有限四阶矩的条件下,借助Lindeberg-Levy 中心极限定理

n(β^β)dN(0,σ2Q1)\sqrt{n}(\hat{\boldsymbol{\beta}} - \boldsymbol{\beta}) \xrightarrow{d} \mathcal{N}(\mathbf{0}, \sigma^2 \mathbf{Q}^{-1})

渐近正态性使得即使误差项不服从正态分布,大样本下的 t 检验和 F 检验仍然近似有效。当存在异方差时,需使用 White 异方差稳健标准误(也称Huber-White标准误或Eicker-Huber-White标准误):

Varrobust(β^)=(XX)1(i=1nε^i2xixi)(XX)1\mathrm{Var}_{\text{robust}}(\hat{\boldsymbol{\beta}}) = (\mathbf{X}'\mathbf{X})^{-1}\left(\sum_{i=1}^n \hat{\varepsilon}_i^2 \mathbf{x}_i \mathbf{x}_i'\right)(\mathbf{X}'\mathbf{X})^{-1}

该估计量在未知异方差形式下提供了一致的标准误估计,是实证研究的标准实践。

假设诊断与违反后果

OLS 的优良性质高度依赖假设的满足程度,假设检验的诊断方法构成了计量经济学实践的重要一环。

  1. 多重共线性(Multicollinearity):当解释变量间高度相关时,XX\mathbf{X}'\mathbf{X} 接近奇异,OLS 虽仍为 BLUE,但方差急剧膨胀。检测手段包括方差膨胀因子(VIF):VIFj=1/(1Rj2)\mathrm{VIF}_j = 1/(1-R_j^2),其中 Rj2R_j^2xjx_j 对其余解释变量回归的拟合优度。VIF > 10 常被视为严重共线性的信号。
  2. 异方差(Heteroskedasticity):当 Var(εi)=σi2\mathrm{Var}(\varepsilon_i) = \sigma_i^2 不恒定时,OLS 失去最优性(不再是 BLUE)。Breusch-Pagan 检验White 检验是常用的异方差诊断工具。在此情形下,广义最小二乘(GLS)和加权最小二乘(WLS)是更有效的替代方案,而稳健标准误则为推断提供了保护。
  3. 自相关(Autocorrelation):在时间序列数据中,若 Cov(εt,εts)0\mathrm{Cov}(\varepsilon_t, \varepsilon_{t-s}) \neq 0,OLS 不再是 BLUE。Durbin-Watson 检验针对一阶自相关设计,Breusch-Godfrey 检验(LM 检验)可检验更高阶自相关。Newey-West 异方差自相关一致(HAC)标准误提供了大样本下的稳健推断。
  4. 内生性(Endogeneity):这是最严重的偏离——E(xiεi)0\mathbb{E}(x_i \varepsilon_i) \neq 0 导致 OLS 既非无偏也非一致。内生性的来源包括遗漏变量偏误测量误差互为因果(联立性)和样本选择工具变量法(IV)和两阶段最小二乘(2SLS)是核心补救策略。Hausman 检验(或称Durbin-Wu-Hausman 检验)可用于正式诊断内生性。

OLS 的几何解释

从线性代数角度看,OLS 本质上是将 y\mathbf{y} 正交投影到由 X\mathbf{X} 的列张成的子空间 C(X)\mathcal{C}(\mathbf{X}) 上。投影矩阵 P=X(XX)1X\mathbf{P} = \mathbf{X}(\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}' 是对称幂等矩阵,满足 PX=X\mathbf{P}\mathbf{X} = \mathbf{X}。残差向量 ε^\hat{\boldsymbol{\varepsilon}}y\mathbf{y} 到该子空间的正交补空间 C(X)\mathcal{C}(\mathbf{X})^{\perp} 的投影。Frisch-Waugh-Lovell 定理(FWL 定理)在此基础上提供了一种深刻的理解:多元回归中任一子集系数的 OLS 估计等价于先剔除其他变量影响(partial out),再估计净效应的三步程序,完美诠释了"控制其他变量不变"(ceteris paribus)的几何内涵。

OLS 与极大似然估计的联系

当误差项服从正态分布 εN(0,σ2In)\boldsymbol{\varepsilon} \sim \mathcal{N}(\mathbf{0}, \sigma^2 \mathbf{I}_n) 时,OLS 估计量等价于极大似然估计(MLE)量。此时,对数似然函数为:

(β,σ2)=n2ln(2π)n2lnσ212σ2(yXβ)(yXβ)\ell(\boldsymbol{\beta}, \sigma^2) = -\frac{n}{2}\ln(2\pi) - \frac{n}{2}\ln\sigma^2 - \frac{1}{2\sigma^2}(\mathbf{y} - \mathbf{X}\boldsymbol{\beta})'(\mathbf{y} - \mathbf{X}\boldsymbol{\beta})

最大化 \ell 关于 β\boldsymbol{\beta} 等价于最小化残差平方和,故 β^OLS=β^MLE\hat{\boldsymbol{\beta}}_{\text{OLS}} = \hat{\boldsymbol{\beta}}_{\text{MLE}}。但需注意,σ2\sigma^2 的 MLE 为 σ^MLE2=SSR/n\hat{\sigma}^2_{\text{MLE}} = SSR/n(有偏),而 OLS 框架下常用的无偏估计为 SSR/(nk)SSR/(n-k)。在正态误差假设下,OLS 进一步加强为在所有无偏估计量(包括非线性)中具有最小方差——即最佳无偏估计量(BUE),这是 Gauss-Markov 定理结合Cramér-Rao 下界的直接推论。

OLS 在实证研究中的地位

OLS 估计量是实证经济学家最常使用的工具。它不仅是建立因果推断的起点,也是更复杂方法(面板数据固定效应模型、断点回归设计的一阶段估计、双重差分的基准设定)的构成基础。即使在机器学习高维统计兴起的背景下,OLS 作为基准模型(baseline)的角色依然不可替代——研究者通常先报告 OLS 结果,再展示更复杂方法的边际贡献。其持久的生命力源于两点:计算上的极致简便(闭式解、无需迭代优化)与理论上 Gauss-Markov 定理提供的清晰最优性保证。理解 OLS 何时有效、何时失效、以及失效后的诊断与补救路径,是计量经济学训练的核心内容。