ARTICLE

Gauss-Markov 定理

Gauss-Markov 定理 (Gauss-Markov Theorem) Gauss-Markov 定理是线性回归理论中最重要的经典结论之一。该定理断言:在经典线性回归模型(Classical Linear Regression Model, CLRM)的一组假定下,普通最小二乘(OLS)估计量在所有线性无偏估计量中具有最小方差——即 OLS 是最佳线性

浏览 0 更新 2026-07-14

Gauss-Markov 定理 (Gauss-Markov Theorem)

Gauss-Markov 定理线性回归理论中最重要的经典结论之一。该定理断言:在经典线性回归模型(Classical Linear Regression Model, CLRM)的一组假定下,普通最小二乘(OLS)估计量在所有线性无偏估计量中具有最小方差——即 OLS 是最佳线性无偏估计量(Best Linear Unbiased Estimator, BLUE)。Gauss-Markov 定理奠定了 OLS 作为线性模型标准估计方法的理论基础,同时明确划定了 OLS 最优性所依赖的前提条件,对计量经济学教学与研究产生了深远影响。

模型设定与假设条件

考虑线性回归模型:

y=Xβ+ε\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon}

其中 y\mathbf{y}n×1n \times 1 观测向量,X\mathbf{X}n×kn \times k 非随机设计矩阵,β\boldsymbol{\beta}k×1k \times 1 未知参数向量,ε\boldsymbol{\varepsilon} 为随机误差项。OLS 估计量为 β^=(XX)1Xy\hat{\boldsymbol{\beta}} = (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{y}

Gauss-Markov 定理依赖以下核心假定:

  1. 线性性(Linearity):因变量是参数的线性函数,即 E(yX)=Xβ\mathbb{E}(\mathbf{y} \mid \mathbf{X}) = \mathbf{X}\boldsymbol{\beta}
  2. 满秩条件(Full Rank)XX\mathbf{X}'\mathbf{X} 可逆,即设计矩阵 X\mathbf{X} 列满秩,不存在严格多重共线性
  3. 严格外生性(Strict Exogeneity)E(εX)=0\mathbb{E}(\boldsymbol{\varepsilon} \mid \mathbf{X}) = \mathbf{0},误差项的条件期望为零,意味着解释变量与误差在所有观测上均不相关。
  4. 球面误差方差(Spherical Error Variance)Var(εX)=σ2In\mathrm{Var}(\boldsymbol{\varepsilon} \mid \mathbf{X}) = \sigma^2 \mathbf{I}_n,即同方差且无自相关。

需特别指出的是,Gauss-Markov 定理不要求误差项服从正态分布。OLS 的无偏性与 BLUE 性质仅依赖上述矩条件,而非分布假设。正态性假定仅在需要小样本下的 tt 检验和 FF 检验精确分布时才被引入。

定理陈述

β~=Cy\tilde{\boldsymbol{\beta}} = \mathbf{C}\mathbf{y}β\boldsymbol{\beta} 的任一线性无偏估计量,其中 C\mathbf{C}k×nk \times n 常数矩阵。无偏性要求 E(β~X)=CXβ=β\mathbb{E}(\tilde{\boldsymbol{\beta}} \mid \mathbf{X}) = \mathbf{C}\mathbf{X}\boldsymbol{\beta} = \boldsymbol{\beta} 对一切 β\boldsymbol{\beta} 成立,故 CX=Ik\mathbf{C}\mathbf{X} = \mathbf{I}_k

Gauss-Markov 定理的结论是:对于任意满足上述条件的线性无偏估计量 β~\tilde{\boldsymbol{\beta}},矩阵差

Var(β~X)Var(β^X)=σ2(CC(XX)1)\mathrm{Var}(\tilde{\boldsymbol{\beta}} \mid \mathbf{X}) - \mathrm{Var}(\hat{\boldsymbol{\beta}} \mid \mathbf{X}) = \sigma^2(\mathbf{C}\mathbf{C}' - (\mathbf{X}'\mathbf{X})^{-1})

半正定矩阵(Positive Semidefinite)。等价地,对于任意非零常数向量 cRk\mathbf{c} \in \mathbb{R}^k,标量线性组合 cβ^\mathbf{c}'\hat{\boldsymbol{\beta}}cβ\mathbf{c}'\boldsymbol{\beta} 的所有线性无偏估计量中具有最小方差。

证明概要

将任一线性估计量表示为 β~=(XX)1Xy+Dy=β^+Dy\tilde{\boldsymbol{\beta}} = (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{y} + \mathbf{D}\mathbf{y} = \hat{\boldsymbol{\beta}} + \mathbf{D}\mathbf{y}。无偏条件 CX=Ik\mathbf{C}\mathbf{X} = \mathbf{I}_k 等价于 DX=0\mathbf{D}\mathbf{X} = \mathbf{0},即 Dy\mathbf{D}\mathbf{y} 的期望为零。在此约束下:

Var(β~X)=Var(β^+DεX)=Var(β^X)+σ2DD+Cov(β^,DεX)=  0\begin{aligned} \mathrm{Var}(\tilde{\boldsymbol{\beta}} \mid \mathbf{X}) &= \mathrm{Var}(\hat{\boldsymbol{\beta}} + \mathbf{D}\boldsymbol{\varepsilon} \mid \mathbf{X}) \\ &= \mathrm{Var}(\hat{\boldsymbol{\beta}} \mid \mathbf{X}) + \sigma^2\mathbf{D}\mathbf{D}' + \underbrace{\mathrm{Cov}(\hat{\boldsymbol{\beta}}, \mathbf{D}\boldsymbol{\varepsilon} \mid \mathbf{X})}_{=\;\mathbf{0}} \end{aligned}

交叉协方差项消失是因为 Cov(β^,Dε)=σ2(XX)1XD=0\mathrm{Cov}(\hat{\boldsymbol{\beta}}, \mathbf{D}\boldsymbol{\varepsilon}) = \sigma^2(\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{D}' = \mathbf{0}(利用了 DX=0\mathbf{D}\mathbf{X} = \mathbf{0})。由于 σ2DD\sigma^2\mathbf{D}\mathbf{D}' 为半正定矩阵,Var(β~)Var(β^)\mathrm{Var}(\tilde{\boldsymbol{\beta}}) - \mathrm{Var}(\hat{\boldsymbol{\beta}}) 必然半正定,证毕。

该证明的核心直觉是:OLS 残差与解释变量正交(正交条件),任何偏离 OLS 的线性无偏估计量都会在保持无偏性的前提下引入额外噪声,从而增大方差。

BLUE 含义的细致辨析

"最佳"(Best)特指最小方差,而非其他最优性标准(如最小均方误差、最小绝对偏差)。"线性"(Linear)限定估计量为 y\mathbf{y} 的线性函数,排除了非线性估计量——后者在某些场景下可能优于 OLS(例如误差服从厚尾分布时的稳健估计,或存在先验约束时的岭回归估计量)。"无偏"(Unbiased)是严格的有限样本性质,不同于渐近无偏或一致性要求。

在正态误差假定下,OLS 的 BLUE 性质可进一步加强:OLS 在所有无偏估计量(包括非线性估计量)中具有最小方差——即 OLS 是最佳无偏估计量(Best Unbiased Estimator, BUE),这是 Gauss-Markov 定理结合Cramér-Rao下界的直接推论。

假设违反时的后果

Gauss-Markov 定理同时为我们提供了一张"诊断地图":

  • 异方差Var(εi)=σi2\mathrm{Var}(\varepsilon_i) = \sigma_i^2 不恒定):OLS 仍为线性无偏,但不再是 BLUE。广义最小二乘(GLS)利用异方差结构构造更有效的估计量,White 异方差稳健标准误则修正推断过程。
  • 自相关Cov(εi,εj)0\mathrm{Cov}(\varepsilon_i, \varepsilon_j) \neq 0):类似地,OLS 失去最优性。GLS 或 Newey-West 类型的稳健标准误可分别用于估计和推断。
  • 内生性E(xiεi)0\mathbb{E}(x_i \varepsilon_i) \neq 0):此为最严重的偏离——OLS 连无偏性也丧失了。工具变量(IV)估计和两阶段最小二乘(2SLS)是标准补救手段;在弱工具变量情形下,IV 估计量虽仍满足一致性,但有限样本偏误可能相当严重。
  • 多重共线性XX\mathbf{X}'\mathbf{X} 近奇异):OLS 仍为 BLUE,但方差急剧膨胀,导致估计精度下降、系数符号不稳定。

历史背景与思想史地位

Gauss-Markov 定理的命名反映了其脉络:Carl Friedrich Gauss 在 19 世纪初研究天体轨道的最小二乘法时已蕴含了该定理的思想,而俄国数学家Andrey Markov于 1900 年首次以明确的线性代数形式给出了完整表述和证明。Markov 的贡献在于将 Gauss 的最小二乘实践抽象为一个普适的统计学定理,并严格界定了其成立所依赖的矩条件——这在当时尚处于萌芽阶段的数理统计学中具有开创性。此后,Aitken(1935)将该定理推广至广义最小二乘框架,证明了在 Var(ε)=Σ\mathrm{Var}(\boldsymbol{\varepsilon}) = \boldsymbol{\Sigma}(已知正定矩阵)时 GLS 是 BLUE,实则已内含着 Gauss-Markov 定理是 Σ=σ2I\boldsymbol{\Sigma} = \sigma^2\mathbf{I} 特例的深刻洞见。

在现代计量经济学教学中,Gauss-Markov 定理常作为从"OLS 计算"过渡到"OLS 性质研究"的枢纽:它既是学生接触的第一个正式"最优性"定理,也是理解更高级估计理论(极大似然估计的渐近有效性和半参数效率界等)的重要参照系。其证明中以代数构造展示"方差不可能进一步减小"的手法,在效率理论的更高层次推广中反复出现。

与当代计量经济学发展的联系

尽管 Gauss-Markov 定理的条件在现代经济数据中鲜有完全满足,其分析框架仍然有效:它提供了理解估计量效率的基准,使研究者能够判断在多大程度上偏离基本假定是"可容忍的",以及何时需要寻求替代策略。在面板数据线性模型中,组内估计量(Within Estimator)、一阶差分估计量和随机效应估计量的效率比较本质上都是 Gauss-Markov 逻辑在不同扰动结构下的应用。在机器学习领域,线性模型的收缩估计(如 Lasso、Ridge)以引入偏误为代价换取方差的大幅缩减,其偏差-方差权衡的基线正是 Gauss-Markov 意义上的 OLS 方差——理解偏误代价是否值得支付,需要先清楚放弃 BLUE 中最优方差带来的损失有多大。

Gauss-Markov 定理的持久价值不在于它提供了一劳永逸的估计方案,而在于它以精确的数学语言揭示了一个核心权衡:在无偏性和线性性约束下,OLS 不可改进;要获得更好的实际表现,研究者必须在无偏性、线性性或两者之上做出妥协。这一洞见深刻影响了二十世纪以来计量经济学方法论的整体演进方向。