ARTICLE

最优线性无偏估计量

最优线性无偏估计量 (Best Linear Unbiased Estimator, BLUE) 最优线性无偏估计量(BLUE)是统计学和计量经济学中的核心概念,指在某一类估计量中同时满足线性性、无偏性和最小方差性三个条件的估计量。该概念由高斯-马尔可夫定理(Gauss-Markov Theorem)正式确立,构成了普通最小二乘法(OLS)的理论基石。 三个

浏览 0 更新 2025-10-26

最优线性无偏估计量 (Best Linear Unbiased Estimator, BLUE)

最优线性无偏估计量(BLUE)是统计学和计量经济学中的核心概念,指在某一类估计量中同时满足线性性、无偏性和最小方差性三个条件的估计量。该概念由高斯-马尔可夫定理(Gauss-Markov Theorem)正式确立,构成了普通最小二乘法(OLS)的理论基石。

三个核心性质

BLUE由三个独立性质复合而成:

  1. 线性性(Linear):估计量 β^ \hat{\beta} 必须是被解释变量 y \mathbf{y} 的线性函数,即存在矩阵 C \mathbf{C} 使得 β^=Cy \hat{\beta} = \mathbf{C}\mathbf{y} 。这一性质保证了估计量在计算上的简便性和可解释性。
  2. 无偏性(Unbiased):估计量的期望值等于真实参数值,即 E[β^]=β \mathbb{E}[\hat{\beta}] = \beta 。无偏性意味着在重复抽样中,估计量不会系统性地高估或低估真实参数。
  3. 最优性/有效性(Best):在所有满足线性性和无偏性的估计量中,该估计量具有最小的协方差矩阵。对于任意其他线性无偏估计量 β~ \tilde{\beta} ,矩阵差 Var(β~)Var(β^) \operatorname{Var}(\tilde{\beta}) - \operatorname{Var}(\hat{\beta}) 为半正定。这意味着 BLUE 的每个线性组合都具有最小的方差。

高斯-马尔可夫定理

考虑经典线性回归模型:

y=Xβ+ε\mathbf{y} = \mathbf{X}\beta + \boldsymbol{\varepsilon}

其中 y \mathbf{y} n×1 n \times 1 观测向量,X \mathbf{X} n×k n \times k 满列秩设计矩阵,β \beta k×1 k \times 1 未知参数向量,ε \boldsymbol{\varepsilon} 为随机误差项。

定理陈述:若以下假设成立——

  1. E[εX]=0 \mathbb{E}[\boldsymbol{\varepsilon} \mid \mathbf{X}] = \mathbf{0} (严格外生性)
  2. Var(εX)=σ2In \operatorname{Var}(\boldsymbol{\varepsilon} \mid \mathbf{X}) = \sigma^2 \mathbf{I}_n (球形误差:同方差且无自相关)

——则 OLS 估计量 β^OLS=(XX)1Xy \hat{\beta}_{\text{OLS}} = (\mathbf{X}^\top \mathbf{X})^{-1} \mathbf{X}^\top \mathbf{y} β \beta 的最优线性无偏估计量(BLUE)。

需要注意的是,高斯-马尔可夫定理不要求误差项服从正态分布。即使 ε \boldsymbol{\varepsilon} 是非正态的,只要满足前两个矩条件,OLS 在所有线性无偏估计量中仍是方差最小的。正态性假设仅在有限样本下进行 t t 检验和 F F 检验时才需要。

证明概要

β~=Cy \tilde{\beta} = \mathbf{C}\mathbf{y} 为任意线性估计量。由无偏性要求:

E[β~]=E[C(Xβ+ε)]=CXβ=β\mathbb{E}[\tilde{\beta}] = \mathbb{E}[\mathbf{C}(\mathbf{X}\beta + \boldsymbol{\varepsilon})] = \mathbf{C}\mathbf{X}\beta = \beta

因此 CX=Ik \mathbf{C}\mathbf{X} = \mathbf{I}_k 。令 C=(XX)1X+D \mathbf{C} = (\mathbf{X}^\top \mathbf{X})^{-1}\mathbf{X}^\top + \mathbf{D} ,其中 D \mathbf{D} 满足 DX=0 \mathbf{D}\mathbf{X} = \mathbf{0} 。则:

Var(β~)=σ2CC=σ2[(XX)1+DD]σ2(XX)1=Var(β^OLS)\operatorname{Var}(\tilde{\beta}) = \sigma^2 \mathbf{C} \mathbf{C}^\top = \sigma^2 [(\mathbf{X}^\top \mathbf{X})^{-1} + \mathbf{D}\mathbf{D}^\top] \succeq \sigma^2 (\mathbf{X}^\top \mathbf{X})^{-1} = \operatorname{Var}(\hat{\beta}_{\text{OLS}})

DD \mathbf{D}\mathbf{D}^\top 为半正定矩阵,故 OLS 的方差最小,证毕。

不满足假设时的情形

当球形误差假设被违反时,OLS 不再是 BLUE:

  • 异方差Var(εi)=σi2 \operatorname{Var}(\varepsilon_i) = \sigma_i^2 不尽相同。此时加权最小二乘法(WLS)或广义最小二乘法(GLS)可恢复 BLUE 性质。实践中常用异方差稳健标准误(White/Huber-Eicker)进行推断修正。
  • 自相关Cov(εi,εj)0 \operatorname{Cov}(\varepsilon_i, \varepsilon_j) \neq 0 可行广义最小二乘法(FGLS)或Newey-West标准误是常见应对策略。
  • 内生性E[xiεi]0 \mathbb{E}[\mathbf{x}_i \varepsilon_i] \neq \mathbf{0} ,OLS 连无偏性也丧失。此时需借助工具变量法(IV)获得一致性估计。

意义与局限

BLUE 的性质使 OLS 在满足经典假设时成为最优选择,为实证研究提供了坚实的理论基础。然而,"最优"仅局限于线性无偏估计量这一子类。当考虑非线性估计量(如最大似然估计)或允许有偏但方差更小的估计量(如岭回归LASSO)时,可能存在均方误差(MSE)更优的选择。特别是在高维设定和预测导向的场景中,偏差-方差权衡使得"最优"的含义需要根据具体目标重新审视。