ARTICLE

异方差稳健标准误

异方差稳健标准误 (Heteroskedasticity-Robust Standard Errors) 异方差稳健标准误,亦称White标准误、Huber-White标准误或夹心估计量(Sandwich Estimator),是计量经济学中在异方差未知形式下对OLS参数估计量进行有效统计推断的核心工具。与经典标准误(Classical/Homoskedas

浏览 4 更新 2026-01-15

异方差稳健标准误 (Heteroskedasticity-Robust Standard Errors)

异方差稳健标准误,亦称White标准误Huber-White标准误夹心估计量(Sandwich Estimator),是计量经济学中在异方差未知形式下对OLS参数估计量进行有效统计推断的核心工具。与经典标准误(Classical/Homoskedastic Standard Errors)不同,它不要求误差项满足同方差假设,因此在实证研究中被广泛采用。

问题背景:异方差与经典推断的失效

考虑线性回归模型:

Y=Xβ+ε,E[εX]=0Y = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon}, \quad \mathbb{E}[\boldsymbol{\varepsilon} \mid \mathbf{X}] = \mathbf{0}

普通最小二乘法(OLS)估计量为 β^=(XTX)1XTY \hat{\boldsymbol{\beta}} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{Y} 。在高斯-马尔可夫假设下,若球形误差方差(Spherical Error Variance)V[εX]=σ2In \mathbb{V}[\boldsymbol{\varepsilon} \mid \mathbf{X}] = \sigma^2 \mathbf{I}_n 成立,则 β^ \hat{\boldsymbol{\beta}} 的协方差矩阵为:

Vclassical[β^X]=σ2(XTX)1\mathbb{V}_{\text{classical}}[\hat{\boldsymbol{\beta}} \mid \mathbf{X}] = \sigma^2 (\mathbf{X}^T\mathbf{X})^{-1}

实践中以 s2=eTenk s^2 = \frac{\mathbf{e}^T\mathbf{e}}{n-k} 替代 σ2 \sigma^2 ,其中 e=YXβ^ \mathbf{e} = \mathbf{Y} - \mathbf{X}\hat{\boldsymbol{\beta}} 为残差向量,k k 为参数个数。

然而,当异方差存在,即 V[εiX]=σi2 \mathbb{V}[\varepsilon_i \mid \mathbf{X}] = \sigma_i^2 随观测个体变化时,真实的协方差矩阵为:

Vtrue[β^X]=(XTX)1XTΣX(XTX)1,Σ=diag(σ12,,σn2)\mathbb{V}_{\text{true}}[\hat{\boldsymbol{\beta}} \mid \mathbf{X}] = (\mathbf{X}^T\mathbf{X})^{-1} \mathbf{X}^T \boldsymbol{\Sigma} \mathbf{X} (\mathbf{X}^T\mathbf{X})^{-1}, \quad \boldsymbol{\Sigma} = \operatorname{diag}(\sigma_1^2, \dots, \sigma_n^2)

经典标准误(基于 σ2(XTX)1 \sigma^2 (\mathbf{X}^T\mathbf{X})^{-1} )此时是不一致的:它既不趋近于真实方差,方向也不确定——可能低估或高估,导致t检验F检验失效,置信区间覆盖率偏离名义水平。White(1980)和MacKinnon-White(1985)的系列工作奠定了稳健推断的基础。

White夹心估计量

White的核心思想是用残差平方直接估计每个观测的条件方差,构造夹心形式(Sandwich Form)协方差矩阵估计器。最基础的版本为HC0(Heteroskedasticity-Consistent):

V^HC0[β^]=(XTX)1XTΣ^0X(XTX)1\hat{\mathbb{V}}_{\text{HC0}}[\hat{\boldsymbol{\beta}}] = (\mathbf{X}^T\mathbf{X})^{-1} \mathbf{X}^T \hat{\boldsymbol{\Sigma}}_0 \mathbf{X} (\mathbf{X}^T\mathbf{X})^{-1}

其中 Σ^0=diag(e12,,en2) \hat{\boldsymbol{\Sigma}}_0 = \operatorname{diag}(e_1^2, \dots, e_n^2) ,即以残差平方 ei2 e_i^2 替代未知的 σi2 \sigma_i^2 。该估计量在一般条件下是异方差一致的:

nV^HC0[β^]plimnnVtrue[β^]n \cdot \hat{\mathbb{V}}_{\text{HC0}}[\hat{\boldsymbol{\beta}}] \xrightarrow{p} \lim_{n \to \infty} n \cdot \mathbb{V}_{\text{true}}[\hat{\boldsymbol{\beta}}]

从而基于HC0的t统计量在大样本下近似服从标准正态分布,保证推断的有效性。

有限样本修正:HC1、HC2、HC3

HC0在小样本下存在向下的有限样本偏差(倾向于低估真实方差),且对高杠杆点(High Leverage Points)敏感。后续文献提出了三种改进:

  • HC1(常用修正):Σ^1=nnkdiag(e12,,en2) \hat{\boldsymbol{\Sigma}}_1 = \frac{n}{n-k} \operatorname{diag}(e_1^2, \dots, e_n^2) 。以自由度调整因子 nnk \frac{n}{n-k} 扩张HC0,是Stata中 \texttt{reg, robust} 的默认选项,在大样本中等价于HC0。
  • HC2(杠杆调整):Σ^2=diag(ei21hii) \hat{\boldsymbol{\Sigma}}_2 = \operatorname{diag}\left(\frac{e_i^2}{1 - h_{ii}}\right) ,其中 hii=xiT(XTX)1xi h_{ii} = \mathbf{x}_i^T (\mathbf{X}^T\mathbf{X})^{-1} \mathbf{x}_i 帽子矩阵 H=X(XTX)1XT \mathbf{H} = \mathbf{X}(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T 的第 i i 个对角元(第 i i 个观测的杠杆值)。该修正在同方差条件下恰好给出经典方差的无偏估计。
  • HC3(Jackknife近似):Σ^3=diag(ei2(1hii)2) \hat{\boldsymbol{\Sigma}}_3 = \operatorname{diag}\left(\frac{e_i^2}{(1 - h_{ii})^2}\right) 。平方杠杆调整使修正更强,在存在高杠杆点时表现优于HC2,模拟证据表明其有限样本性质最为优越。MacKinnon-White(1985)推荐HC3为默认选择。

四种估计量渐近等价,但有限样本下HC2和HC3的推断可靠性显著优于HC0和HC1,尤其是存在高杠杆观测时。

夹心形式的直觉与推导

夹心估计量的结构 (XTX)1XTΣ^X(XTX)1 (\mathbf{X}^T\mathbf{X})^{-1} \mathbf{X}^T \hat{\boldsymbol{\Sigma}} \mathbf{X} (\mathbf{X}^T\mathbf{X})^{-1} 可理解为三层"夹心":

(XTX)1面包XTΣ^X肉馅(XTX)1面包\underbrace{(\mathbf{X}^T\mathbf{X})^{-1}}_{\text{面包}} \cdot \underbrace{\mathbf{X}^T \hat{\boldsymbol{\Sigma}} \mathbf{X}}_{\text{肉馅}} \cdot \underbrace{(\mathbf{X}^T\mathbf{X})^{-1}}_{\text{面包}}

其推导源于OLS估计量的表达式:

β^β=(XTX)1XTε\hat{\boldsymbol{\beta}} - \boldsymbol{\beta} = (\mathbf{X}^T\mathbf{X})^{-1} \mathbf{X}^T \boldsymbol{\varepsilon}

两边取方差条件于X \mathbf{X} 即得上述形式。肉馅 XTΣX=i=1nσi2xixiT \mathbf{X}^T \boldsymbol{\Sigma} \mathbf{X} = \sum_{i=1}^n \sigma_i^2 \mathbf{x}_i \mathbf{x}_i^T 捕捉了异方差下每个观测对总体方差的独立贡献。若所有 σi2=σ2 \sigma_i^2 = \sigma^2 ,该式退化为 σ2XTX \sigma^2 \mathbf{X}^T\mathbf{X} ,夹心估计量还原经典公式。

聚类稳健标准误

异方差稳健标准误可推广至更复杂的误差结构。聚类稳健标准误(Cluster-Robust Standard Errors)处理同一聚类(如面板数据中的个体跨期、双重差分中的处理组)内部误差相关的情形。其夹心形式为:

V^cluster[β^]=(XTX)1(g=1GXgTe^ge^gTXg)(XTX)1\hat{\mathbb{V}}_{\text{cluster}}[\hat{\boldsymbol{\beta}}] = (\mathbf{X}^T\mathbf{X})^{-1} \left(\sum_{g=1}^G \mathbf{X}_g^T \hat{\mathbf{e}}_g \hat{\mathbf{e}}_g^T \mathbf{X}_g\right) (\mathbf{X}^T\mathbf{X})^{-1}

其中 G G 为聚类数,Xg \mathbf{X}_g e^g \hat{\mathbf{e}}_g 为第 g g 个聚类的回归矩阵和残差向量。聚类标准误允许聚类内任意形式的异方差和相关,但要求聚类间独立。该方法在实证产业组织劳动经济学发展经济学等依赖面板数据或多层次抽样的领域尤为关键。

使用建议与注意事项

  • 默认使用:Angrist-Pischke(2009)等倡导现代应用计量经济学中默认报告异方差稳健标准误。即便怀疑同方差成立,稳健标准误仅损耗少量精度(渐近效率),而经典标准误在异方差下是完全无效的。
  • 小样本问题:大样本性质保证 n n \to \infty 时推断有效,但在极小的样本(如 n<50 n < 50 )中,HC3配合Wild Bootstrap可改善推断精度。
  • 与GLS的关系:异方差稳健标准误与广义最小二乘法(GLS/可行GLS)解决的是不同层次的问题:前者保持OLS的点估计不变、仅修正标准误以做有效推断;后者通过重新加权改变点估计以追求效率。若加权方案 σi2 \sigma_i^2 的函数形式已知,FGLS是渐近有效的;若未知,OLS+稳健标准误是更安全的选择。两者并非替代,而是基于不同信息假设下的互补工具。

综上,异方差稳健标准误是现代实证研究的标配工具。它放弃了同方差的强假设,以极小的效率成本换取推断的普遍有效性,体现了计量经济学从模型驱动向设计驱动转变的方法论趋势。