ARTICLE

聚类稳健标准误

聚类稳健标准误 (Cluster-Robust Standard Errors) 聚类稳健标准误(Cluster-Robust Standard Errors,简称 CRSE)是一类对异方差和组内任意形式相关同时稳健的标准误估计量。该方法由 Liang 与 Zeger (1986) 在广义估计方程(GEE)框架下提出,后经 Arellano (1987)、W

浏览 0 更新 2026-01-06

聚类稳健标准误 (Cluster-Robust Standard Errors)

聚类稳健标准误(Cluster-Robust Standard Errors,简称 CRSE)是一类对异方差和组内任意形式相关同时稳健的标准误估计量。该方法由 Liang 与 Zeger (1986) 在广义估计方程(GEE)框架下提出,后经 Arellano (1987)、White (1984) 等人的工作被引入线性回归的设定中,现已成为计量经济学实证研究中最常用的标准误校正方法之一。

动机与问题

在标准的普通最小二乘法(OLS)回归中,经典假设要求误差项 εi\varepsilon_i 满足独立同分布条件,此时 OLS 标准误的估计是一致的。然而,在实际数据中,观测单位往往存在自然的组群结构:例如面板数据中同一省份内不同城市的政策冲击可能彼此相关;企业层面回归中同一行业内企业的未观测冲击存在联动;随机干预实验中同一村庄或班级内的个体受到共同环境因素的影响。当同一聚类内部的误差项存在任意形式的相关时,传统的 OLS 标准误(即使经过异方差稳健校正,即 Huber-White 标准误)将低估真实的抽样变异性,导致检验犯第一类错误的概率远高于名义显著性水平。聚类稳健标准误允许误差项在同一聚类内部存在任意形式的序列相关和截面相关,但要求不同聚类之间的误差相互独立。

方差估计量的构造

考虑线性回归模型 yig=xigβ+εigy_{ig} = \mathbf{x}_{ig}'\boldsymbol{\beta} + \varepsilon_{ig},其中 g=1,,Gg = 1, \ldots, G 表示聚类索引,i=1,,ngi = 1, \ldots, n_g 表示聚类 gg 内的个体索引,总样本量为 N=g=1GngN = \sum_{g=1}^{G} n_g。OLS 估计量 β^\hat{\boldsymbol{\beta}} 的聚类稳健方差矩阵为:

V^CR(β^)=(g=1GXgXg)1(g=1GXgε^gε^gXg)(g=1GXgXg)1\hat{\mathbf{V}}_{\text{CR}}(\hat{\boldsymbol{\beta}}) = \left( \sum_{g=1}^{G} \mathbf{X}_g' \mathbf{X}_g \right)^{-1} \left( \sum_{g=1}^{G} \mathbf{X}_g' \hat{\boldsymbol{\varepsilon}}_g \hat{\boldsymbol{\varepsilon}}_g' \mathbf{X}_g \right) \left( \sum_{g=1}^{G} \mathbf{X}_g' \mathbf{X}_g \right)^{-1}

其中 Xg\mathbf{X}_g 为聚类 ggng×Kn_g \times K 设计矩阵,ε^g\hat{\boldsymbol{\varepsilon}}_g 为该聚类内的 ng×1n_g \times 1 OLS 残差向量。该估计量的核心直觉是:将每个聚类视为一个独立的观测单元,在"中间项"中保留聚类内部残差向量间的全部交叉乘积 ε^igε^jg\hat{\varepsilon}_{ig}\hat{\varepsilon}_{jg},从而允许任意形式的组内相关结构。上述表达式未做小样本校正;实践中常用的校正因子为 c=GG1N1NKc = \frac{G}{G-1} \cdot \frac{N-1}{N-K},将其乘以 V^CR\hat{\mathbf{V}}_{\text{CR}} 以改善有限样本性质。

性质与关键条件

聚类稳健标准误的一致性依赖于聚类数量 GG \to \infty这一渐近框架。当聚类数量较少时(通常认为 G<20G < 20G<50G < 50),CRSE 将严重低估标准误,导致检验过度拒绝。这一问题被称为"少聚类问题"(Few Clusters Problem)。在此情形下,常见的补救方法包括:Cameron、Gelbach 与 Miller (2008) 提出的野生自助法(Wild Bootstrap)、Donald 与 Lang (2007) 的两步聚合方法,以及 Ibragimov 与 Müller (2010) 的聚类均值差分方法。

此外,聚类稳健推断的有效性要求聚类间的误差项渐近独立。如果不同聚类之间的误差项存在实质性的空间相关或网络溢出效应,则需诉诸空间计量经济学模型或更一般的协方差估计方法(如 Conley 标准误)。

多维聚类与混合聚类

在许多实证场景中,观测单位可能同时嵌套于多个重叠的聚类维度。例如,个体数据可能同时按省份和行业聚类;学生的考试成绩可能同时受所在班级和居住社区的影响。Cameron、Gelbach 与 Miller (2011) 提出了多维聚类稳健标准误(Multi-Way Clustering),其核心思想是将单维 CRSE 方差估计量通过容斥原理向多个聚类维度推广:

V^two-way=\hat{\mathbf{V}}_{\text{two-way}} =

\hat{V\mathbf{V}}\_{A} + \hat{V\mathbf{V}}\_{B} - \hat{V\mathbf{V}}\_{A \cap B}

其中 V^A\hat{\mathbf{V}}_{A}V^B\hat{\mathbf{V}}_{B} 分别为按维度 A 和 B 聚类的单维 CRSE 估计量,V^AB\hat{\mathbf{V}}_{A \cap B} 为按两维度交集聚类的估计量,用以扣除重复计数的协方差部分。这一方法在劳动经济学、发展经济学和公司金融中已得到广泛采用。

与相关标准误的比较

聚类稳健标准误的"稳健程度"可视作从窄到宽的一个谱系:经典 OLS 标准误仅在同方差、无自相关的假设下有效;Huber-White 异方差稳健标准误允许异方差(HC 标准误),但要求误差项之间相互独立;聚类稳健标准误进一步允许同一聚类内部任意形式的自相关和截面相关,但要求聚类间独立;HAC稳健标准误(Heteroskedasticity and Autocorrelation Consistent)则主要针对时间序列数据中的自相关结构进行建模。从方差矩阵结构看,HC 标准误在对角线上保留 nn 个独立残差平方项,而 CRSE 则将方差矩阵视为块对角结构(Block-Diagonal),每个聚类的残差协方差子矩阵不再被限制为对角形式。因此,CRSE 的本质是对误差项协方差矩阵施加了更弱的约束,从而在存在组内相关时获得更可信的推断结论。

实际操作建议

Angrist 与 Pischke (2009) 提出了一个广为引用的经验法则:"在不确定时,宁可聚类(Cluster when in doubt)。"这意味着当研究者对数据中可能存在的组内相关结构缺乏充分先验信息时,选择聚类稳健标准误比使用 HC 标准误更为谨慎。同时,以下几点值得注意:(1)聚类应在处理单位的层面上进行,而非结果单位的层面——例如在随机对照实验中,若干预分配到班级层面,则聚类必须在班级层面,而非个体层面;(2)即使组内相关系数很小,在聚类规模较大时组内相关的累积效应也可能显著膨胀标准误;(3)当聚类数量本身即为研究中关注的核心变量时(如仅按东中西部三个地区聚类),需要格外小心地采用小聚类数校正方法。

Stata 与 R 中的实现

在主流计量软件中,聚类稳健标准误的实现已高度标准化。 Stata 用户可通过在回归命令后附加 \texttt{vce(cluster clustvar)} 选项直接获得 CRSE,例如 \texttt{reg y x, vce(cluster province)}。 R 语言中,\texttt{sandwich} 包的 \texttt{vcovCL()} 函数配合 \texttt{lmtest} 包的 \texttt{coeftest()} 可实现等同功能;\texttt{fixest} 包的 \texttt{feols()} 函数在固定效应估计中内建了聚类选项 \texttt{cluster = \textasciitilde{} province}。 对于多维聚类,Stata 可使用 \texttt{ivreg2}(Baum、Schaffer 与 Stillman)、\texttt{reghdfe}(Correia)或 \texttt{cluster2} 等非官方命令;R 的 \texttt{multiwayvcov} 和 \texttt{fixest} 同样支持多维聚类。 这些工具的广泛可用性使得聚类稳健推断已成为实证研究中的默认选择。