ARTICLE

聚类稳健

聚类稳健 (Cluster-Robust) 聚类稳健（Cluster-Robust）是统计推断和机器学习领域中一类方法的总称，其核心思想是当数据存在天然组群聚类结构时，仍能保证估计量的一致性、标准误的有效性以及模型结果的可靠性。该概念涵盖两大分支：计量经济学中的聚类稳健标准误和机器学习中的鲁棒聚类算法，二者共同关切一个问题——当观测数据不满足理想化的独立同分

浏览 0 更新 2026-01-06

聚类稳健 (Cluster-Robust)

聚类稳健（Cluster-Robust）是统计推断和机器学习领域中一类方法的总称，其核心思想是当数据存在天然组群聚类结构时，仍能保证估计量的一致性、标准误的有效性以及模型结果的可靠性。该概念涵盖两大分支：计量经济学中的聚类稳健标准误和机器学习中的鲁棒聚类算法，二者共同关切一个问题——当观测数据不满足理想化的独立同分布假设，或聚类结构本身受到噪声和异常值污染时，如何维持分析结论的可信度。

计量经济学中的聚类稳健推断

在计量经济学语境下，"聚类稳健"几乎特指聚类稳健标准误（Cluster-Robust Standard Errors, CRSE）。面板数据、重复截面数据和整群抽样数据通常呈现嵌套结构：同一省份内的多个城市、同一学校内的多个班级、同一村庄内的多个农户，往往共享未被模型捕捉到的共同冲击。例如，一项宏观经济政策调整对所有省份同时产生某种影响，此时同一时间截面内的观测天然相关；再如，某项教育干预随机分配到班级层面，同一班级内学生的考试成绩因共同课堂环境而彼此相关。经典 OLS 标准误以及Huber-White异方差稳健标准误（即 HC 标准误）均假定各观测之间相互独立，一旦违背这一假定，标准误将被系统性地低估，导致 t 统计量偏大、置信区间过窄、检验犯第一类错误的概率远超名义显著性水平。

CRSE 的核心创新在于：通过允许聚类内部存在任意形式的误差相关结构，同时维持聚类间独立的假设，构造出对组内相关结构稳健的方差估计量。具体而言，对于线性回归模型 $y_{ig} = \mathbf{x}_{ig}'\boldsymbol{\beta} + \varepsilon_{ig}$ ，聚类稳健方差矩阵的表达式为

\hat{\mathbf{V}}_{\text{CR}}(\hat{\boldsymbol{\beta}}) = \left( \sum_{g=1}^{G} \mathbf{X}_g' \mathbf{X}_g \right)^{-1} \left( \sum_{g=1}^{G} \mathbf{X}_g' \hat{\boldsymbol{\varepsilon}}_g \hat{\boldsymbol{\varepsilon}}_g' \mathbf{X}_g \right) \left( \sum_{g=1}^{G} \mathbf{X}_g' \mathbf{X}_g \right)^{-1},

其中 $g = 1, \ldots, G$ 为聚类索引， $\mathbf{X}_g$ 和 $\hat{\boldsymbol{\varepsilon}}_g$ 分别表示第 $g$ 个聚类的设计矩阵和 OLS 残差向量。该估计量的直观逻辑是：将每个聚类视为一个"超级观测单元"，在中间项中保留聚类内部所有残差两两乘积 $\hat{\varepsilon}_{ig}\hat{\varepsilon}_{jg}$ ，从而不对组内相关结构施加任何参数化限制。这一方法由 Liang 与 Zeger (1986) 在广义估计方程框架下正式提出，Arellano (1987) 将其推广至面板固定效应模型，现已成为经济学、政治学、社会学和流行病学实证研究中的默认标准误选择。

聚类稳健推断的有效性高度依赖于聚类数量 $G$ 的大小。当 $G$ 较小时（一般认为 $G < 20$ 时问题非常严重， $G < 50$ 时仍需谨慎），CRSE 会严重低估真实标准误，导致检验的过度拒绝率上升到不可接受的水平，此即"少聚类问题"（Few Clusters Problem）。针对这一困境，Cameron、Gelbach 与 Miller (2008) 提出了基于残差的野生自助法（Wild Bootstrap），通过重新抽样保留聚类内部相关结构来获得更精确的临界值；Donald 与 Lang (2007) 提出了先对每个聚类计算均值、再基于聚类层面进行推断的两步法；Ibragimov 与 Müller (2010) 则提出了基于各聚类单独估计的 t 统计量进行联合推断的方法。此外，当聚类间存在空间溢出效应或网络关联时，标准 CRSE 不再适用，此时需使用 Conley (1999) 的空间相关稳健标准误。

多维聚类是聚类稳健推断的重要延伸。在许多实证场景中，观测单位同时嵌套于多个重叠的聚类维度。例如，企业层面的数据可能同时受所在行业和所在省份的共同冲击；学生的考试成绩可能同时受所在班级和居住社区的双重影响。Cameron、Gelbach 与 Miller (2011) 基于容斥原理构造了多维聚类稳健方差估计量：

\hat{\mathbf{V}}_{\text{two-way}} = \hat{\mathbf{V}}_{A} + \hat{\mathbf{V}}_{B} - \hat{\mathbf{V}}_{A \cap B},

其中 $\hat{\mathbf{V}}_{A}$ 和 $\hat{\mathbf{V}}_{B}$ 分别为按维度 A 和 B 聚类的单维 CRSE， $\hat{\mathbf{V}}_{A \cap B}$ 为按两维度交集聚类的估计量，用以扣除重复计算的协方差。这一方法在劳动经济学、发展经济学和公司金融领域已得到广泛使用。

机器学习中的鲁棒聚类

在无监督学习和数据挖掘领域，"聚类稳健"（Robust Clustering）指聚类算法对异常值、噪声和非球形簇形状的抵抗能力。K-Means作为最经典的划分聚类算法，以欧氏距离和簇内均值中心为核心，对异常值高度敏感——单个极端值即可显著偏转聚类中心，导致划分结果失准。为克服这一缺陷，研究者发展了一系列替代方法：K-Medoids（围绕中心点划分，亦称 PAM）以实际数据点而非均值作为簇的代表点，通过最小化簇内绝对距离和来提升对异常值的稳健性；DBSCAN基于密度连通性识别任意形状的簇，并能自动将低密度区域的样本标记为噪声点，无需预先指定聚类数量；谱聚类利用图拉普拉斯矩阵的特征分解将数据映射到低维空间，对非凸簇形状具有良好的适应能力；均值漂移（Mean Shift）通过核密度估计的非参数方法寻找概率密度的局部极大值点，能够自适应地确定簇的数量和形状。

此外，基于自助法的聚类稳定性评估也属于聚类稳健的研究范畴。通过对原始数据进行重复有放回抽样，计算每次抽样所得聚类分配之间的 Jaccard 相似度或调整兰德指数（Adjusted Rand Index），可以量化聚类结果对样本扰动的敏感程度，从而为选择最优聚类数 $k$ 和评估聚类方案的可靠性提供依据。这一思路与计量经济学中通过自助法校正标准误的方法论一脉相承。

统一视角与方法论意义

无论是计量经济学中的聚类稳健推断还是机器学习中的鲁棒聚类，二者共享同一哲学内核：模型不应过度依赖数据的理想化假设。在计量层面，聚类稳健意味着放松观测独立的强假定，允许数据中自然存在的相依结构，从而获得更可信的统计推断；在算法层面，聚类稳健意味着放松簇形状的分布假设，允许异常值和噪声的存在，从而获得更真实的聚类结果。Angrist 与 Pischke (2009) 提出的"在不确定时，宁可聚类"（Cluster when in doubt）的经验法则，同样适用于机器学习场景——当对簇结构和数据质量缺乏充分先验信息时，选择稳健方法比追求效率更为审慎。聚类稳健方法群的兴起，体现了现代数据科学从"模型驱动"向"数据驱动"的方法论演进，也反映了实证研究对"可信度革命"（Credibility Revolution）的持续追求。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。