ARTICLE

聚类分析

聚类分析(Cluster Analysis)是一种无监督学习方法,旨在根据数据对象之间的相似性或距离将其划分为若干组(簇),使得同一簇内的对象高度相似,而不同簇间的对象差异显著。与分类分析不同,聚类分析不需要预先标注的训练样本,而是直接从数据的内在结构中发现分组模式,因此也被称为无监督分类。聚类分析广泛应用于市场细分、图像分割、基因表达数据分析、社交网络社区

浏览 3 更新 2025-10-26

聚类分析(Cluster Analysis)是一种无监督学习方法,旨在根据数据对象之间的相似性或距离将其划分为若干组(簇),使得同一簇内的对象高度相似,而不同簇间的对象差异显著。与分类分析不同,聚类分析不需要预先标注的训练样本,而是直接从数据的内在结构中发现分组模式,因此也被称为无监督分类。聚类分析广泛应用于市场细分、图像分割、基因表达数据分析、社交网络社区发现、异常检测等领域。聚类的本质是寻找数据中的天然结构——在数学上,这等价于在特征空间中找到密度较高的区域并将其与低密度区域分隔开来。聚类结果的质量取决于相似性度量的选择、聚类算法的特性以及数据本身的分布属性;不存在一种万能算法适用于所有数据集,因此选择合适的聚类方法本身就是一个需要领域知识和实验验证的过程。

相似性度量

聚类的基础在于量化对象之间的相似性或距离。连续型数据最常用的度量是欧氏距离,即多维空间中两点之间的直线距离;曼哈顿距离采用坐标轴方向的绝对距离之和,适用于高维稀疏数据;闵可夫斯基距离是两者的广义形式,通过参数p控制距离的弯曲程度。对于文本数据,余弦相似度衡量向量之间的夹角而非长度,能够有效忽略文档长度差异而聚焦于方向上的模式一致性。皮尔逊相关系数检测变量之间的线性相关性,在基因表达聚类中尤为常见。在类别型数据中,简单匹配系数雅卡尔系数用于衡量二元属性之间的相似程度。选择何种距离度量直接影响聚类结果的形态:欧氏距离倾向于产生球形簇,而曼哈顿距离对异常值更鲁棒,余弦相似度适用于高维稀疏数据。标准化或归一化处理通常不可或缺——当特征量纲差异较大时,若不经标准化,量级较大的特征将主导距离计算,掩盖其他特征的信息。

划分方法

K均值聚类是最经典、最广泛使用的划分聚类算法。其基本流程为:随机选择K个初始质心,将每个样本分配到距离最近的质心,更新质心为簇内所有样本的均值,重复上述两步直至质心不再变化或达到预设迭代次数。K均值算法计算效率高,适合大规模数据集,但对初始质心选择敏感,且只能发现球形簇;K均值++改进算法通过优化初始质心的选择策略显著提高了聚类稳定性和质量。K-medoids聚类(PAM)使用实际样本而非均值作为簇中心,对异常值更鲁棒,但计算复杂度更高。确定最佳簇数K是划分方法中的关键问题——肘部法则(Elbow Method)绘制K值与总簇内离差平方和的关系图,寻找曲线拐点;轮廓系数(Silhouette Coefficient)综合衡量簇内紧密度和簇间分离度,取值越接近1表示聚类效果越好;间隙统计量(Gap Statistic)通过比较实际数据与随机均匀分布数据的聚类紧密度来估计最佳K值。

层次方法

层次聚类通过构建树状结构(树状图)来展现数据在不同粒度上的组织关系,无需预先指定簇数。凝聚层次聚类(自底向上)将每个样本初始化为一个单独的簇,然后逐步合并最相似的两个簇,直至所有样本合并为一个簇;分裂层次聚类(自顶向下)则相反,从一个包含所有样本的大簇开始,逐步分裂为更小的子簇。簇间距离的度量方式决定了层次聚类的行为特性:单链法(最近邻)取两簇中样本间的最小距离,能够识别任意形状的簇但易受链式效应影响形成长条状簇;全链法(最远邻)取最大距离,倾向于生成紧凑的球形簇但对异常值敏感;平均链法取所有跨簇样本对距离的平均值,在两者之间取得平衡。沃德法(Ward's method)以合并时簇内离差平方和增量最小化为准则,通常能产生大小较为均衡的簇。层次聚类的一个主要优势在于树状图能够提供数据结构的全局视图,但计算复杂度较高(O(n²)以上),不适合超大规模数据集。

基于密度的方法

DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是基于密度的代表性聚类算法,其核心思想是:簇是由密度相连的样本构成的连通区域,低密度区域则标识为噪声或离群点。DBSCAN有两个关键参数——邻域半径ε(epsilon)和最小样本数MinPts:如果一个样本在ε半径内包含至少MinPts个样本,则被标记为核心点;核心点通过密度直达关系连接形成簇;不满足核心点条件的边界点属于某个簇但不具备扩展能力;不符合任何条件的样本被视为噪声。DBSCAN的显著优势在于能够发现任意形状的簇(如S形、环形簇),且无需预先指定簇数;同时对噪声具有天然的鲁棒性。其主要局限在于对ε参数敏感,且当数据密度差异较大时难以用统一的全局参数获得合理结果。OPTICS算法通过引入可达距离的概念克服了DBSCAN的密度敏感问题,能够处理密度不均匀的聚类结构。均值漂移(Mean Shift)是一种基于核密度估计的非参数聚类算法,通过不断向密度梯度上升方向移动直至收敛,能够自动确定簇的数量和形状,但计算复杂度较高。

基于模型的方法

高斯混合模型(Gaussian Mixture Model, GMM)假设数据由多个高斯分布混合生成,通过期望最大化算法(EM算法)迭代估计每个分布的参数及其混合权重,并依据后验概率将样本分配到最可能的高斯分量。与K均值的硬划分不同,GMM提供软聚类——每个样本以一定概率属于多个簇,适合具有重叠结构的数据集。谱聚类基于图的拉普拉斯矩阵进行降维后聚类,能够发现非凸形状的簇,尤其适合图像分割和社交网络社区发现等图结构数据。谱聚类首先构建相似度图,计算其拉普拉斯矩阵,取最小特征值对应的特征向量完成降维,最后在降维后的空间中进行K均值聚类。自编码器与深度聚类近年来取得了显著进展——深度嵌入聚类(DEC)通过联合优化特征表示学习与聚类目标,在图像和文本等高维数据的聚类任务上大幅超越了传统方法。

聚类评估

聚类评估是聚类分析不可或缺的环节,主要涉及三个层面。内部指标仅基于数据自身的几何特性评价聚类质量,如簇内距离(紧密度)、簇间距离(分离度)、轮廓系数、戴维森-堡丁指数(Davies-Bouldin Index)和邓恩指数(Dunn Index),适用于真实标签未知的情况。外部指标将聚类结果与已知的真实标签进行比较,常用的度量包括调整兰德指数(Adjusted Rand Index, ARI)、互信息(Normalized Mutual Information, NMI)和同质性-完整性-调和均值(V-Measure),适用于标注数据可得的验证场景。稳定性分析考察聚类结果对参数扰动或数据抽样的敏感程度——若参数微调导致簇结构剧烈变化,则聚类结果的可靠性存疑。此外,聚类结果的实际可解释性和业务价值同样重要,一个在数学模型上完美但无法赋予实际意义的聚类方案对应用而言意义有限。聚类分析的价值不仅在于发现数据中隐含的结构,更在于为后续分析提供信息浓缩——通过将大量个体归并为少数典型簇,使复杂问题得以简化处理,这正是聚类分析在从数据中提取洞察时发挥的核心作用。