ARTICLE

K-均值聚类

K-均值聚类 (K-Means Clustering) K-均值聚类(K-Means Clustering)是一种基于划分的 无监督学习 算法,由 James MacQueen 于 1967 年正式命名,其核心思想可追溯至 Hugo Steinhaus(1956)和 Stuart Lloyd(1957)在贝尔实验室的独立工作。该算法将 n 个观测点划分为 k

浏览 0 更新 2025-12-08

K-均值聚类 (K-Means Clustering)

K-均值聚类(K-Means Clustering)是一种基于划分的 无监督学习 算法,由 James MacQueen 于 1967 年正式命名,其核心思想可追溯至 Hugo Steinhaus(1956)和 Stuart Lloyd(1957)在贝尔实验室的独立工作。该算法将 n n 个观测点划分为 k k 个互不相交的簇 C={C1,C2,,Ck} C = \{C_1, C_2, \dots, C_k\} ,使得簇内平方和(Within-Cluster Sum of Squares, WCSS)达到最小:

minCj=1kxiCjxiμj2\min_{C} \sum_{j=1}^{k} \sum_{x_i \in C_j} \|x_i - \mu_j\|^2

其中 μj=1CjxiCjxi \mu_j = \frac{1}{|C_j|} \sum_{x_i \in C_j} x_i 为簇 Cj C_j 的质心。目标函数也被称为 惯性(Inertia)或 失真(Distortion)。

算法机制

标准的 Lloyd 算法 通过期望最大化(EM)框架迭代优化:

  1. 初始化:选取 k k 个初始质心。朴素方法采用随机抽样,而 K-Means++ 初始化策略以与最近质心距离平方成正比的概率依次选取质心,显著降低陷入劣质局部最优的风险,其期望近似比为 O(logk) O(\log k)
  2. 分配步骤:将每个样本 xi x_i 划入距其最近的质心所代表的簇,距离通常采用欧几里得距离 xiμj2 \|x_i - \mu_j\|^2
  3. 更新步骤:对各簇,重新计算其质心为簇内所有点的算术平均。
  4. 收敛判定:重复分配与更新,直至质心位移低于阈值或达到最大迭代次数。WCSS 单调不增,算法在有限步内收敛至局部最优。

簇数 k k 的选取

k k 的选择直接影响聚类质量,常用方法包括:

  1. 肘部法则(Elbow Method):绘制 WCSS 随 k k 变化的曲线,取曲线弯曲处("肘点")对应的 k k 。该方法直观易行,但当下降趋势平滑时主观性较强。
  2. 轮廓系数(Silhouette Score):对每个样本 i i ,计算 s(i)=b(i)a(i)max{a(i),b(i)} s(i) = \frac{b(i) - a(i)}{\max\{a(i), b(i)\}} ,其中 a(i) a(i) 为样本与同簇其他点的平均距离(凝聚度),b(i) b(i) 为样本与最近邻簇所有点的平均距离(分离度)。平均轮廓系数越高,聚类结构越合理。
  3. Gap 统计量:将实际数据的 WCSS 对数与适当参照分布(通常为均匀分布)下的期望值比较,选择 Gap 统计量最大的 k k ,提供具有统计推断基础的判据。

算法特性与局限

K-Means 的核心优势在于 线性时间复杂度 O(nkdt) O(n \cdot k \cdot d \cdot t) ,其中 d d 为特征维度、t t 为迭代次数,使其对大规模数据集高度可扩展。

其局限同样显著:(1)假设簇呈各向同性的球形分布,对细长形、非凸或密度不均的簇表现不佳;(2)对离群值敏感——单个极端点即可大幅拉动质心;(3)须预先指定 k k ,而实际问题中真实簇数往往未知;(4)目标函数的非凸性意味着不同初始化可能收敛至差异较大的局部最优。

针对上述局限,衍生出若干重要变体:K-Medoids(PAM)以实际数据点替代虚拟质心,增强对离群值的鲁棒性;模糊 C-Means 允许每个样本以隶属度同时属于多个簇;对于非凸簇结构,DBSCAN层次聚类 等基于密度或连通性的方法更为适用。

经济学与社会科学中的应用

在经济学研究中,K-均值聚类广泛用于 市场细分——依据消费行为、人口统计或心理特征将消费者划分为同质群体,为差异化定价与精准营销提供依据;区域经济分类——将城市或地区按人均 GDP、产业结构、城镇化率等指标聚类,识别发展模式的类型特征;收入分配与贫困研究——基于家庭收支调查数据划分社会经济阶层,分析不同阶层的消费结构与福利水平。

金融风险 管理中,K-均值可用于识别具有相似风险特征的借款人群体或投资组合,辅助信用评级与压力测试。在 政策评估 中,该方法常作为倾向得分匹配的补充——先通过聚类将处理组与控制组在协变量空间中划分为同质子群,再在各子群内进行匹配或回归,以缓解选择偏误对因果推断的威胁。