ARTICLE

轮廓系数

轮廓系数 (Silhouette Coefficient) 轮廓系数 (Silhouette Coefficient) 是聚类分析 (Cluster Analysis) 中最常用的内部评估指标之一，由比利时统计学家 Peter J. Rousseeuw 于 1987 年在论文 Silhouettes: A Graphical Aid to the Inter

浏览 0 更新 2025-11-08

轮廓系数 (Silhouette Coefficient)

轮廓系数 (Silhouette Coefficient) 是聚类分析 (Cluster Analysis) 中最常用的内部评估指标之一，由比利时统计学家 Peter J. Rousseeuw 于 1987 年在论文 Silhouettes: A Graphical Aid to the Interpretation and Validation of Cluster Analysis 中提出。它同时衡量了聚类结果的两种核心性质：凝聚度 (Cohesion) 和 分离度 (Separation)，为无监督学习中聚类数量 $k$ 的选择提供了一种直观的量化依据。由于它不依赖数据的真实标签，轮廓系数被广泛应用于K-Means、层次聚类 (Hierarchical Clustering)、DBSCAN 等各类聚类算法的效果评估与模型选择。

定义与公式

对于数据集中的第 $i$ 个样本点，轮廓系数 $s(i)$ 的定义如下：

s(i) = \frac{b(i) - a(i)}{\max\{a(i), b(i)\}}

其中：

$a(i)$ ：凝聚度。样本 $i$ 到其所属簇内所有其他样本点的平均距离。 $a(i)$ 越小，说明该样本与其簇内邻居越紧密，簇的内聚性越好。 $a(i)$ 可理解为该簇内部的不相似度平均水平。
$b(i)$ ：分离度。样本 $i$ 到距离其最近的其他簇中所有样本点的平均距离的最小值。计算步骤如下：对于每个不等于 $i$ 所属簇 $A$ 的其他簇 $C$ ，计算 $i$ 到 $C$ 中所有点的平均距离 $d(i, C)$ ；然后取 $b(i) = \min_{C \neq A} d(i, C)$ 。 $b(i)$ 越大，说明该样本离其他所有簇都足够远，簇间分离良好。

公式中的分母 $\max\{a(i), b(i)\}$ 起到归一化作用，使得 $s(i)$ 的值始终落在区间 $[-1, 1]$ 内。这种设计使轮廓系数与具体的距离量纲无关，不同数据集的结果可以直接比较。

取值含义

轮廓系数的值直接反映了聚类质量，可细分为四个区间：

$s(i) \in (0.7, 1]$ ： $b(i) \gg a(i)$ ，样本点在簇内高度紧凑，且远离最近的相邻簇。聚类结构强，通常可以认为该样本的分配具有高置信度。
$s(i) \in (0.25, 0.7]$ ：聚类结构存在，但不同簇之间的边界开始出现一定的模糊性，需要结合领域知识进一步判断。
$s(i) \in (0, 0.25]$ ： $b(i)$ 与 $a(i)$ 差距不大，样本点处于两个簇的边界区域，归属不明确。这通常提示聚类数量 $k$ 的选取或聚类算法本身可能存在问题。
$s(i) \leq 0$ ： $a(i) \geq b(i)$ ，样本点到其他簇的距离反而更近或相当。负值是强烈的错误信号，表明该点很可能被错误地分配到了当前簇，甚至可能暗示数据本身不存在明显的簇结构。

整体轮廓系数与 $k$ 的选择

对于包含 $n$ 个样本的整个数据集，平均轮廓系数 (Average Silhouette Score) 定义为所有样本轮廓系数的算术均值：

\bar{s} = \frac{1}{n} \sum_{i=1}^{n} s(i)

在实际的聚类模型选择中，平均轮廓系数是选择最佳聚类数 $k$ 的核心工具。典型的工作流程如下：

确定候选 $k$ 值范围，例如 $k = 2, 3, \dots, K_{\max}$ 。
对每个 $k$ 运行聚类算法（如 K-Means），得到簇分配结果。
计算每个 $k$ 对应的平均轮廓系数 $\bar{s}_k$ 。
绘制 $\bar{s}_k$ 随 $k$ 变化的折线图，选择使 $\bar{s}_k$ 达到峰值的 $k$ 作为最优聚类数。

此外，轮廓图 (Silhouette Plot) 提供了比单一均值更丰富的诊断信息。轮廓图将每个簇内的样本按其 $s(i)$ 值降序垂直排列，并在横轴上以条形表示。通过观察该图，分析师可以判断：(1) 各簇的条形"厚度"是否均匀——过薄或过厚的簇可能提示异常；(2) 是否存在穿越零线进入负值区域的样本；(3) 各簇的平均轮廓系数（以虚线标出）是否接近全局均值。这些信息比单点的 $\bar{s}$ 更能揭示聚类结构的局部质量问题。

计算示例

假设三维空间中有五个样本点，经聚类后分为两簇：

簇 $A$ ：点 $P_1(0,0,0)$ ， $P_2(1,0,0)$
簇 $B$ ：点 $P_3(5,0,0)$ ， $P_4(5,1,0)$ ， $P_5(5,0,1)$

以 $P_1$ 为例计算其轮廓系数。 $P_1$ 到 $P_2$ 的距离为 $1$ ，故 $a(P_1) = 1$ 。 $P_1$ 到簇 $B$ 三点的距离分别为 $5$ 、 $\sqrt{26} \approx 5.099$ 、 $\sqrt{26} \approx 5.099$ ，平均距离约为 $5.066$ ，故 $b(P_1) \approx 5.066$ 。

s(P_1) = \frac{5.066 - 1}{\max\{1, 5.066\}} \approx \frac{4.066}{5.066} \approx 0.802

该值接近 $1$ ，说明 $P_1$ 的聚类分配非常合理。类似的，对所有五点计算后取均值，即可得到本次聚类的整体轮廓系数。

优缺点与适用场景

优点： \begin{itemize}
取值范围有界（ $[-1, 1]$ ），物理意义明确，易于向非技术人员解释。
同时兼顾簇内紧致性与簇间分离性，比单一的肘部法则 (Elbow Method) 或簇内平方和 (WCSS) 提供更平衡的视角。
与距离度量无关：只要距离函数满足对称性和非负性，轮廓系数即可定义，因此可适配欧氏距离、曼哈顿距离、余弦距离等多种度量。
可用于任意聚类算法，不依赖聚类算法内部的优化目标函数。 \end{itemize}
局限： \begin{itemize}
计算复杂度为 $O(n^2 \cdot d)$ （其中 $d$ 为维度），在大规模数据集（ $n > 10^4$ ）上计算成本显著。实践中常采用随机抽样后对子集计算近似轮廓系数。
对凸簇（如 K-Means 生成的球形簇）评估较为可靠，但在处理非凸形状（如环形、月牙形）、密度不均或嵌套簇时可能给出误导性结果——它会倾向于高估球形聚类而低估任意形状聚类的质量。例如，DBSCAN 找到的密度聚类在轮廓系数上可能逊于 K-Means 的球形切割，即使前者更接近真实簇结构。
轮廓系数是纯内部指标，仅衡量数据几何特性。它无法反映簇的语义合理性或与外部标签的一致性。一个在数学上轮廓系数很高的聚类可能在业务上毫无意义。 \end{itemize}

与其他评估指标的关系

轮廓系数属于内部评估指标 (Internal Validation Index) 家族的核心成员。与之并列的常用指标包括：

Davies-Bouldin 指数 (DBI)：对每个簇，计算其与最相似簇的相似度（簇内散度加和与簇间距离之比），然后取所有簇的平均。DBI 越小越好，其下限为 $0$ 。相比轮廓系数，DBI 不显式刻画簇内紧致性的绝对水平，但计算方式使其对簇数的变化更敏感。
Calinski-Harabasz 指数 (CH Index / 方差比准则)：定义为簇间离散度与簇内离散度的比值，再乘以 $(n-k)/(k-1)$ 的修正因子。CH 指数越大越好，计算复杂度为 $O(n \cdot d)$ ，远优于轮廓系数，适合大规模数据的快速筛选。但其假设簇呈球形且方差相等，对非球形簇的适用性有限。
Gap 统计量 (Gap Statistic)：由 Tibshirani 等人于 2001 年提出，将实际数据的簇内散度与零参考分布（均匀分布）下的期望值做比较，取 Gap 最大的 $k$ 。Gap 统计量具有统计检验的理论支撑，但计算开销大且对零分布的选择敏感。
Dunn 指数 (Dunn Index)：定义为最小簇间距离与最大簇内直径之比，越大越好。Dunn 指数对噪声和离群点非常敏感，实际使用不如轮廓系数普遍。

在严谨的聚类分析流程中，通常建议联合使用轮廓系数、DBI 和肘部法则等多个指标交叉验证 $k$ 的选择。若多个指标在同一个 $k$ 处达成共识，该 $k$ 的可信度显著提高；若指标之间出现矛盾，则需回到数据层面审视聚类假设是否合理。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。