ARTICLE

肯德尔τ系数

肯德尔τ系数 (Kendall's τ Coefficient) 肯德尔τ系数(Kendall's tau coefficient,记作 )是一种基于成对比较的等级相关系数,由英国统计学家Maurice Kendall于1938年提出。与斯皮尔曼等级相关系数(Spearman's )和皮尔逊相关系数(Pearson's r)不同,肯德尔τ完全建立在观测值两两

浏览 0 更新 2025-10-26

肯德尔τ系数 (Kendall's τ Coefficient)

肯德尔τ系数(Kendall's tau coefficient,记作 τ\tau)是一种基于成对比较等级相关系数,由英国统计学家Maurice Kendall于1938年提出。与斯皮尔曼等级相关系数(Spearman's ρ\rho)和皮尔逊相关系数(Pearson's rr)不同,肯德尔τ完全建立在观测值两两之间"一致"(concordant)或"不一致"(discordant)的计数之上,不依赖具体的数值差异大小。这一特性使其对异常值非线性单调关系具有天然的稳健性。

核心定义:一致对与不一致对

给定 nn 个观测对 (X1,Y1),(X2,Y2),,(Xn,Yn)(X_1, Y_1), (X_2, Y_2), \ldots, (X_n, Y_n),考虑所有 (n2)\binom{n}{2} 个无序观测对 {(Xi,Yi),(Xj,Yj)}\{(X_i, Y_i), (X_j, Y_j)\}i<ji < j):

  • 一致对 (concordant pair):若 (XiXj)(YiYj)>0(X_i - X_j)(Y_i - Y_j) > 0,即两个变量在同一方向上变动——XX 较大者其 YY 也较大(或两者都较小)。
  • 不一致对 (discordant pair):若 (XiXj)(YiYj)<0(X_i - X_j)(Y_i - Y_j) < 0,即两个变量在相反方向上变动——XX 较大者其 YY 较小(或反之)。
  • 平局 (tie):若 Xi=XjX_i = X_jYi=YjY_i = Y_j,则该对既不归为一致也不归为不一致。

三种变体:τa\tau_aτb\tau_bτc\tau_c

肯德尔τ有三种常见形式,分别针对不同的数据特征:

肯德尔 τa\tau_a

最基本的定义,假设数据中不存在平局:

τa=ncnd(n2)=2(ncnd)n(n1)\tau_a = \frac{n_c - n_d}{\binom{n}{2}} = \frac{2(n_c - n_d)}{n(n-1)}

其中 ncn_c 为一致对数量,ndn_d 为不一致对数量。τa\tau_a 的取值范围为 [1,1][-1, 1]+1+1 表示完全正相关(所有对一致),1-1 表示完全负相关(所有对不一致),00 表示无相关。

肯德尔 τb\tau_b

当数据中存在平局时,τa\tau_a 的绝对值无法达到 1。τb\tau_b 通过对分母进行修正来解决这一问题:

τb=ncnd(nc+nd+TX)(nc+nd+TY)\tau_b = \frac{n_c - n_d}{\sqrt{(n_c + n_d + T_X)(n_c + n_d + T_Y)}}

其中 TXT_X 为仅在 XX 上平局的对数,TYT_Y 为仅在 YY 上平局的对数(同时平局的对不计入分子亦不计入分母)。τb\tau_b 适用于方形的列联表(行数与列数相等)。

肯德尔 τc\tau_c

对于非方形列联表(如 3×53 \times 5 的等级交叉表),τc\tau_c 提供了恰当的修正:

τc=2min(r,c)(ncnd)n2(min(r,c)1)\tau_c = \frac{2 \min(r, c)(n_c - n_d)}{n^2 (\min(r, c) - 1)}

其中 rrXX 的不同取值数,ccYY 的不同取值数。当 r=cr = c 时,τc\tau_cτb\tau_b 的渐近期望一致。

统计推断与假设检验

在零假设 H0:τ=0H_0: \tau = 0(两变量独立)下,当样本量 nn 足够大(通常 n>30n > 30)时,τ\tau 的抽样分布近似正态:

z=τ2(2n+5)9n(n1)z = \frac{\tau}{\sqrt{\frac{2(2n+5)}{9n(n-1)}}}

zz 统计量可直接用于双边或单边检验。对于小样本,可使用精确检验——通过枚举所有可能的排列计算 τ\tau 的精确零分布。

肯德尔τ也可以在存在删失数据的场景中使用。通过将不可比的对(由于删失而无法确定顺序)排除在外,计算出所谓的肯德尔τ的删失修正版,这在生存分析可靠性工程中十分有用。

与斯皮尔曼 ρ\rho 和皮尔逊 rr 的比较

三种相关系数各有侧重。下表总结了关键差异:

性质Pearson rSpearman ρKendall τ基础原始数值等级成对比较对异常值敏感较稳健最稳健效率 (ARE)1.000.910.91概率解释计算复杂度O(n)O(nlogn)O(nlogn)\begin{array}{c|c|c|c} \text{性质} & \text{Pearson } r & \text{Spearman } \rho & \text{Kendall } \tau \\ \hline \text{基础} & \text{原始数值} & \text{等级} & \text{成对比较} \\ \text{对异常值} & \text{敏感} & \text{较稳健} & \text{最稳健} \\ \text{效率 (ARE)} & 1.00 & 0.91 & 0.91 \\ \text{概率解释} & \text{无} & \text{无} & \text{有} \\ \text{计算复杂度} & O(n) & O(n \log n) & O(n \log n) \\ \end{array}

其中 ARE(渐近相对效率)以 Pearson rr 在二元正态下的效率为基准。肯德尔τ的一个独特优势是它具有直接的概率解释

τ=P(一致对)P(不一致对)\tau = \mathbb{P}(\text{一致对}) - \mathbb{P}(\text{不一致对})

τ\tau 等于随机抽取的两个观测对一致的概率减去不一致的概率。这一简洁的概率含义是 Pearson rr 和 Spearman ρ\rho 所不具备的,使得肯德尔τ在向非专业受众解释时尤为直观。

偏肯德尔τ与条件相关

类似于偏相关系数,也可以定义偏肯德尔τ用于衡量在控制第三个变量 ZZ 的条件下 XXYY 的等级相关:

τXYZ=τXYτXZτYZ(1τXZ2)(1τYZ2)\tau_{XY \cdot Z} = \frac{\tau_{XY} - \tau_{XZ} \cdot \tau_{YZ}}{\sqrt{(1 - \tau_{XZ}^2)(1 - \tau_{YZ}^2)}}

当变量均为连续且来自多元正态时,此公式近似成立。该度量在因果关系探索和中介分析中有重要应用——若控制 ZZτXYZ0\tau_{XY \cdot Z} \approx 0,则 XXYY 的原始相关可能完全由 ZZ 驱动。

应用场景

  1. 等级一致性评估:在信息检索中,肯德尔τ常用于评估两个排序算法(或两个人类标注者)之间的一致性。不同于仅关注前 kk 个结果的指标(如NDCG),τ 考量了所有项的全局排序质量。
  2. 金融风险建模:在Copula理论中,肯德尔τ与阿基米德Copula的参数存在一一对应关系。对于 Clayton Copula:θ=2τ/(1τ)\theta = 2\tau/(1-\tau);对于 Gumbel Copula:θ=1/(1τ)\theta = 1/(1-\tau)。这使得从数据中估计τ后可直接标定 Copula 的相依参数。
  3. 心理测量与调查:在李克特量表等有序分类数据中,τ 是比 Pearson rr 更为合理的关联度量,因为它只依赖等级顺序而非数值间距的均匀性假设。
  4. 趋势检验Mann-Kendall 趋势检验使用肯德尔τ来检测时间序列中是否存在单调趋势,广泛用于环境科学(如降水量、污染物浓度的长期趋势)和水文学。

历史背景

Maurice Kendall 在1938年发表于《Biometrika》的论文《A New Measure of Rank Correlation》中首次提出了这一系数。有趣的是,Gustav Fechner早在1897年就提出过类似思想,而Charles Spearmanρ\rho(1904)实际上是基于等级数值而非成对比较。Kendall 的后发优势在于他提供了完整的分布理论和假设检验框架,并在其经典著作《Rank Correlation Methods》(1948年第一版,后多次再版)中系统化了等级相关的整个方法论体系。

核心公式汇总

τa=ncnd(n2)=2(ncnd)n(n1)τb=ncnd(nc+nd+TX)(nc+nd+TY)大样本 z=τ2(2n+5)9n(n1)N(0,1)E[τ]=0(独立零假设下),Var(τ)=2(2n+5)9n(n1)\begin{aligned} \tau_a &= \frac{n_c - n_d}{\binom{n}{2}} = \frac{2(n_c - n_d)}{n(n-1)} \\ \tau_b &= \frac{n_c - n_d}{\sqrt{(n_c + n_d + T_X)(n_c + n_d + T_Y)}} \\ \text{大样本 } z &= \frac{\tau}{\sqrt{\frac{2(2n+5)}{9n(n-1)}}} \sim \mathcal{N}(0,1) \\ \mathbb{E}[\tau] &= 0 \quad (\text{独立零假设下}), \quad \operatorname{Var}(\tau) = \frac{2(2n+5)}{9n(n-1)} \end{aligned}

肯德尔τ系数以其概率直观、稳健性和坚实的推断理论,在等级数据分析中占据不可替代的位置。无论是作为探索性工具还是作为 Copula 建模的基础构件,它都在不断证明:统计相关性的度量不必依赖于数值的绝对大小——秩序的相对一致性本身就足以揭示变量间的深刻联结。