肯德尔τ系数 (Kendall's τ Coefficient)
肯德尔τ系数 (Kendall's tau coefficient,记作 τ \tau τ )是一种基于成对比较 的等级相关系数 ,由英国统计学家Maurice Kendall 于1938年提出。与斯皮尔曼等级相关系数 (Spearman's ρ \rho ρ )和皮尔逊相关系数 (Pearson's r r r )不同,肯德尔τ完全建立在观测值两两之间"一致"(concordant)或"不一致"(discordant)的计数之上,不依赖具体的数值差异大小。这一特性使其对异常值 和非线性单调关系 具有天然的稳健性。
核心定义:一致对与不一致对
给定 n n n 个观测对 ( X 1 , Y 1 ) , ( X 2 , Y 2 ) , … , ( X n , Y n ) (X_1, Y_1), (X_2, Y_2), \ldots, (X_n, Y_n) ( X 1 , Y 1 ) , ( X 2 , Y 2 ) , … , ( X n , Y n ) ,考虑所有 ( n 2 ) \binom{n}{2} ( 2 n ) 个无序观测对 { ( X i , Y i ) , ( X j , Y j ) } \{(X_i, Y_i), (X_j, Y_j)\} {( X i , Y i ) , ( X j , Y j )} (i < j i < j i < j ):
一致对 (concordant pair) :若 ( X i − X j ) ( Y i − Y j ) > 0 (X_i - X_j)(Y_i - Y_j) > 0 ( X i − X j ) ( Y i − Y j ) > 0 ,即两个变量在同一方向上变动——X X X 较大者其 Y Y Y 也较大(或两者都较小)。不一致对 (discordant pair) :若 ( X i − X j ) ( Y i − Y j ) < 0 (X_i - X_j)(Y_i - Y_j) < 0 ( X i − X j ) ( Y i − Y j ) < 0 ,即两个变量在相反方向上变动——X X X 较大者其 Y Y Y 较小(或反之)。平局 (tie) :若 X i = X j X_i = X_j X i = X j 或 Y i = Y j Y_i = Y_j Y i = Y j ,则该对既不归为一致也不归为不一致。
三种变体:τ a \tau_a τ a 、τ b \tau_b τ b 与 τ c \tau_c τ c
肯德尔τ有三种常见形式,分别针对不同的数据特征:
肯德尔 τ a \tau_a τ a
最基本的定义,假设数据中不存在平局:
τ a = n c − n d ( n 2 ) = 2 ( n c − n d ) n ( n − 1 ) \tau_a = \frac{n_c - n_d}{\binom{n}{2}} = \frac{2(n_c - n_d)}{n(n-1)} τ a = ( 2 n ) n c − n d = n ( n − 1 ) 2 ( n c − n d )
其中 n c n_c n c 为一致对数量,n d n_d n d 为不一致对数量。τ a \tau_a τ a 的取值范围为 [ − 1 , 1 ] [-1, 1] [ − 1 , 1 ] :+ 1 +1 + 1 表示完全正相关(所有对一致),− 1 -1 − 1 表示完全负相关(所有对不一致),0 0 0 表示无相关。
肯德尔 τ b \tau_b τ b
当数据中存在平局时,τ a \tau_a τ a 的绝对值无法达到 1。τ b \tau_b τ b 通过对分母进行修正来解决这一问题:
τ b = n c − n d ( n c + n d + T X ) ( n c + n d + T Y ) \tau_b = \frac{n_c - n_d}{\sqrt{(n_c + n_d + T_X)(n_c + n_d + T_Y)}} τ b = ( n c + n d + T X ) ( n c + n d + T Y ) n c − n d
其中 T X T_X T X 为仅在 X X X 上平局的对数,T Y T_Y T Y 为仅在 Y Y Y 上平局的对数(同时平局的对不计入分子亦不计入分母)。τ b \tau_b τ b 适用于方形的列联表(行数与列数相等)。
肯德尔 τ c \tau_c τ c
对于非方形列联表(如 3 × 5 3 \times 5 3 × 5 的等级交叉表),τ c \tau_c τ c 提供了恰当的修正:
τ c = 2 min ( r , c ) ( n c − n d ) n 2 ( min ( r , c ) − 1 ) \tau_c = \frac{2 \min(r, c)(n_c - n_d)}{n^2 (\min(r, c) - 1)} τ c = n 2 ( min ( r , c ) − 1 ) 2 min ( r , c ) ( n c − n d )
其中 r r r 为 X X X 的不同取值数,c c c 为 Y Y Y 的不同取值数。当 r = c r = c r = c 时,τ c \tau_c τ c 与 τ b \tau_b τ b 的渐近期望一致。
统计推断与假设检验
在零假设 H 0 : τ = 0 H_0: \tau = 0 H 0 : τ = 0 (两变量独立)下,当样本量 n n n 足够大(通常 n > 30 n > 30 n > 30 )时,τ \tau τ 的抽样分布近似正态:
z = τ 2 ( 2 n + 5 ) 9 n ( n − 1 ) z = \frac{\tau}{\sqrt{\frac{2(2n+5)}{9n(n-1)}}} z = 9 n ( n − 1 ) 2 ( 2 n + 5 ) τ
该 z z z 统计量可直接用于双边或单边检验。对于小样本,可使用精确检验 ——通过枚举所有可能的排列计算 τ \tau τ 的精确零分布。
肯德尔τ也可以在存在删失数据 的场景中使用。通过将不可比的对(由于删失而无法确定顺序)排除在外,计算出所谓的肯德尔τ的删失修正版 ,这在生存分析 和可靠性工程 中十分有用。
与斯皮尔曼 ρ \rho ρ 和皮尔逊 r r r 的比较
三种相关系数各有侧重。下表总结了关键差异:
性质 Pearson r Spearman ρ Kendall τ 基础 原始数值 等级 成对比较 对异常值 敏感 较稳健 最稳健 效率 (ARE) 1.00 0.91 0.91 概率解释 无 无 有 计算复杂度 O ( n ) O ( n log n ) O ( n log n ) \begin{array}{c|c|c|c}
\text{性质} & \text{Pearson } r & \text{Spearman } \rho & \text{Kendall } \tau \\ \hline
\text{基础} & \text{原始数值} & \text{等级} & \text{成对比较} \\
\text{对异常值} & \text{敏感} & \text{较稳健} & \text{最稳健} \\
\text{效率 (ARE)} & 1.00 & 0.91 & 0.91 \\
\text{概率解释} & \text{无} & \text{无} & \text{有} \\
\text{计算复杂度} & O(n) & O(n \log n) & O(n \log n) \\
\end{array} 性质 基础 对异常值 效率 (ARE) 概率解释 计算复杂度 Pearson r 原始数值 敏感 1.00 无 O ( n ) Spearman ρ 等级 较稳健 0.91 无 O ( n log n ) Kendall τ 成对比较 最稳健 0.91 有 O ( n log n )
其中 ARE(渐近相对效率)以 Pearson r r r 在二元正态下的效率为基准。肯德尔τ的一个独特优势是它具有直接的概率解释 :
τ = P ( 一致对 ) − P ( 不一致对 ) \tau = \mathbb{P}(\text{一致对}) - \mathbb{P}(\text{不一致对}) τ = P ( 一致对 ) − P ( 不一致对 )
即 τ \tau τ 等于随机抽取的两个观测对一致的概率减去不一致的概率。这一简洁的概率含义是 Pearson r r r 和 Spearman ρ \rho ρ 所不具备的,使得肯德尔τ在向非专业受众解释时尤为直观。
偏肯德尔τ与条件相关
类似于偏相关系数 ,也可以定义偏肯德尔τ 用于衡量在控制第三个变量 Z Z Z 的条件下 X X X 与 Y Y Y 的等级相关:
τ X Y ⋅ Z = τ X Y − τ X Z ⋅ τ Y Z ( 1 − τ X Z 2 ) ( 1 − τ Y Z 2 ) \tau_{XY \cdot Z} = \frac{\tau_{XY} - \tau_{XZ} \cdot \tau_{YZ}}{\sqrt{(1 - \tau_{XZ}^2)(1 - \tau_{YZ}^2)}} τ X Y ⋅ Z = ( 1 − τ XZ 2 ) ( 1 − τ Y Z 2 ) τ X Y − τ XZ ⋅ τ Y Z
当变量均为连续且来自多元正态时,此公式近似成立。该度量在因果关系 探索和中介分析 中有重要应用——若控制 Z Z Z 后 τ X Y ⋅ Z ≈ 0 \tau_{XY \cdot Z} \approx 0 τ X Y ⋅ Z ≈ 0 ,则 X X X 与 Y Y Y 的原始相关可能完全由 Z Z Z 驱动。
应用场景
等级一致性评估 :在信息检索 中,肯德尔τ常用于评估两个排序算法(或两个人类标注者)之间的一致性。不同于仅关注前 k k k 个结果的指标(如NDCG ),τ 考量了所有项的全局排序质量。金融风险建模 :在Copula 理论中,肯德尔τ与阿基米德Copula 的参数存在一一对应关系。对于 Clayton Copula:θ = 2 τ / ( 1 − τ ) \theta = 2\tau/(1-\tau) θ = 2 τ / ( 1 − τ ) ;对于 Gumbel Copula:θ = 1 / ( 1 − τ ) \theta = 1/(1-\tau) θ = 1/ ( 1 − τ ) 。这使得从数据中估计τ后可直接标定 Copula 的相依参数。心理测量与调查 :在李克特量表 等有序分类数据中,τ 是比 Pearson r r r 更为合理的关联度量,因为它只依赖等级顺序而非数值间距的均匀性假设。趋势检验 :Mann-Kendall 趋势检验 使用肯德尔τ来检测时间序列中是否存在单调趋势,广泛用于环境科学(如降水量、污染物浓度的长期趋势)和水文学。
历史背景
Maurice Kendall 在1938年发表于《Biometrika》的论文《A New Measure of Rank Correlation》中首次提出了这一系数。有趣的是,Gustav Fechner 早在1897年就提出过类似思想,而Charles Spearman 的 ρ \rho ρ (1904)实际上是基于等级数值而非成对比较。Kendall 的后发优势在于他提供了完整的分布理论和假设检验框架,并在其经典著作《Rank Correlation Methods》(1948年第一版,后多次再版)中系统化了等级相关的整个方法论体系。
核心公式汇总
τ a = n c − n d ( n 2 ) = 2 ( n c − n d ) n ( n − 1 ) τ b = n c − n d ( n c + n d + T X ) ( n c + n d + T Y ) 大样本 z = τ 2 ( 2 n + 5 ) 9 n ( n − 1 ) ∼ N ( 0 , 1 ) E [ τ ] = 0 ( 独立零假设下 ) , Var ( τ ) = 2 ( 2 n + 5 ) 9 n ( n − 1 ) \begin{aligned}
\tau_a &= \frac{n_c - n_d}{\binom{n}{2}} = \frac{2(n_c - n_d)}{n(n-1)} \\
\tau_b &= \frac{n_c - n_d}{\sqrt{(n_c + n_d + T_X)(n_c + n_d + T_Y)}} \\
\text{大样本 } z &= \frac{\tau}{\sqrt{\frac{2(2n+5)}{9n(n-1)}}} \sim \mathcal{N}(0,1) \\
\mathbb{E}[\tau] &= 0 \quad (\text{独立零假设下}), \quad \operatorname{Var}(\tau) = \frac{2(2n+5)}{9n(n-1)}
\end{aligned} τ a τ b 大样本 z E [ τ ] = ( 2 n ) n c − n d = n ( n − 1 ) 2 ( n c − n d ) = ( n c + n d + T X ) ( n c + n d + T Y ) n c − n d = 9 n ( n − 1 ) 2 ( 2 n + 5 ) τ ∼ N ( 0 , 1 ) = 0 ( 独立零假设下 ) , Var ( τ ) = 9 n ( n − 1 ) 2 ( 2 n + 5 )
肯德尔τ系数以其概率直观、稳健性和坚实的推断理论,在等级数据分析中占据不可替代的位置。无论是作为探索性工具还是作为 Copula 建模的基础构件,它都在不断证明:统计相关性的度量不必依赖于数值的绝对大小——秩序的相对一致性本身就足以揭示变量间的深刻联结。
关于知经 KNOWECON
知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌,长期面向北京大学、清华大学、中国人民大学等顶尖院校,提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考,并成功进入理想院校。
知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业,获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者,长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。
我们相信,好的考研辅导不只是押题和陪跑,更是把复杂知识讲清楚、把复习路径设计清楚,并用技术让学习过程更可追踪、更可反馈、更可坚持。