ARTICLE

肯德尔等级相关系数

肯德尔等级相关系数 (Kendall Rank Correlation Coefficient) 肯德尔等级相关系数(Kendall's ,读作"tau")是非参数统计中衡量两个有序变量之间关联程度的统计量,由英国统计学家莫里斯·肯德尔(Maurice Kendall)于1938年提出。与皮尔逊相关系数度量线性关系不同,肯德尔 基于观测值对的"一致"与"不一

浏览 4 更新 2025-10-26

肯德尔等级相关系数 (Kendall Rank Correlation Coefficient)

肯德尔等级相关系数(Kendall's τ\tau,读作"tau")是非参数统计中衡量两个有序变量之间关联程度的统计量,由英国统计学家莫里斯·肯德尔(Maurice Kendall)于1938年提出。与皮尔逊相关系数度量线性关系不同,肯德尔τ\tau基于观测值对的"一致"与"不一致"来评估变量间的单调相关性。其核心直觉是:如果两个变量的排序高度一致,那么任意一对观测中,两个变量的相对大小关系应当同向。

肯德尔τ\tau属于等级相关系数的一种,与斯皮尔曼等级相关系数并列为最常用的两种基于秩的关联度量。相较于斯皮尔曼ρ\rho,肯德尔τ\tau具有更直接的概率解释——它可理解为随机抽取一对观测,其排序一致的概率减去排序不一致的概率——且在小样本下统计推断性质更优。

形式化定义

设有 nn 对观测值 (X1,Y1),(X2,Y2),,(Xn,Yn)(X_1, Y_1), (X_2, Y_2), \dots, (X_n, Y_n)。对任意两对观测 iji \neq j

  • (XiXj)(YiYj)>0(X_i - X_j)(Y_i - Y_j) > 0,则称 (i,j)(i, j)一致对(concordant pair);
  • (XiXj)(YiYj)<0(X_i - X_j)(Y_i - Y_j) < 0,则称 (i,j)(i, j)不一致对(discordant pair);
  • Xi=XjX_i = X_jYi=YjY_i = Y_j,则称其为(tie)。

CC 为一致对的数量,DD 为不一致对的数量,则最基本的肯德尔 τa\tau_a 定义为:

τa=CD(n2)=CDn(n1)/2\tau_a = \frac{C - D}{\binom{n}{2}} = \frac{C - D}{n(n-1)/2}

其取值范围为 [1,1][-1, 1]τ=1\tau = 1 表示两个排序完全一致,τ=1\tau = -1 表示完全相反,τ=0\tau = 0 表示无单调关联。该统计量具有对称性,即 τ(X,Y)=τ(Y,X)\tau(X, Y) = \tau(Y, X)

考虑结的变体

实际数据中常出现"结"(相等值),上述 τa\tau_a 仅在无结时达到 ±1\pm 1。为此,肯德尔提出了修正版本。

τb\tau_b(Kendall's tau-b):适用于方表数据,修正公式为

τb=CD[(n2)TX][(n2)TY]\tau_b = \frac{C - D}{\sqrt{\left[\binom{n}{2} - T_X\right]\left[\binom{n}{2} - T_Y\right]}}

其中 TX=(tX2)T_X = \sum \binom{t_X}{2} 为变量 XX 中所有结组对应配对数的和(tXt_X 为各结组的大小),TYT_Y 同理。τb\tau_b 在有结时仍可达到 ±1\pm 1(仅当两个变量结结构完全一致时)。

τc\tau_c(Kendall's tau-c,也称 Stuart's tau-c):适用于非方表的列联表数据,定义为

τc=2min(r,c)(CD)n2(min(r,c)1)\tau_c = \frac{2 \min(r, c)(C - D)}{n^2(\min(r, c) - 1)}

其中 r,cr, c 分别为行、列类别数。τc\tau_c 可达到 ±1\pm 1 无论边际分布如何,在列联表分析中应用较广。

三种变体的选择依赖于数据特征:无结时三者等价;存在结且行列数相近时宜用 τb\tau_b;列联表分析中 τc\tau_c 更为合适。

统计推断

假设检验:检验原假设 H0:τ=0H_0: \tau = 0(无单调关联)对双侧备择 H1:τ0H_1: \tau \neq 0

对于小样本 (n10n \leq 10),可使用 τ\tau 的精确分布临界值表。对于大样本,肯德尔证明了在 H0H_0 下,τa\tau_a 的分布渐近于正态分布:

Var(τa)=2(2n+5)9n(n1)\operatorname{Var}(\tau_a) = \frac{2(2n+5)}{9n(n-1)}

标准化的检验统计量为:

Z=τaVar(τa)dN(0,1)Z = \frac{\tau_a}{\sqrt{\operatorname{Var}(\tau_a)}} \xrightarrow{d} \mathcal{N}(0, 1)

若存在结,τb\tau_b 的方差公式更为复杂,一般形式为:

Var(τb)=2n(n1)[1tX(tX1)n(n1)][1tY(tY1)n(n1)]\operatorname{Var}(\tau_b) = \frac{2}{n(n-1)} \left[1 - \frac{\sum t_X(t_X-1)}{n(n-1)}\right] \left[1 - \frac{\sum t_Y(t_Y-1)}{n(n-1)}\right]

实际应用中多借助统计软件(如 R 的 \texttt{cor.test} 或 Python 的 \texttt{scipy.stats.kendalltau})完成推断。

置信区间:在大样本下,可通过 Fisher zz-变换或直接使用渐近正态性构造 τ\tau 的置信区间。

与斯皮尔曼 ρ\rho 的比较

肯德尔 τ\tau 和斯皮尔曼 ρ\rho 同为基于秩的相关系数,但存在以下关键区别:

  • 解释性τ\tau 有直接的概率解释——(τ+1)/2(\tau + 1)/2 即为随机抽取一对观测其为一致对的概率。斯皮尔曼 ρ\rho 缺乏如此直观的概率含义。
  • 效率:在二元正态总体下,τ\tau 的渐近相对效率(ARE)约为 9/π20.9129/\pi^2 \approx 0.912,略低于斯皮尔曼 ρ\rho0.9120.912 相对于皮尔逊相关系数。这意味着在大样本正态数据下,τ\tau 效率略低,但在厚尾分布下鲁棒性更优。
  • 收敛速度τ\tau 的抽样分布更快趋近正态,小样本下推断更可靠。
  • 对异常值的敏感性τ\tau 基于符号而非数值差,比斯皮尔曼 ρ\rho 更不受极端秩差异的影响。
  • 数值范围:对于相同数据,通常 τ<ρ|\tau| < |\rho|,即斯皮尔曼 ρ\rho 的绝对值往往更大。

实践中,两者常同时报告以增强结论的稳健性。若 τ\tauρ\rho 给出的结论一致,则关联的可信度更高。

经济学与社会科学应用

肯德尔 τ\tau 在经济学研究中应用广泛:

收入与消费排序的一致性:研究不同时期家庭收入排名的稳定性,τ\tau 可直接度量排名变动的幅度。例如,比较基期与报告期家庭收入五分位排序,τ=0.8\tau = 0.8 可解释为随机选两户家庭,其收入排序在前后一致的净概率为 0.8。

多指标综合评估:在福利经济学发展经济学中,不同指标(如人类发展指数各分项)对国家排名的评价常产生分歧,τ\tau 可用于量化指标间排名的一致性程度,作为评价指标体系内部协调性的依据。

时间序列趋势检测Mann-Kendall趋势检验是环境经济学和气候经济学中广泛使用的非参数趋势检验方法,其核心统计量即为肯德尔 τ\tau。该检验不要求数据服从特定分布,对缺失值和异常值具有较强的鲁棒性,常用于分析温度、降水、污染物浓度等长期单调趋势。

模型预测的秩评估:在计量经济学模型比较中,肯德尔 τ\tau 可用于评估模型预测排序与实际排序之间的一致性,作为预测能力的非参数度量,尤其适用于关注排序而非精确数值的场景,如信用评级、推荐系统中的协同过滤等。

此外,τ\tau 也广泛用于产业组织中的市场集中度趋势分析和劳动经济学中的职业流动性研究。

注意事项与局限性

使用肯德尔 τ\tau 时需注意以下几点:首先,τ\tau 仅捕捉单调关系,无法检测非线性非单调模式(如 U 形关系),此时 τ\tau 可能接近零而实际存在强关联。其次,大量结的存在会压缩 τ\tau 的取值范围,即使 τb\tau_b 有所修正,解释时仍需谨慎。最后,τ\tau 的计算复杂度为 O(n2)O(n^2),在大数据集上计算效率低于 O(nlogn)O(n \log n) 的斯皮尔曼 ρ\rhoO(n)O(n) 的皮尔逊相关系数,实际应用中需根据数据规模权衡。