ARTICLE

斯皮尔曼等级相关系数

斯皮尔曼等级相关系数 (Spearman's Rank Correlation Coefficient) 斯皮尔曼等级相关系数 (Spearman's Rank Correlation Coefficient),通常用希腊字母 (rho) 或 r_s 表示,是一种用于衡量两个变量之间相关性强度和方向的非参数统计指标。与更常见的皮尔逊相关系数(Pearson

浏览 69 更新 2025-10-26

斯皮尔曼等级相关系数 (Spearman's Rank Correlation Coefficient)

斯皮尔曼等级相关系数 (Spearman's Rank Correlation Coefficient),通常用希腊字母 ρ \rho (rho) 或 rs r_s 表示,是一种用于衡量两个变量之间相关性强度和方向非参数统计指标。与更常见的皮尔逊相关系数(Pearson Correlation Coefficient)测量线性关系不同,斯皮尔曼系数评估的是两个变量之间的单调关系 (Monotonic Relationship)

该系数由英国心理学家与统计学家[[查尔斯·斯皮尔曼]] (Charles Spearman) 提出,其核心思想是,通过比较两个变量的秩次 (Ranks) 而非原始数值来评估它们的关联性。这使得斯皮尔曼系数对于数据的分布没有严格要求,并且对异常值 (Outliers) 不敏感,因而具有很强的稳健性。

核心原理:单调关系与秩次

要理解斯皮尔曼系数,必须先掌握两个基本概念:单调关系和秩次。

1. 单调关系 (Monotonic Relationship)

单调关系是指当一个变量增加时,另一个变量也随之呈现出持续增加持续减少的趋势,但这种趋势不一定是线性的。

  • 单调递增 (Monotonically Increasing):一个变量增加,另一个变量也随之增加或保持不变。例如,投入学习的时间越长,考试成绩通常越高(尽管每多学一小时带来的分数提升可能不同)。
  • 单调递减 (Monotonically Decreasing):一个变量增加,另一个变量随之减少或保持不变。例如,汽车的使用年限越长,其二手转售价值通常越低。

斯皮尔曼系数专门用于量化这种单调关系,而皮尔逊系数可能无法准确捕捉非线性的单调趋势。

2. 秩次 (Rank)

秩次,或称等级,是指将一组数据按升序(或降序)排列后,每个数值所处的位置。斯皮尔曼系数的计算正是基于这些秩次。

  • 转换过程:对每个变量的观测值进行独立排序,并赋予它们从 1 到 n n (样本量) 的秩次。
  • 处理重复值 (Ties):如果在数据中存在相同值的观测,则需要对它们赋予相同的平均秩次。例如,在一组数据 {10, 20, 20, 30} 中,10的秩次是1,30的秩次是4。两个20占据了第2和第3的位置,因此它们的秩次都是这两个位置的平均值,即 (2+3)/2=2.5 (2+3)/2 = 2.5

计算公式

斯皮尔曼等级相关系数的计算本质上是对两个变量的秩次数据计算皮尔逊相关系数

在没有重复值的情况下,可以使用一个简化的公式:

ρ=16i=1ndi2n(n21)\rho = 1 - \frac{6 \sum_{i=1}^{n} d_i^2}{n(n^2 - 1)}

其中:

  • ρ \rho 是斯皮尔曼等级相关系数。
  • di d_i 是第 i i 对观测值在两个变量中的秩次之差,即 di=rank(xi)rank(yi) d_i = \text{rank}(x_i) - \text{rank}(y_i)
  • n n 是观测值的对数(样本量)。
  • i=1ndi2 \sum_{i=1}^{n} d_i^2 是秩次差的平方和。

当数据中存在大量重复值时,上述简化公式会产生偏差。在这种情况下,应使用标准的皮尔逊相关系数公式,但将其应用于秩次数据:

ρ=i=1n(R(xi)Rˉx)(R(yi)Rˉy)i=1n(R(xi)Rˉx)2i=1n(R(yi)Rˉy)2\rho = \frac{\sum_{i=1}^{n} (R(x_i) - \bar{R}_x)(R(y_i) - \bar{R}_y)}{\sqrt{\sum_{i=1}^{n} (R(x_i) - \bar{R}_x)^2 \sum_{i=1}^{n} (R(y_i) - \bar{R}_y)^2}}

其中:

  • R(xi),R(yi) R(x_i), R(y_i) 分别是第 i i 个观测值在变量 X X Y Y 中的秩次。
  • Rˉx,Rˉy \bar{R}_x, \bar{R}_y 分别是变量 X X Y Y 秩次的平均值。

系数的解释

斯皮尔曼系数 ρ \rho 的取值范围在 -1 到 +1 之间,其解释如下:

  • ρ=+1 \rho = +1 :表示一个完美的正向单调关系。当一个变量的秩次增加时,另一个变量的秩次也随之增加。
  • ρ=1 \rho = -1 :表示一个完美的负向单调关系。当一个变量的秩次增加时,另一个变量的秩次随之减少。
  • ρ=0 \rho = 0 :表示两个变量之间不存在单调关系
  • 0<ρ<1 0 < \rho < 1 :表示一个正向单调关系ρ \rho 的值越接近1,关系越强。
  • 1<ρ<0 -1 < \rho < 0 :表示一个负向单调关系ρ \rho 的值越接近-1,关系越强。

通常,可以根据系数的绝对值来大致判断相关性的强度(但这依赖于具体研究领域):

  • ρ[0.0,0.3] |\rho| \in [0.0, 0.3] :弱相关
  • ρ[0.4,0.6] |\rho| \in [0.4, 0.6] :中等相关
  • ρ[0.7,1.0] |\rho| \in [0.7, 1.0] :强相关

计算步骤示例

假设我们有两组数据:数学成绩 (X X ) 和物理成绩 (Y Y ),我们想知道它们之间是否存在单调关系。

| 学生 | 数学成绩 (X) | 物理成绩 (Y) | Rank(X) | Rank(Y) | di=R(X)R(Y) d_i = R(X)-R(Y) | di2 d_i^2 | | :--- | :---: | :---: | :---: | :---: | :---: | :---: | | A | 85 | 90 | 4 | 5 | -1 | 1 | | B | 92 | 88 | 5 | 4 | 1 | 1 | | C | 75 | 70 | 2 | 1 | 1 | 1 | | D | 60 | 75 | 1 | 2 | -1 | 1 | | E | 80 | 78 | 3 | 3 | 0 | 0 |

  1. 列出数据:如上表所示,样本量 n=5 n = 5
  2. 对X进行排序和秩次分配X X 从小到大依次为 {60, 75, 80, 85, 92},对应秩次为 {1, 2, 3, 4, 5}。
  3. 对Y进行排序和秩次分配Y Y 从小到大依次为 {70, 75, 78, 88, 90},对应秩次为 {1, 2, 3, 4, 5}。
  4. 计算秩次差 di d_i :将每对观测值的秩次相减。
  5. 计算秩次差的平方 di2 d_i^2
  6. 求和 di2 \sum d_i^2 1+1+1+1+0=4 1 + 1 + 1 + 1 + 0 = 4
  7. 代入公式计算
ρ=16×45(521)=1245(24)=124120=10.2=0.8 \rho = 1 - \frac{6 \times 4}{5(5^2 - 1)} = 1 - \frac{24}{5(24)} = 1 - \frac{24}{120} = 1 - 0.2 = 0.8
  1. 解释结果ρ=0.8 \rho = 0.8 表明数学成绩和物理成绩之间存在一个强正向单调关系。成绩好的学生在一个科目上通常在另一个科目上也表现出色。

假设检验

计算出的样本相关系数 ρ \rho 是否具有统计显著性,需要通过假设检验来判断。

  • 原假设 (H0 H_0 ):两个变量在总体中是独立的,即总体斯皮尔曼系数为0 (ρpop=0 \rho_{pop} = 0 )。
  • 备择假设 (H1 H_1 ):两个变量在总体中存在单调关系 (ρpop0 \rho_{pop} \neq 0 )。

对于小样本(例如 n30 n \le 30 ),可以直接查询斯皮尔曼系数的临界值表。如果计算出的 ρ \rho 的绝对值大于给定显著性水平(如 α=0.05 \alpha=0.05 )下的临界值,则拒绝原假设。

对于大样本(例如 n>30 n > 30 ),可以使用一个近似于t分布的检验统计量:

t=ρn21ρ2t = \rho \sqrt{\frac{n-2}{1-\rho^2}}

该统计量服从自由度为 n2 n-2 的t分布。通过计算出的 t t 值和对应的p-value,可以判断结果的显著性。如果 p-value 小于 α \alpha ,则拒绝原假设。

应用与优势

斯皮尔曼系数是统计分析中一个非常实用和灵活的工具。

何时使用斯皮尔曼系数:

  1. 数据为序数数据 (Ordinal Data):当数据本身就是等级或排序形式时(如比赛名次、满意度评级),斯皮尔曼是理想选择。
  2. 数据不满足参数假设:当区间数据比率数据严重偏离正态分布时,使用斯皮尔曼系数比皮尔逊系数更可靠。
  3. 怀疑存在非线性单调关系:当变量间的关系是单调但非线性时,皮尔逊系数可能会低估其关联强度,而斯皮尔曼系数能更好地捕捉这种趋势。
  4. 存在异常值:由于斯皮尔曼系数使用秩次,它对极端值不敏感。一个极大的异常值只会被赋予最高秩次,其具体数值大小不影响最终计算,这使得分析结果更为稳健。

与皮尔逊系数的对比:

  • 皮尔逊系数测量的是线性关系,要求数据至少是区间尺度且最好满足正态假设。
  • 斯皮尔曼系数测量的是单调关系,适用于序数区间比率尺度的数据,且不要求数据服从特定分布。

总而言之,斯皮尔曼等级相关系数是一个强大的非参数工具,它通过秩次变换,为评估不同类型数据间的单调关系提供了可靠且稳健的方法。