知经 KNOWECON · 卓越的经济金融统计数学学习平台

斯皮尔曼等级相关系数

# 斯皮尔曼等级相关系数 (Spearman's Rank Correlation Coefficient)

斯皮尔曼等级相关系数 (Spearman's Rank Correlation Coefficient),通常用希腊字母 $\rho$ (rho) 或 $r_s$ 表示,是一种用于衡量两个变量之间相关性强度和方向的{{{非参数}}}统计指标。与更常见的{{{皮尔逊相关系数}}}(Pearson Correlation Coefficient)测量{{{线性关系}}}不同,斯皮尔曼系数评估的是两个变量之间的{{{单调关系}}} (Monotonic Relationship)

该系数由英国心理学家与统计学家[[查尔斯·斯皮尔曼]] (Charles Spearman) 提出,其核心思想是,通过比较两个变量的秩次 (Ranks) 而非原始数值来评估它们的关联性。这使得斯皮尔曼系数对于数据的分布没有严格要求,并且对{{{异常值}}} (Outliers) 不敏感,因而具有很强的稳健性。

## 核心原理:单调关系与秩次

要理解斯皮尔曼系数,必须先掌握两个基本概念:单调关系和秩次。

1. 单调关系 (Monotonic Relationship)

单调关系是指当一个变量增加时,另一个变量也随之呈现出持续增加持续减少的趋势,但这种趋势不一定是线性的。

* 单调递增 (Monotonically Increasing):一个变量增加,另一个变量也随之增加或保持不变。例如,投入学习的时间越长,考试成绩通常越高(尽管每多学一小时带来的分数提升可能不同)。 * 单调递减 (Monotonically Decreasing):一个变量增加,另一个变量随之减少或保持不变。例如,汽车的使用年限越长,其二手转售价值通常越低。

斯皮尔曼系数专门用于量化这种单调关系,而皮尔逊系数可能无法准确捕捉非线性的单调趋势。

2. 秩次 (Rank)

秩次,或称等级,是指将一组数据按升序(或降序)排列后,每个数值所处的位置。斯皮尔曼系数的计算正是基于这些秩次。

* 转换过程:对每个变量的观测值进行独立排序,并赋予它们从 1 到 $n$ (样本量) 的秩次。 * 处理重复值 (Ties):如果在数据中存在相同值的观测,则需要对它们赋予相同的平均秩次。例如,在一组数据 {10, 20, 20, 30} 中,10的秩次是1,30的秩次是4。两个20占据了第2和第3的位置,因此它们的秩次都是这两个位置的平均值,即 $(2+3)/2 = 2.5$。

## 计算公式

斯皮尔曼等级相关系数的计算本质上是对两个变量的秩次数据计算{{{皮尔逊相关系数}}}

在没有重复值的情况下,可以使用一个简化的公式:

$$ \rho = 1 - \frac{6 \sum_{i=1}^{n} d_i^2}{n(n^2 - 1)} $$

其中: * $\rho$ 是斯皮尔曼等级相关系数。 * $d_i$ 是第 $i$ 对观测值在两个变量中的秩次之差,即 $d_i = \text{rank}(x_i) - \text{rank}(y_i)$。 * $n$ 是观测值的对数(样本量)。 * $\sum_{i=1}^{n} d_i^2$ 是秩次差的平方和。

当数据中存在大量重复值时,上述简化公式会产生偏差。在这种情况下,应使用标准的皮尔逊相关系数公式,但将其应用于秩次数据:

$$ \rho = \frac{\sum_{i=1}^{n} (R(x_i) - \bar{R}_x)(R(y_i) - \bar{R}_y)}{\sqrt{\sum_{i=1}^{n} (R(x_i) - \bar{R}_x)^2 \sum_{i=1}^{n} (R(y_i) - \bar{R}_y)^2}} $$

其中: * $R(x_i), R(y_i)$ 分别是第 $i$ 个观测值在变量 $X$ 和 $Y$ 中的秩次。 * $\bar{R}_x, \bar{R}_y$ 分别是变量 $X$ 和 $Y$ 秩次的平均值。

## 系数的解释

斯皮尔曼系数 $\rho$ 的取值范围在 -1 到 +1 之间,其解释如下:

* $\rho = +1$:表示一个完美的正向单调关系。当一个变量的秩次增加时,另一个变量的秩次也随之增加。 * $\rho = -1$:表示一个完美的负向单调关系。当一个变量的秩次增加时,另一个变量的秩次随之减少。 * $\rho = 0$:表示两个变量之间不存在单调关系。 * $0 < \rho < 1$:表示一个正向单调关系。$\rho$ 的值越接近1,关系越强。 * $-1 < \rho < 0$:表示一个负向单调关系。$\rho$ 的值越接近-1,关系越强。

通常,可以根据系数的绝对值来大致判断相关性的强度(但这依赖于具体研究领域): * $|\rho| \in [0.0, 0.3]$:弱相关 * $|\rho| \in [0.4, 0.6]$:中等相关 * $|\rho| \in [0.7, 1.0]$:强相关

## 计算步骤示例

假设我们有两组数据:数学成绩 ($X$) 和物理成绩 ($Y$),我们想知道它们之间是否存在单调关系。

| 学生 | 数学成绩 (X) | 物理成绩 (Y) | Rank(X) | Rank(Y) | $d_i = R(X)-R(Y)$ | $d_i^2$ | | :--- | :---: | :---: | :---: | :---: | :---: | :---: | | A | 85 | 90 | 4 | 5 | -1 | 1 | | B | 92 | 88 | 5 | 4 | 1 | 1 | | C | 75 | 70 | 2 | 1 | 1 | 1 | | D | 60 | 75 | 1 | 2 | -1 | 1 | | E | 80 | 78 | 3 | 3 | 0 | 0 |

1. 列出数据:如上表所示,样本量 $n = 5$。 2. 对X进行排序和秩次分配:$X$ 从小到大依次为 {60, 75, 80, 85, 92},对应秩次为 {1, 2, 3, 4, 5}。 3. 对Y进行排序和秩次分配:$Y$ 从小到大依次为 {70, 75, 78, 88, 90},对应秩次为 {1, 2, 3, 4, 5}。 4. 计算秩次差 $d_i$:将每对观测值的秩次相减。 5. 计算秩次差的平方 $d_i^2$。 6. 求和 $\sum d_i^2$:$1 + 1 + 1 + 1 + 0 = 4$。 7. 代入公式计算: $$ \rho = 1 - \frac{6 \times 4}{5(5^2 - 1)} = 1 - \frac{24}{5(24)} = 1 - \frac{24}{120} = 1 - 0.2 = 0.8 $$ 8. 解释结果:$\rho = 0.8$ 表明数学成绩和物理成绩之间存在一个强正向单调关系。成绩好的学生在一个科目上通常在另一个科目上也表现出色。

## 假设检验

计算出的样本相关系数 $\rho$ 是否具有{{{统计显著性}}},需要通过{{{假设检验}}}来判断。

* {{{原假设}}} ($H_0$):两个变量在总体中是独立的,即总体斯皮尔曼系数为0 ($\rho_{pop} = 0$)。 * {{{备择假设}}} ($H_1$):两个变量在总体中存在单调关系 ($\rho_{pop} \neq 0$)。

对于小样本(例如 $n \le 30$),可以直接查询斯皮尔曼系数的临界值表。如果计算出的 $\rho$ 的绝对值大于给定{{{显著性水平}}}(如 $\alpha=0.05$)下的临界值,则拒绝原假设。

对于大样本(例如 $n > 30$),可以使用一个近似于{{{t分布}}}的检验统计量: $$ t = \rho \sqrt{\frac{n-2}{1-\rho^2}} $$ 该统计量服从自由度为 $n-2$ 的t分布。通过计算出的 $t$ 值和对应的{{{p-value}}},可以判断结果的显著性。如果 p-value 小于 $\alpha$,则拒绝原假设。

## 应用与优势

斯皮尔曼系数是统计分析中一个非常实用和灵活的工具。

何时使用斯皮尔曼系数:

1. 数据为{{{序数数据}}} (Ordinal Data):当数据本身就是等级或排序形式时(如比赛名次、满意度评级),斯皮尔曼是理想选择。 2. 数据不满足参数假设:当{{{区间数据}}}或{{{比率数据}}}严重偏离{{{正态分布}}}时,使用斯皮尔曼系数比皮尔逊系数更可靠。 3. 怀疑存在非线性单调关系:当变量间的关系是单调但非线性时,皮尔逊系数可能会低估其关联强度,而斯皮尔曼系数能更好地捕捉这种趋势。 4. 存在异常值:由于斯皮尔曼系数使用秩次,它对极端值不敏感。一个极大的异常值只会被赋予最高秩次,其具体数值大小不影响最终计算,这使得分析结果更为稳健。

与皮尔逊系数的对比:

* 皮尔逊系数测量的是线性关系,要求数据至少是{{{区间}}}尺度且最好满足正态假设。 * 斯皮尔曼系数测量的是单调关系,适用于{{{序数}}}、{{{区间}}}或{{{比率}}}尺度的数据,且不要求数据服从特定分布。

总而言之,斯皮尔曼等级相关系数是一个强大的{{{非参数}}}工具,它通过秩次变换,为评估不同类型数据间的单调关系提供了可靠且稳健的方法。