ARTICLE
Spearman秩相关系数
Spearman秩相关系数(Spearman's rank correlation coefficient,又称Spearman's ρ)是一种非参数统计量,用于衡量两个变量之间单调关系的强度与方向。由英国心理学家查尔斯·斯皮尔曼(Charles Spearman)于1904年提出,它通过将原始数据转换为秩次(rank)而非使用原始数值来计算相关性,因此对异
Spearman秩相关系数(Spearman's rank correlation coefficient,又称Spearman's ρ)是一种非参数统计量,用于衡量两个变量之间单调关系的强度与方向。由英国心理学家查尔斯·斯皮尔曼(Charles Spearman)于1904年提出,它通过将原始数据转换为秩次(rank)而非使用原始数值来计算相关性,因此对异常值和非线性单调关系具有较好的稳健性。
定义
给定两个变量 和 的 对观测值 ,首先将每一变量的观测值分别排序。令 表示 在 中的秩次, 表示 在 中的秩次。Spearman秩相关系数的计算公式为:
其中 为每对观测值的秩次差。当所有观测值的秩次完全一致时,,表示完全正单调关系;当秩次完全相反时,,表示完全负单调关系;当两变量之间不存在单调关联时,。
当数据中存在并列秩次(ties)时,上述简化公式不再适用,需改用基于秩次的Pearson相关系数公式,即:
其中 和 分别为秩次的均值。
性质
Spearman秩相关系数具有以下重要性质:
第一,尺度不变性。由于计算基于秩次而非原始数值,变量的任何严格单调变换(如对数变换、平方根变换)都不会改变秩次顺序,从而不会影响Spearman ρ的值。相比之下,Pearson相关系数在非线性变换下会发生变化。
第二,对异常值的稳健性。异常值对秩次的影响远小于对原始数值的影响。例如,在Pearson相关中,一个极端异常值可以极大地改变相关系数,但在Spearman相关中,该异常值至多改变一个秩次的位置,影响有限。
第三,取值范围。,与Pearson相关系数相同。 表示一个变量的严格单调递增函数可以完美描述另一个变量; 表示严格单调递减关系。
第四,对称性。,即Spearman秩相关系数是对称的。
第五,与Kendall τ的关系。Spearman ρ和Kendall τ都是基于秩次的关联度量,但ρ对秩次差异更敏感,通常绝对值大于τ。两者的统计效率在不同分布下各有优劣。
假设检验
对Spearman秩相关系数的显著性检验通常使用以下方法:
零假设 : 与 之间不存在单调相关关系,即 。
小样本情况():使用精确的临界值表。查表得到给定显著性水平 下的临界值 ,若 ,则拒绝 。
大样本情况():检验统计量 近似服从自由度为 的t分布。此外,也可使用近似正态分布:。
Permutation检验:作为一种非参数替代方案,可以通过随机置换一个变量的秩次多次,计算置换后的ρ值分布,从而得到经验p值。该方法不依赖于任何分布假设。
与Pearson相关系数的比较
Pearson相关系数衡量的是线性关系,而Spearman秩相关系数衡量的是单调关系,这是两者最本质的区别。具体而言:
| 特征 | Spearman ρ | Pearson r | |------|-----------|-----------| | 测量关系类型 | 单调关系 | 线性关系 | | 数据要求 | 至少为有序尺度 | 区间或比率尺度 | | 分布假设 | 无 | 近似正态分布 | | 异常值敏感性 | 低 | 高 | | 单调变换不变性 | 是 | 否 |
在实际应用中,若数据满足正态性和线性假设,Pearson相关系数的统计效力更高;若数据偏离这些假设或存在异常值,Spearman秩相关系数是更稳健的选择。
应用场景
Spearman秩相关系数在多个学科领域有广泛应用:
心理学与社会科学:问卷和量表中的Likert量表数据本质上是序数数据,直接计算Pearson相关系数可能存在争议,Spearman ρ是更合适的选择。例如,研究教育水平与收入满意度的关系,两者均为有序变量,使用Spearman ρ更为恰当。
生物统计学与医学:基因表达数据的分布通常严重偏态,且存在大量异常值,Spearman ρ在分析基因表达水平与临床指标的关联中优于Pearson r。例如,研究某种肿瘤标志物浓度与疾病严重程度分级的关联。
经济学与金融学:金融时间序列的收益率分布常呈现厚尾特征,Spearman ρ在分析资产收益率的秩次相关性方面更为稳健。例如,使用Spearman ρ计算不同股票收益率的秩相关系数,构建基于秩次的投资组合。
机器学习与特征选择:在特征工程中,Spearman ρ可用于筛选与目标变量呈单调关系的特征,作为非线性特征选择的初步工具。
计算示例
假设有五名学生的数学成绩排名和物理成绩排名如下:
| 学生 | 数学排名 | 物理排名 | | | |-----|--------------|--------------|-------|---------| | A | 1 | 2 | -1 | 1 | | B | 2 | 1 | 1 | 1 | | C | 3 | 4 | -1 | 1 | | D | 4 | 3 | 1 | 1 | | E | 5 | 5 | 0 | 0 |
计算得 ,代入公式:
得到 ,表明数学成绩与物理成绩之间存在较强的正单调关系。
若将该ρ值代入t检验统计量:
在自由度 、显著性水平 时,双尾临界值 ,因 ,在5\%显著性水平下不能拒绝零假设。这主要是因为样本量过小,统计效力不足。
局限性与注意事项
Spearman秩相关系数虽具诸多优点,但也存在局限:
首先,其对非线性单调关系的检测效果依赖于关系的单调性。若两个变量之间存在非单调关系(如U形关系),Spearman ρ可能接近于0,无法捕捉该关联。
其次,将连续数据转换为秩次会导致信息损失。在数据满足Pearson相关假设时,使用Spearman ρ会损失统计效力,即需要更大的样本量才能检测到相同强度的关联。
第三,Spearman ρ仅反映单调关联的强度,无法区分不同类型的单调关系(如凸单调与凹单调),也无法拟合具体的函数形式。
第四,与所有相关系数一样,Spearman ρ不能推断因果关系。即使两个变量之间存在强秩相关,也并不意味着一个变量的变化导致另一个变量的变化。
扩展
Spearman秩相关系数可推广至偏秩相关(partial Spearman correlation),即在控制其他变量的条件下衡量两个变量秩次之间的偏相关。此外,在多变量分析中,可构建基于Spearman ρ的秩相关矩阵,用于聚类分析、主成分分析等多元统计方法。
在时间序列分析中,Spearman秩相关系数的滚动计算可用于动态监测变量间单调关系随时间的变化,这在金融市场的时变相关性建模中具有重要价值。