ARTICLE
样本相关系数
样本相关系数 (Sample Correlation Coefficient) 样本相关系数 (Sample Correlation Coefficient) 是统计学中用于度量两个随机变量之间线性关系强度和方向的统计量,通常记为 r。它是由卡尔·皮尔逊(Karl Pearson)在弗朗西斯·高尔顿(Francis Galton)工作的基础上提出的,故又称皮
样本相关系数 (Sample Correlation Coefficient)
样本相关系数 (Sample Correlation Coefficient) 是统计学中用于度量两个随机变量之间线性关系强度和方向的统计量,通常记为 r。它是由卡尔·皮尔逊(Karl Pearson)在弗朗西斯·高尔顿(Francis Galton)工作的基础上提出的,故又称皮尔逊积矩相关系数(Pearson Product-Moment Correlation Coefficient)。样本相关系数的取值范围为 [-1, 1],其中 1 表示完全正线性相关,-1 表示完全负线性相关,0 表示无线性相关。
定义与数学表达式
给定一组成对观测数据 ,样本相关系数 r 的定义为:
其中 和 分别为 x 和 y 的样本均值。分子是 x 与 y 的样本协方差(Sample Covariance)的 n 倍,分母是各自样本标准差之积的 n 倍。因此,样本相关系数本质上是标准化后的协方差,这使得它成为一个无量纲的纯数值,不受变量度量单位的影响。
统计性质
样本相关系数 r 具有以下重要性质:
- 有界性:。这可由柯西-施瓦茨不等式(Cauchy-Schwarz Inequality)严格证明。当且仅当所有样本点严格位于一条直线上时,等号成立。
- 对称性:r 关于 x 和 y 是对称的,即 x 与 y 的相关系数等于 y 与 x 的相关系数。
- 尺度不变性:对变量进行线性变换 (其中 )时,相关系数的绝对值保持不变:。
- 对异常值敏感:样本相关系数对异常值(Outliers)非常敏感,单个极端值可能大幅改变 r 的数值,甚至改变其符号。
假设检验与推断
在实际应用中,通常需要检验总体相关系数 是否为零(即两变量是否线性无关)。常用的检验方法如下:
- t 检验:在原假设 下,构造统计量:
该统计量服从自由度为 的t分布。若计算出的 p 值小于显著性水平,则拒绝原假设,认为两变量之间存在显著的线性相关。
- Fisher z 变换:对于关于 的假设检验或构建置信区间,需使用 Fisher z 变换:
近似服从均值为 、方差为 的正态分布。这一变换在构建置信区间和比较两个独立相关系数时尤为有用。
应用场景
样本相关系数在众多领域有着广泛应用:在金融学中用于度量不同资产收益率之间的相关性,是投资组合理论(Portfolio Theory)和风险管理的基础;在计量经济学中用于多重共线性(Multicollinearity)的诊断;在生物学和医学中用于分析变量之间的关联程度;在机器学习中用于特征选择(Feature Selection)和聚类分析(Cluster Analysis)。
注意事项与局限性
使用样本相关系数时需注意:第一,r 仅度量线性关系,不能检测非线性相关性;第二,相关并不意味着因果关系(Causation),高相关可能是由于第三变量(Confounding Variable)所致;第三,在异方差(Heteroscedasticity)存在时,r 的解释力会下降;第四,当样本量很小时,r 的估计值不够稳定。替代方案包括斯皮尔曼等级相关系数(Spearman's Rank Correlation Coefficient)和肯德尔等级相关系数(Kendall's Tau),它们对非线性和异常值更为稳健。