ARTICLE

Pearson相关系数

Pearson相关系数 (Pearson Correlation Coefficient) Pearson相关系数,又称积矩相关系数(Product-Moment Correlation Coefficient),由英国统计学家卡尔·皮尔逊(Karl Pearson)于1895年在弗朗西斯·高尔顿关于遗传回归的研究基础上正式提出,是统计学中衡量两个连续变量之

浏览 6 更新 2025-10-26

Pearson相关系数 (Pearson Correlation Coefficient)

Pearson相关系数,又称积矩相关系数(Product-Moment Correlation Coefficient),由英国统计学家卡尔·皮尔逊(Karl Pearson)于1895年在弗朗西斯·高尔顿关于遗传回归的研究基础上正式提出,是统计学中衡量两个连续变量之间线性相关程度与方向的最经典且最广泛使用的指标。其总体参数记为 ρ\rho(希腊字母rho),样本统计量记为 rr。Pearson相关系数本质上是对协方差的标准化处理,通过除以两变量标准差的乘积消除了量纲对相关性度量的影响,使其取值始终落在闭区间 [1,1][-1, 1] 之内。这一标准化特性赋予了Pearson相关系数在不同数据集和不同变量组合之间的可比性,是其在实证社会科学、生物统计学、金融计量以及机器学习特征筛选中长盛不衰的根本原因。

历史渊源

Pearson相关系数的思想萌芽可追溯至19世纪后半叶弗朗西斯·高尔顿对遗传现象的研究。高尔顿在分析父母身高与子女身高的关系时首次引入"回归"(regression)概念,观察到两组数据倾向于向均值回归。1895年,皮尔逊以高尔顿的散点图为出发点,严格推导出积矩相关系数的数学形式,并将其纳入自创的生物统计学体系中。此后,相关系数成为多元统计分析的基石——从主成分分析因子分析、从典型相关分析到各种回归诊断,无不依赖于对相关矩阵的估计与分解。

定义与公式

(X,Y)(X, Y) 为二元随机变量,期望分别为 μX\mu_XμY\mu_Y,标准差分别为 σX\sigma_XσY\sigma_Y。总体Pearson相关系数定义为协方差与两标准差的比值:

ρXY=Cov(X,Y)σXσY=E[(XμX)(YμY)]E[(XμX)2]E[(YμY)2]\rho_{XY} = \frac{\operatorname{Cov}(X, Y)}{\sigma_X \sigma_Y} = \frac{\mathbb{E}[(X - \mu_X)(Y - \mu_Y)]} {\sqrt{\mathbb{E}[(X - \mu_X)^2]} \cdot \sqrt{\mathbb{E}[(Y - \mu_Y)^2]}}

给定 nn 对独立同分布的样本观测值 (x1,y1),(x2,y2),,(xn,yn)(x_1, y_1), (x_2, y_2), \dots, (x_n, y_n),样本Pearson相关系数 rr 由离差乘积和与平方和的几何平均给出:

r=SxySxxSyy=i=1n(xixˉ)(yiyˉ)i=1n(xixˉ)2i=1n(yiyˉ)2r = \frac{S_{xy}}{\sqrt{S_{xx} \cdot S_{yy}}} = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})} {\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2} \cdot \sqrt{\sum_{i=1}^{n} (y_i - \bar{y})^2}}

其中 xˉ=1ni=1nxi\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_iyˉ\bar{y} 同理。该公式也常写作如下等效形式以便于手工计算:

r=nxiyi(xi)(yi)nxi2(xi)2nyi2(yi)2r = \frac{n\sum x_i y_i - (\sum x_i)(\sum y_i)} {\sqrt{n\sum x_i^2 - (\sum x_i)^2} \cdot \sqrt{n\sum y_i^2 - (\sum y_i)^2}}

从几何视角审视,rr 等于将 xxyy 各自中心化并标准化为单位长度向量后两者的内积——即标准化数据向量夹角的余弦值:r=cosθr = \cos\thetar=1r = 1 意味着两向量完全同向,r=1r = -1 则是完全反向,r=0r = 0 表示正交(线性无关)。

核心性质

Pearson相关系数具备以下关键数学性质:

第一,对称性rXY=rYXr_{XY} = r_{YX},相关系数不区分自变量与因变量的角色,反映的是双向线性关联强度。

第二,有界性:由柯西-施瓦茨不等式直接保证 1ρ1-1 \leq \rho \leq 1。取值的绝对大小表征线性强度,符号表征方向。

第三,线性变换不变性:对变量分别实施线性变换 X=aX+bX' = aX + bY=cY+dY' = cY + d,只要 aacc 同号,则 rXY=rXYr_{X'Y'} = r_{XY}。若 aacc 异号,相关系数仅改变符号。换言之,对原始数据的任何正值线性缩放与平移都不会改变 rr 的大小。

第四,线性充分性r=1|r| = 1 的充要条件是所有观测点恰好落在一条直线上,即存在常数 a0a \neq 0bb 使 Y=aX+bY = aX + b 确定性地成立。

第五,与回归的直接关联:在简单线性回归 Y=β0+β1X+εY = \beta_0 + \beta_1 X + \varepsilon 中,斜率 β^1=rsysx\hat{\beta}_1 = r \cdot \frac{s_y}{s_x},其中 sx,sys_x, s_y 为样本标准差。因此 rr 的符号与回归斜率的符号一致,且 r=0r = 0 等价于回归斜率为零。

第六,决定系数r2r^2 称为决定系数(Coefficient of Determination),度量 YY 的总变异中被 XX 线性解释的比例。例如 r=0.6r = 0.6,则 r2=0.36r^2 = 0.36,意味着大约 36\% 的 YY 变异可归因于 XX 的线性效应,剩余 64\% 源于其他因素与随机误差。

假设检验与推断

对样本相关系数进行统计推断时,最常见的是检验原假设 H0:ρ=0H_0: \rho = 0(即总体中无线性相关)。在 (X,Y)(X, Y) 服从二元正态分布且 H0H_0 成立的条件下,检验统计量为:

t=rn21r2t(n2)t = \frac{r \sqrt{n - 2}}{\sqrt{1 - r^2}} \sim t(n - 2)

若双侧检验的 pp 值小于显著性水平 α\alpha,则拒绝 H0H_0。该检验在样本量较小时功效有限——例如 n=5n = 5 时需 r0.805|r| \gtrapprox 0.805 才能在 α=0.05\alpha = 0.05 水平拒绝无相关的原假设。

当原假设为非零值 H0:ρ=ρ00H_0: \rho = \rho_0 \neq 0 时,rr 的抽样分布不对称且边界受限,此时需使用费希尔变换(Fisher's zz-transformation):

z=12ln ⁣(1+r1r)=artanh(r)z = \frac{1}{2} \ln\!\left(\frac{1 + r}{1 - r}\right) = \operatorname{artanh}(r)

zz 近似服从正态分布:

zapproxN ⁣(12ln ⁣1+ρ1ρ, 1n3)z \xrightarrow{\text{approx}} N\!\left(\frac{1}{2} \ln\!\frac{1 + \rho}{1 - \rho},\ \frac{1}{n - 3}\right)

该近似在 nn 较小时即可接受,使研究者能够便捷地构造 ρ\rho 的置信区间,以及检验两个独立样本相关系数是否相等(H0:ρ1=ρ2H_0: \rho_1 = \rho_2)。在对比两组相关性时,构建如下 ZZ 统计量:

Z=z1z21n13+1n23N(0,1)Z = \frac{z_1 - z_2}{\sqrt{\frac{1}{n_1 - 3} + \frac{1}{n_2 - 3}}} \sim N(0, 1)

解释中的注意事项与常见陷阱

解释Pearson相关系数需高度警惕以下常见误区。

相关性不等于因果性rr 显著不为零仅意味着统计关联,不能推出因果方向。两变量可能共同受第三混杂变量驱动(如冰激凌销量与溺水死亡数因夏季高温而正相关),或因果方向相反。识别因果关系需借助随机对照试验工具变量断点回归等因果推断设计。

线性局限r0r \approx 0 并不意味着两变量独立,仅说明不存在线性关系。完美的二次函数关系 Y=X2Y = X^2XX 均值为零且对称分布)可产生 r0r \approx 0。因此分析散点图应是任何相关分析的必然前提。

异常值的杠杆效应:由于 rr 基于均值与平方和,它对极端值及高杠杆点极为敏感。单个位于散点图远端的观测值即可大幅扭曲 rr 的估计。建议在报告Pearson相关系数的同时辅以散点图与稳健性检查。

辛普森悖论:数据被分组后在汇总层面计算出的相关系数,可能与各组内分别计算的相关系数符号相反。当分组变量(如性别、学校)与 XXYY 均相关时,汇聚偏差可能导致严重误判。

范围限制:若样本中 XX 的取值范围被人为截断(如只研究高收入人群的收入-消费关系),rr 通常会被低估。信度衰减校正公式可在测量变量存在随机误差时提供修正。

与Spearman秩相关系数的比较

Spearman秩相关系数 rsr_s 相比,Pearson的 rr 度量的是严格的线性共变,而Spearman度量的是单调共变。Spearman将原始数据替换为各自的秩次后计算Pearson公式,因此对异常值和偏态分布具有天然稳健性。两者的选择建议如下:

  • 若变量为连续型、近似正态且无严重异常值,Pearson是首选,因其效率更高且直接对应回归系数。
  • 若变量为定序(ordinal)尺度,或存在明显非线性但单调的趋势(如对数增长或幂律关系),Spearman更合适。
  • 若数据中存在离群点且不希望轻易删除,宜使用Spearman或同时报告两者以相互印证。
  • 在金融风险管理和精算领域,Spearman和Kendall秩相关系数(τ)常用于尾部依赖性建模,Pearson则主要用于资产收益率分析等近似正态场景。

实践中,同时报告两种系数并附上各自置信区间是透明且可靠的做法,能够帮助读者从线性与单调两个维度全面理解两变量的关联结构。