ARTICLE

皮尔逊相关系数

皮尔逊相关系数 (Pearson Correlation Coefficient) 皮尔逊相关系数(Pearson Correlation Coefficient,简称 PPMCC)是统计学中度量两个连续变量之间线性关系强度与方向的核心指标,值域为 [-1, 1]。总体相关系数以 表示,样本相关系数以 r 或 r_xy 表示。 r = +1:完美正线性关系,

浏览 101 更新 2025-10-26

皮尔逊相关系数 (Pearson Correlation Coefficient)

皮尔逊相关系数(Pearson Correlation Coefficient,简称 PPMCC)是统计学中度量两个连续变量之间线性关系强度与方向的核心指标,值域为 [1,1][-1, 1]。总体相关系数以 ρ\rho 表示,样本相关系数以 rrrxyr_{xy} 表示。

  • r=+1r = +1:完美正线性关系,两变量同向等比例变化。
  • r=1r = -1:完美负线性关系,两变量反向等比例变化。
  • r=0r = 0:无线性关系,但不排除非线性关联。

定义与计算

皮尔逊相关系数是两变量协方差除以其标准差之积,即对协方差做标准化以消除量纲影响。

总体定义式:

ρX,Y=Cov(X,Y)σXσY\rho_{X,Y} = \frac{\text{Cov}(X,Y)}{\sigma_X \sigma_Y}

样本计算公式(nn 对观测值 (xi,yi)(x_i, y_i)):

r=i=1n(xixˉ)(yiyˉ)i=1n(xixˉ)2i=1n(yiyˉ)2r = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2} \sqrt{\sum_{i=1}^{n} (y_i - \bar{y})^2}}

其中 xˉ,yˉ\bar{x}, \bar{y} 为样本均值。分子是偏差乘积之和,反映协同变化趋势——若 xi,yix_i, y_i 同时大于或小于各自均值,乘积为正;反向则乘积为负。分母为标准差的等价形式,将分子标准化至 [1,1][-1, 1]

使用前提

为保障有效性与假设检验的可靠性,需满足:

  1. 变量类型:两变量均为连续变量(等距或等比量表)。
  2. 线性关系:变量间须存在线性关系,建议先绘制散点图检查,否则 rr 可能误导(如接近 0 的强曲线关系)。
  3. 正态性:严格假设为双变量正态分布,但大样本(n>30n > 30)下可依中心极限定理放宽。
  4. 无极端异常值:皮尔逊相关系数对异常值极敏感,少数极端点即可严重扭曲结果。

几何解释

将中心化后的数据视为 nn 维向量 a\vec{a}b\vec{b},则 rr 等于两向量夹角 θ\theta 的余弦:

r=cosθ=ababr = \cos\theta = \frac{\vec{a} \cdot \vec{b}}{\|\vec{a}\| \|\vec{b}\|}

θ=0\theta = 0^\circr=1r=1(同向完美正相关);θ=90\theta = 90^\circr=0r=0(正交、线性无关);θ=180\theta = 180^\circr=1r=-1(反向完美负相关)。这一几何视角将相关性直观化为向量方向的接近程度。

核心注意事项

相关不等于因果

这是统计学最重要的警示。强相关不意味因果关系,可能源于:

  • 潜变量:未被观测的第三变量同时驱动两者。如冰淇淋销量与溺水人数正相关,共同原因为炎热天气。
  • 反向因果:因果方向与直觉相反。
  • 随机巧合:小样本或大量变量中纯因偶然出现显著相关。

强度判读

经验参考(不同学科标准有别):

  • r0.90|r| \ge 0.90:非常强相关
  • 0.70r<0.900.70 \le |r| < 0.90:强相关
  • 0.40r<0.700.40 \le |r| < 0.70:中等相关
  • 0.10r<0.400.10 \le |r| < 0.40:弱相关
  • r<0.10|r| < 0.10:极弱或可忽略

物理学中 0.8 可能算弱相关,社会科学中则可能为强相关——解读须结合领域惯例。

应用领域

  • 金融与经济现代投资组合理论的基石。低相关或负相关资产组合可分散风险,降低组合波动率。
  • 社会科学:收入与教育年限、失业率与犯罪率等变量关联分析。
  • 医学研究:血压与体重、药物剂量与疗效间的线性关系评估。

相关概念

皮尔逊相关系数是量化线性关联的首选工具,但其有效性高度依赖前提假设的满足。实践中应始终结合散点图可视化与领域知识综合判断,避免机械套用阈值或轻率推断因果。