ARTICLE
皮尔逊相关系数
皮尔逊相关系数 (Pearson Correlation Coefficient) 皮尔逊相关系数(Pearson Correlation Coefficient,简称 PPMCC)是统计学中度量两个连续变量之间线性关系强度与方向的核心指标,值域为 [-1, 1]。总体相关系数以 表示,样本相关系数以 r 或 r_xy 表示。 r = +1:完美正线性关系,
浏览 101
更新 2025-10-26
皮尔逊相关系数 (Pearson Correlation Coefficient)
皮尔逊相关系数(Pearson Correlation Coefficient,简称 PPMCC)是统计学中度量两个连续变量之间线性关系强度与方向的核心指标,值域为 。总体相关系数以 表示,样本相关系数以 或 表示。
- :完美正线性关系,两变量同向等比例变化。
- :完美负线性关系,两变量反向等比例变化。
- :无线性关系,但不排除非线性关联。
定义与计算
皮尔逊相关系数是两变量协方差除以其标准差之积,即对协方差做标准化以消除量纲影响。
总体定义式:
样本计算公式( 对观测值 ):
其中 为样本均值。分子是偏差乘积之和,反映协同变化趋势——若 同时大于或小于各自均值,乘积为正;反向则乘积为负。分母为标准差的等价形式,将分子标准化至 。
使用前提
为保障有效性与假设检验的可靠性,需满足:
- 变量类型:两变量均为连续变量(等距或等比量表)。
- 线性关系:变量间须存在线性关系,建议先绘制散点图检查,否则 可能误导(如接近 0 的强曲线关系)。
- 正态性:严格假设为双变量正态分布,但大样本()下可依中心极限定理放宽。
- 无极端异常值:皮尔逊相关系数对异常值极敏感,少数极端点即可严重扭曲结果。
几何解释
将中心化后的数据视为 维向量 与 ,则 等于两向量夹角 的余弦:
当 ,(同向完美正相关);,(正交、线性无关);,(反向完美负相关)。这一几何视角将相关性直观化为向量方向的接近程度。
核心注意事项
相关不等于因果
这是统计学最重要的警示。强相关不意味因果关系,可能源于:
- 潜变量:未被观测的第三变量同时驱动两者。如冰淇淋销量与溺水人数正相关,共同原因为炎热天气。
- 反向因果:因果方向与直觉相反。
- 随机巧合:小样本或大量变量中纯因偶然出现显著相关。
强度判读
经验参考(不同学科标准有别):
- :非常强相关
- :强相关
- :中等相关
- :弱相关
- :极弱或可忽略
物理学中 0.8 可能算弱相关,社会科学中则可能为强相关——解读须结合领域惯例。
应用领域
相关概念
- 决定系数 :在简单线性回归中表示因变量变异被自变量解释的比例。 意味 的变异可由线性关系说明。
- 斯皮尔曼等级相关系数:非参数替代方案,计算等级而非原值间的皮尔逊相关,适用于有序数据或单调非线性关系。
皮尔逊相关系数是量化线性关联的首选工具,但其有效性高度依赖前提假设的满足。实践中应始终结合散点图可视化与领域知识综合判断,避免机械套用阈值或轻率推断因果。