ARTICLE

皮尔逊积矩相关系数

皮尔逊积矩相关系数 皮尔逊积矩相关系数(Pearson product-moment correlation coefficient)→Karl Pearson自Francis Galton1880s相关思想发展→为最常用度两连续变量间线性相关强弱与方向之统计量→记作r(样本)或 (总体)。值域[-1,1]:1为完全正相关,0为无线性相关,-1为完全负相关。

浏览 3 更新 2025-10-26

皮尔逊积矩相关系数

皮尔逊积矩相关系数(Pearson product-moment correlation coefficient)→Karl PearsonFrancis Galton1880s相关思想发展→为最常用度两连续变量线性相关强弱与方向之统计量→记作rr(样本)或ρ\rho(总体)。值域[1,1][-1,1]:1为完全正相关,0为无线性相关,-1为完全负相关。定义为协方差除以标准差之积:

rxy=i=1n(xixˉ)(yiyˉ)i=1n(xixˉ)2i=1n(yiyˉ)2r_{xy} = \frac{\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})} {\sqrt{\sum_{i=1}^n (x_i-\bar{x})^2 \sum_{i=1}^n (y_i-\bar{y})^2}}

此式等价于标准化后之协方差,故为无量纲量,不受变量单位变化影响。

几何意义与代数性质

几何解释:将数据中心化后,xxyy视作向量,则r=cosθr = \cos\theta,其中θ\theta为二向量间夹角。r=1r=1对应θ=0\theta=0^\circ方向一致;r=1r=-1对应θ=180\theta=180^\circ方向相反;r=0r=0对应θ=90\theta=90^\circ正交。故皮尔逊相关系数本质为余弦相似度在中心化后之特例,内蕴于内积空间结构。

代数性质:①对称性:rxy=ryxr_{xy}=r_{yx}。②平移与尺度不变:raX+b,cY+d=rXYr_{aX+b,cY+d}=r_{XY}(当a,c>0a,c>0);若a,ca,c异号则符号反转。③有界性:r1|r|\le 1,等号成立⇔存在完美线性关系Y=aX+bY=aX+b。④不隐含因果关系:高相关系数不意味着变量间存在因果关系,虚假相关可因混杂变量共同原因而产生。

使用前提与假设

线性假设:皮尔逊相关系数仅度量线性关系强度。若关系为曲线(如Y=X2Y=X^2),rr可能接近0,但两变量仍高度相关(非线性)。故用前必作散点图检查。

变量类型:适用于连续数值变量;对顺序变量(如排名、Likert量表)应改用Spearman秩相关系数。数据应近似正态分布,尤其在假设检验时;但大样本下因中心极限定理可容忍一定偏离。

离群值敏感:单个极端离群值可大幅扭曲相关系数。因计算基于最小二乘思想(涉及平方项),故对离群值极为敏感。实用中应同时报告稳健相关估计(如Spearman相关Kendall's Tau)作为对照。

方差齐性与同质性异方差结构(方差随变量水平变化)可扭曲相关系数估计。样本应来自同质总体;若合并两个不同子群体,可能出现Simpson悖论——总体符号与各子组相反。

统计推断

总体相关系数为零检验H0:ρ=0,H1:ρ0H_0: \rho = 0, H_1: \rho \neq 0。检验统计量为 t=rn21r2t = r \sqrt{\frac{n-2}{1-r^2}},在H0H_0下服从tn2t_{n-2}分布。此检验在样本量较大时极易拒绝,因此极小的rr(如0.05)在n=1000n=1000时也可能显著——研究者应关注效应量而非仅p值。

总体相关系数为非零值检验H0:ρ=ρ0H_0: \rho = \rho_0。使用Fisher Z-变换z=12ln1+r1rz = \frac{1}{2}\ln\frac{1+r}{1-r},渐近服从正态分布N(12ln1+ρ1ρ,1n3)N(\frac{1}{2}\ln\frac{1+\rho}{1-\rho}, \frac{1}{n-3})。此变换也用于构建置信区间:先将r变换为z,计算z的CI,再反变换回r尺度。置信区间较单点估计提供更丰富信息,反映估计精度。

效应量解释Cohen(1988)建议:r=0.1|r|=0.1为小效应,0.30.3为中等,0.50.5及以上为大效应。但此准则具领域依赖性:心理学研究中r=0.3r=0.3已属中上水平,而物理学中常见r>0.99r>0.99。实际报告应结合领域背景进行解释。

相关矩阵与偏相关

多变量情境下,所有变量两两之间相关系数构成相关矩阵R=[rij]p×pR = [r_{ij}]_{p\times p}。此矩阵为对称半正定,是主成分分析因子分析结构方程模型多元统计方法的基础输入。

偏相关系数(partial correlation coefficient)度量在控制其他变量后两个变量之间的剩余相关。偏相关可用于识别虚假相关:例如,鞋码与阅读能力在儿童中呈现正相关,但控制年龄后相关消失——其原因为混杂变量(年龄)同时影响二者。偏相关系数可通过递归回归或相关矩阵求逆(逆矩阵元素经适当缩放)计算。

经典陷阱与警示

相关不等于因果:此乃统计学第一诫命。经典示例:冰淇淋销量与溺水人数正相关⇒真实原因(混杂因素)为气温——天热时人们既多吃冰激凌也更多游泳。流行病学中更严重:吸烟与肺癌相关经半个世纪辩论才被确认为因果。因果推断需借助随机对照试验工具变量断点回归等专门方法。

Anscombe四重奏Frank Anscombe1973年构造四组(x,y)(x,y)数据,具有相同xˉ=9.0,yˉ=7.5,r=0.816\bar{x}=9.0, \bar{y}=7.5, r=0.816及相同回归线y=3+0.5xy=3+0.5x。然而四组数据形态迥异:一组为线性加噪声,一组呈抛物线,一组含单个离群值,一组为垂直线加一个孤立点。此经典演示说明:数值统计量不可替代图形诊断——每次计算相关系数前必须查看散点图

范围限制:仅使用变量部分取值区间时(如仅研究高收入群体),真实相关性可能被低估。这在心理学(仅用临床样本)、经济学(截断数据)中常见。

计算与软件实现

现代统计软件均可高效计算:R用\verb|cor()|函数,Python用\verb|numpy.corrcoef()|或\verb|scipy.stats.pearsonr()|,Julia用\verb|cor()|,MATLAB用\verb|corrcoef()|,Stata用\verb|pwcorr|。所有实现均应注意缺失值处理:pairwise deletion(每对变量使用非缺失观测)保留最多信息但协方差矩阵可能非正定;listwise deletion(删除含任何缺失的整行)保证一致但损失样本量。

与其他相关系数之关系

Spearman秩相关系数:将原始数据替换为秩次后计算皮尔逊相关系数,度单调关系而非线性关系,对离群值更稳健。Kendall's Tau:基于一致对与不一致对计数,更适合小样本及含大量同序值(ties)情形。点二列相关系数:一个二分变量(0/1)与一个连续变量间的皮尔逊相关。\phi系数:两个二分变量间的皮尔逊相关。可见皮尔逊积矩相关系数是一个更广义框架的特例,许多其他相关系数可通过数据变换归结为其计算形式。

历史与应用

Karl Pearson于1896年论文《Regression, Heredity and Panmixia》中正式提出此系数。其思想源头可追溯至Galton对遗传学中亲子代特征相似性的研究。Pearson作为生物统计学派核心人物,将相关系数与回归分析卡方检验等工具共同奠基现代数理统计

今日,皮尔逊相关系数已渗透几乎所有数据科学领域:基因组学中用基因共表达网络分析、金融学资产组合风险度量、机器学习特征选择(过滤低相关特征)、社会科学问卷信度评估、信号处理互相关分析等。其简洁直观与强大解释力使之成为统计工具箱中最核心的工具之一。

总结:皮尔逊积矩相关系数为统计中最基础且最常用的效应量之一。正确使用需满足线性、近似正态、无离群值等前提,并结合图形诊断和领域知识进行解释。须知相关≠因果,样本相关≠总体相关,数值摘要≠数据全貌。只有在充分理解其假设与局限的基础上,才能发挥这一经典工具的真正价值。