ARTICLE

皮尔逊积矩相关系数

皮尔逊积矩相关系数皮尔逊积矩相关系数（Pearson product-moment correlation coefficient）→Karl Pearson自Francis Galton1880s相关思想发展→为最常用度两连续变量间线性相关强弱与方向之统计量→记作r（样本）或（总体）。值域[-1,1]：1为完全正相关，0为无线性相关，-1为完全负相关。

浏览 3 更新 2025-10-26

皮尔逊积矩相关系数

皮尔逊积矩相关系数（Pearson product-moment correlation coefficient）→Karl Pearson自Francis Galton1880s相关思想发展→为最常用度两连续变量间线性相关强弱与方向之统计量→记作 $r$ （样本）或 $\rho$ （总体）。值域 $[-1,1]$ ：1为完全正相关，0为无线性相关，-1为完全负相关。定义为协方差除以标准差之积：

r_{xy} = \frac{\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})} {\sqrt{\sum_{i=1}^n (x_i-\bar{x})^2 \sum_{i=1}^n (y_i-\bar{y})^2}}

此式等价于标准化后之协方差，故为无量纲量，不受变量单位变化影响。

几何意义与代数性质

几何解释：将数据中心化后， $x$ 与 $y$ 视作向量，则 $r = \cos\theta$ ，其中 $\theta$ 为二向量间夹角。 $r=1$ 对应 $\theta=0^\circ$ 方向一致； $r=-1$ 对应 $\theta=180^\circ$ 方向相反； $r=0$ 对应 $\theta=90^\circ$ 正交。故皮尔逊相关系数本质为余弦相似度在中心化后之特例，内蕴于内积空间结构。

代数性质：①对称性： $r_{xy}=r_{yx}$ 。②平移与尺度不变： $r_{aX+b,cY+d}=r_{XY}$ （当 $a,c>0$ ）；若 $a,c$ 异号则符号反转。③有界性： $|r|\le 1$ ，等号成立⇔存在完美线性关系 $Y=aX+b$ 。④不隐含因果关系：高相关系数不意味着变量间存在因果关系，虚假相关可因混杂变量或共同原因而产生。

使用前提与假设

线性假设：皮尔逊相关系数仅度量线性关系强度。若关系为曲线（如 $Y=X^2$ ）， $r$ 可能接近0，但两变量仍高度相关（非线性）。故用前必作散点图检查。

变量类型：适用于连续数值变量；对顺序变量（如排名、Likert量表）应改用Spearman秩相关系数。数据应近似正态分布，尤其在假设检验时；但大样本下因中心极限定理可容忍一定偏离。

离群值敏感：单个极端离群值可大幅扭曲相关系数。因计算基于最小二乘思想（涉及平方项），故对离群值极为敏感。实用中应同时报告稳健相关估计（如Spearman相关或Kendall's Tau）作为对照。

方差齐性与同质性：异方差结构（方差随变量水平变化）可扭曲相关系数估计。样本应来自同质总体；若合并两个不同子群体，可能出现Simpson悖论——总体符号与各子组相反。

统计推断

总体相关系数为零检验： $H_0: \rho = 0, H_1: \rho \neq 0$ 。检验统计量为 $t = r \sqrt{\frac{n-2}{1-r^2}}$ ，在 $H_0$ 下服从 $t_{n-2}$ 分布。此检验在样本量较大时极易拒绝，因此极小的 $r$ （如0.05）在 $n=1000$ 时也可能显著——研究者应关注效应量而非仅p值。

总体相关系数为非零值检验： $H_0: \rho = \rho_0$ 。使用Fisher Z-变换： $z = \frac{1}{2}\ln\frac{1+r}{1-r}$ ，渐近服从正态分布 $N(\frac{1}{2}\ln\frac{1+\rho}{1-\rho}, \frac{1}{n-3})$ 。此变换也用于构建置信区间：先将r变换为z，计算z的CI，再反变换回r尺度。置信区间较单点估计提供更丰富信息，反映估计精度。

效应量解释：Cohen（1988）建议： $|r|=0.1$ 为小效应， $0.3$ 为中等， $0.5$ 及以上为大效应。但此准则具领域依赖性：心理学研究中 $r=0.3$ 已属中上水平，而物理学中常见 $r>0.99$ 。实际报告应结合领域背景进行解释。

经典陷阱与警示

相关不等于因果：此乃统计学第一诫命。经典示例：冰淇淋销量与溺水人数正相关⇒真实原因（混杂因素）为气温——天热时人们既多吃冰激凌也更多游泳。流行病学中更严重：吸烟与肺癌相关经半个世纪辩论才被确认为因果。因果推断需借助随机对照试验、工具变量、断点回归等专门方法。

Anscombe四重奏：Frank Anscombe1973年构造四组 $(x,y)$ 数据，具有相同 $\bar{x}=9.0, \bar{y}=7.5, r=0.816$ 及相同回归线 $y=3+0.5x$ 。然而四组数据形态迥异：一组为线性加噪声，一组呈抛物线，一组含单个离群值，一组为垂直线加一个孤立点。此经典演示说明：数值统计量不可替代图形诊断——每次计算相关系数前必须查看散点图。

范围限制：仅使用变量部分取值区间时（如仅研究高收入群体），真实相关性可能被低估。这在心理学（仅用临床样本）、经济学（截断数据）中常见。

计算与软件实现

与其他相关系数之关系

Spearman秩相关系数：将原始数据替换为秩次后计算皮尔逊相关系数，度单调关系而非线性关系，对离群值更稳健。Kendall's Tau：基于一致对与不一致对计数，更适合小样本及含大量同序值（ties）情形。点二列相关系数：一个二分变量（0/1）与一个连续变量间的皮尔逊相关。\phi系数：两个二分变量间的皮尔逊相关。可见皮尔逊积矩相关系数是一个更广义框架的特例，许多其他相关系数可通过数据变换归结为其计算形式。

历史与应用

Karl Pearson于1896年论文《Regression, Heredity and Panmixia》中正式提出此系数。其思想源头可追溯至Galton对遗传学中亲子代特征相似性的研究。Pearson作为生物统计学派核心人物，将相关系数与回归分析、卡方检验等工具共同奠基现代数理统计。

今日，皮尔逊相关系数已渗透几乎所有数据科学领域：基因组学中用基因共表达网络分析、金融学中资产组合风险度量、机器学习中特征选择（过滤低相关特征）、社会科学中问卷信度评估、信号处理中互相关分析等。其简洁直观与强大解释力使之成为统计工具箱中最核心的工具之一。

总结：皮尔逊积矩相关系数为统计中最基础且最常用的效应量之一。正确使用需满足线性、近似正态、无离群值等前提，并结合图形诊断和领域知识进行解释。须知相关≠因果，样本相关≠总体相关，数值摘要≠数据全貌。只有在充分理解其假设与局限的基础上，才能发挥这一经典工具的真正价值。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。

皮尔逊积矩相关系数