ARTICLE

线性相关系数

线性相关系数 (Linear Correlation Coefficient) 线性相关系数（Linear Correlation Coefficient），在统计学中通常指皮尔逊积矩相关系数（Pearson Product-Moment Correlation Coefficient，简称公式），是测量两个随机变量之间线性关系强度与方向的标准化指标。其

浏览 0 更新 2025-10-26

线性相关系数 (Linear Correlation Coefficient)

线性相关系数（Linear Correlation Coefficient），在统计学中通常指皮尔逊积矩相关系数（Pearson Product-Moment Correlation Coefficient，简称 $r$ ），是测量两个随机变量之间线性关系强度与方向的标准化指标。其值域为 $[-1, 1]$ ， $+1$ 表示完全正线性相关， $-1$ 表示完全负线性相关， $0$ 表示不存在线性相关性。该系数由卡尔·皮尔逊（Karl Pearson）在弗朗西斯·高尔顿（Francis Galton）关于回归与相关的研究基础上于 1896 年正式提出，成为现代统计学中应用最广泛的关联度量之一。

定义与数学表述

总体相关系数

设两个随机变量 $X$ 与 $Y$ 的期望分别为 $\mu_X$ 与 $\mu_Y$ ，标准差分别为 $\sigma_X$ 与 $\sigma_Y$ ，则总体皮尔逊相关系数定义为：

\rho_{X,Y} = \frac{\operatorname{Cov}(X, Y)}{\sigma_X \sigma_Y} = \frac{\mathbb{E}[(X - \mu_X)(Y - \mu_Y)]}{\sigma_X \sigma_Y}

其中 $\operatorname{Cov}(X, Y)$ 为 $X$ 与 $Y$ 的协方差。相关系数本质上是对协方差的标准化处理：协方差虽能反映方向（正或负），但其大小受变量量纲影响，无法在不同变量之间比较；通过除以两个标准差的乘积，相关系数变成了无量纲的纯数，具有了统一的可比尺度。

样本相关系数

在实际应用中，我们通常只有观测样本而无从得知总体参数。给定 $n$ 对样本观测值 $\{(x_1, y_1), (x_2, y_2), \ldots, (x_n, y_n)\}$ ，样本相关系数 $r$ 的计算公式为：

r = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2} \sqrt{\sum_{i=1}^{n} (y_i - \bar{y})^2}}

其中 $\bar{x}$ 与 $\bar{y}$ 分别为样本均值。一个更便于计算的等价形式为：

r = \frac{n\sum x_i y_i - (\sum x_i)(\sum y_i)}{\sqrt{n\sum x_i^2 - (\sum x_i)^2} \sqrt{n\sum y_i^2 - (\sum y_i)^2}}

样本相关系数 $r$ 是总体相关系数 $\rho$ 的一致估计量（Consistent Estimator），随着样本量增大， $r$ 依概率收敛于 $\rho$ 。

几何解释

相关系数 $r$ 具有深刻的几何含义。将 $n$ 次观测视为 $\mathbb{R}^n$ 空间中的两个向量 $\mathbf{x} = (x_1 - \bar{x}, \ldots, x_n - \bar{x})$ 和 $\mathbf{y} = (y_1 - \bar{y}, \ldots, y_n - \bar{y})$ ，则 $r$ 恰好等于这两个中心化向量之间夹角的余弦值：

r = \cos \theta = \frac{\mathbf{x} \cdot \mathbf{y}}{\|\mathbf{x}\| \|\mathbf{y}\|}

当 $\theta = 0$ 时， $r = 1$ ，两个向量方向完全一致（完全正相关）；当 $\theta = \pi$ 时， $r = -1$ ，方向完全相反（完全负相关）；当 $\theta = \pi/2$ 时， $r = 0$ ，两向量正交（无线性相关）。这一几何框架将相关分析纳入线性代数和向量空间的视角，简洁而优雅。

统计性质

数学性质

皮尔逊相关系数满足以下基本性质：

对称性： $\rho_{X,Y} = \rho_{Y,X}$ 。
标准化： $|\rho| \leq 1$ ，等号成立当且仅当 $Y = aX + b$ 几乎必然成立（即 $X$ 与 $Y$ 存在严格线性关系）。
线性变换不变性：对任意常数 $a, b, c, d$ （ $a, c \neq 0$ ），有 $\rho_{aX+b, cY+d} = \operatorname{sgn}(ac) \cdot \rho_{X,Y}$ 。即线性变换会保留相关系数的绝对值，仅可能改变正负号。
与边际分布无关：相关系数仅描述联合分布中两个变量的线性联动关系，不受单一变量分布形态的影响。

抽样分布

当总体 $\rho = 0$ 且数据服从二元正态分布时，检验统计量 $t = r\sqrt{\frac{n-2}{1-r^2}}$ 服从自由度为 $n-2$ 的 $t$ 分布，这是对零假设 $H_0: \rho = 0$ 进行显著性检验的理论基础。

当 $\rho \neq 0$ 时， $r$ 的抽样分布是偏斜的。为构造置信区间，费希尔（R. A. Fisher）提出了费希尔 $z$ 变换（Fisher $z$ -transformation）： $z = \frac{1}{2}\ln\frac{1+r}{1-r} = \operatorname{arctanh}(r)$ 。 $z$ 的抽样分布近似正态分布，均值为 $\frac{1}{2}\ln\frac{1+\rho}{1-\rho}$ ，方差为 $1/(n-3)$ 。这一变换使得相关系数的区间估计和假设检验更加便利。

局限性

仅度量线性关系

皮尔逊相关系数最大的局限在于它只能捕捉线性关系。一个典型的反例是：当 $Y = X^2$ 且 $X$ 在 $[-1, 1]$ 上对称分布时，理论上有 $\rho = 0$ ，但 $X$ 与 $Y$ 存在完美的非线性函数关系。这表明 $r=0$ 并不能推论"无关联"，只能推论"无线性关联"。对于非线性模式，应考虑斯皮尔曼等级相关系数（Spearman's Rank Correlation）或肯德尔秩相关系数（Kendall's Tau）等不依赖于线性假设的关联度量。

对异常值高度敏感

单个极端值（outlier）就可能大幅扭曲相关系数的数值：一个偏离数据主体趋势的异常点，可以使 $r$ 从 $0.9$ 骤降至 $0.2$ ，或从 $0.1$ 飙升至 $0.7$ 。因此在计算相关系数之前，数据清理与可视化检查（如散点图）是必不可少的前置步骤。

异质性群体中的辛普森悖论

当数据来自两个或多个具有不同 $\rho$ 的子群体时，合并后计算的整体相关系数可能严重偏离各子群体的真实关系，甚至出现符号反转——此即辛普森悖论（Simpson's Paradox）在相关分析中的体现。恰当的应对策略是在分组后分别计算相关系数，并结合协方差分析（ANCOVA）进行判断。

线性相关系数