ARTICLE

相关系数

相关系数 (Correlation Coefficient) 相关系数 (Correlation Coefficient) 是统计学中用于度量两个或多个[[变量]]之间关系强度和方向的指标。它是一个标准化的数值，其范围在 -1 到 +1 之间。在不特别指明的情况下，相关系数通常指代皮尔逊积矩相关系数 (Pearson Product-Moment Corr

浏览 56 更新 2025-10-26

相关系数 (Correlation Coefficient)

相关系数 (Correlation Coefficient) 是统计学中用于度量两个或多个[[变量]]之间关系强度和方向的指标。它是一个标准化的数值，其范围在 -1 到 +1 之间。在不特别指明的情况下，相关系数通常指代 皮尔逊积矩相关系数 (Pearson Product-Moment Correlation Coefficient)，它衡量的是两个[[定量变量]]之间 线性关系 的强度。

相关系数是[[描述性统计]]和[[推断统计]]中的一个基础且至关重要的工具，广泛应用于经济学、金融学、社会科学和自然科学等领域，用于探索变量间的潜在联系，例如，研究广告支出与销售额之间的关系，或利率变化与股票市场回报率之间的关系。

[[皮尔逊积矩相关系数]]的计算

皮尔逊相关系数（通常用 $r$ 表示样本相关系数，用 $\rho$ (rho) 表示总体相关系数）的计算基于[[协方差]] (Covariance) 和[[标准差]] (Standard Deviation)。

概念公式

从概念上讲，相关系数是两个变量的协方差除以它们各自标准差的乘积。

r_{XY} = \frac{\text{Cov}(X, Y)}{\sigma_X \sigma_Y}

其中：

$\text{Cov}(X, Y)$ 是变量 $X$ 和 $Y$ 之间的[[协方差]]。协方差度量了两个变量协同变化的程度，其正负号表示了关系的方向，但其数值大小受到变量尺度的影响，难以直接比较。
$\sigma_X$ 和 $\sigma_Y$ 分别是变量 $X$ 和 $Y$ 的[[标准差]]，它们度量了各自数据的离散程度。

通过将协方差除以标准差的乘积，我们实际上是在进行“标准化”处理，消除了变量自身尺度（单位）的影响，从而得到一个介于 -1 和 +1 之间的无量纲数。

计算公式

对于一个包含 $n$ 个成对观测值 $(x_1, y_1), (x_2, y_2), \dots, (x_n, y_n)$ 的样本，其样本相关系数 $r$ 的计算公式为：

r = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2} \sqrt{\sum_{i=1}^{n} (y_i - \bar{y})^2}}

其中：

$n$ 是样本中的观测对数量。
$x_i, y_i$ 是第 $i$ 个观测对的值。
$\bar{x}, \bar{y}$ 分别是变量 $X$ 和 $Y$ 的[[样本均值]]。

这个公式的分子部分是 $X$ 和 $Y$ 离差乘积的和。如果多数数据点都落在均值线的同一象限（即 $x_i$ 和 $y_i$ 都大于或都小于其均值），乘积为正，累加后得到正相关。反之，如果落在不同象限，则得到负相关。分母部分则起到标准化的作用。

重要属性与注意事项

[[相关不蕴含因果]] (Correlation Does Not Imply Causation)

这是关于相关系数最重要的警示。即使两个变量之间存在很强的相关性，也不能断定一个变量是导致另一个变量变化的原因。这种相关性可能由以下情况导致：

潜变量 (Lurking Variable) 或 [[混淆变量]] (Confounding Variable): 一个未被观测的第三个变量同时影响着这两个被观测的变量。例如，冰淇淋销量与溺水死亡人数呈正相关，但这并非因为吃冰淇淋导致溺水，而是因为炎热的夏季（潜变量）同时促进了冰淇淋消费和游泳活动。
巧合 (Coincidence): 在数据量庞大的世界里，纯粹的随机巧合也可能使两个毫不相干的变量表现出相关性。
反向因果关系 (Reverse Causality): 关系的方向可能与直觉相反。

只衡量线性关系 (Linearity)

皮尔逊相关系数只对线性关系敏感。如果两个变量之间存在很强的非线性关系（例如 U 型或指数关系）， $r$ 值可能很接近 0，从而错误地得出“无关系”的结论。因此，在计算 $r$ 之前绘制[[散点图]]至关重要。

对[[异常值]]敏感 (Sensitivity to Outliers)

相关系数的计算涉及到每个数据点，因此它对异常值非常敏感。一个或几个极端值可能会极大地改变 $r$ 的值，甚至改变其正负号。