ARTICLE

相关

相关 (Correlation) 相关(Correlation)是统计学和计量经济学中度量两个或多个变量之间线性关联程度与方向的核心概念。它回答了一个最基本的问题:当一个变量发生变化时,另一个变量是否倾向于随之变化,以及这种协同变化的强度如何。相关分析是探索数据结构的起点,也是回归分析和因果推断的基础。然而,社会科学和统计学中反复强调的一个根本性原则是:相关

浏览 6 更新 2025-10-26

相关 (Correlation)

相关(Correlation)是统计学和计量经济学中度量两个或多个变量之间线性关联程度与方向的核心概念。它回答了一个最基本的问题:当一个变量发生变化时,另一个变量是否倾向于随之变化,以及这种协同变化的强度如何。相关分析是探索数据结构的起点,也是回归分析和因果推断的基础。然而,社会科学和统计学中反复强调的一个根本性原则是:相关关系并不意味着因果关系(Correlation does not imply causation)——这是从观察到决策的桥梁上必须悬挂的警示牌。

皮尔逊相关系数

最广泛使用的相关性度量是皮尔逊相关系数(Pearson Correlation Coefficient),由卡尔·皮尔逊(Karl Pearson)在弗朗西斯·高尔顿(Francis Galton)的工作基础上于19世纪末正式提出。对于两个随机变量 XXYY,总体皮尔逊相关系数定义为它们的协方差与各自标准差乘积之比:

ρXY=Cov(X,Y)σXσY=E[(XμX)(YμY)]σXσY\rho_{XY} = \frac{\operatorname{Cov}(X, Y)}{\sigma_X \sigma_Y} = \frac{\mathbb{E}[(X - \mu_X)(Y - \mu_Y)]}{\sigma_X \sigma_Y}

从几何视角看,ρXY\rho_{XY} 等于向量 XXˉ1\mathbf{X} - \bar{X}\mathbf{1}YYˉ1\mathbf{Y} - \bar{Y}\mathbf{1} 之间夹角的余弦值——相关性就是数据在去均值化后的"方向一致性"的度量。

样本皮尔逊相关系数 rr 是总体系数 ρ\rho 的估计量:

rxy=i=1n(xixˉ)(yiyˉ)i=1n(xixˉ)2i=1n(yiyˉ)2r_{xy} = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2} \sqrt{\sum_{i=1}^{n} (y_i - \bar{y})^2}}

皮尔逊相关系数的取值严格限定在 [1,1][-1, 1] 区间内。r=1r = 1 表示完全正线性相关(数据点严格落在一条斜率为正的直线上);r=1r = -1 表示完全负线性相关;r=0r = 0 表示不存在线性相关关系。经验上通常将 r>0.7|r| > 0.7 视为强相关,0.3<r<0.70.3 < |r| < 0.7 视为中等相关,r<0.3|r| < 0.3 视为弱相关,但这种分界并非绝对,实际判断必须结合具体领域和研究目的。

重要属性与局限性

皮尔逊相关系数具有若干重要数学性质。首先,它是尺度不变(Scale-Invariant)的——对 XXYY 进行任何线性变换 aX+baX + ba0a \neq 0)都不改变相关系数的值。其次,rr普通最小二乘法(OLS)中一元线性回归斜率 β^1\hat{\beta}_1 的标准化形式:β^1=rxysysx\hat{\beta}_1 = r_{xy} \cdot \frac{s_y}{s_x},且判定系数 R2=rxy2R^2 = r_{xy}^2,这意味着相关系数的平方恰好等于 YY 的变异中被 XX 的线性关系所解释的比例。

然而,皮尔逊相关系数的应用受制于几个严格限制:(1) 它仅度量线性相关,两个变量可能具有完美的非线性关系(如 Y=X2Y = X^2XX 对称分布在零点附近)而 rr 趋近于零;(2) 它对异常值(Outliers)高度敏感,单个极端数据点可以严重扭曲 rr 的值,这催生了基于秩的稳健替代方案;(3) 它要求变量为连续型且近似服从二元正态分布——当这些假设不成立时,基于 rr 的统计推断(如t检验和置信区间)可能失效。

斯皮尔曼秩相关系数与肯德尔τ系数

针对皮尔逊相关系数的局限,非参数秩相关方法提供了重要补充。

斯皮尔曼秩相关系数(Spearman's Rank Correlation Coefficient, ρs\rho_srsr_s):将原始数据分别替换为各自的秩次(Rank),然后对秩次计算皮尔逊相关系数。对于样本容量 nn,不考虑结(tie)时:

rs=16i=1ndi2n(n21)r_s = 1 - \frac{6 \sum_{i=1}^{n} d_i^2}{n(n^2 - 1)}

其中 did_i 是第 ii 个观测在 XXYY 上的秩次之差。斯皮尔曼系数度量的是单调关系的强度——只要 YYXX 的增加而一致增加或减少(无论线性还是非线性),rsr_s 就会接近于 ±1。它对异常值具有稳健性,是金融收益率、序数评分数据和生态学研究中常用的相关度量。

肯德尔τ系数(Kendall's Tau, τ\tau):基于一致对(Concordant Pairs)和不一致对(Discordant Pairs)的比较。对于 nn 个观测中所有 (n2)\binom{n}{2} 对可能的组合,若 (xixj)(yiyj)>0(x_i - x_j)(y_i - y_j) > 0 则称该对为一致的(Concordant),反之为不一致的(Discordant)。肯德尔τ定义为:

τ=ncnd(n2)=ncndn(n1)/2\tau = \frac{n_c - n_d}{\binom{n}{2}} = \frac{n_c - n_d}{n(n-1)/2}

其中 ncn_cndn_d 分别为一致对和不一致对的数目。相比于斯皮尔曼系数,肯德尔τ具有更优良的统计性质(其抽样分布更快收敛于正态),且在小样本中的解释更为直接——τ\tau 恰好等于随机抽取一对观测时,二者顺序一致的概率减去顺序不一致的概率。

相关与因果:统计学中最重要的警句

"相关不等于因果"并非一句空洞口号,而是基于数理逻辑的严格结论。两个变量之间观测到的相关可能来自五种不同的生成机制:

  1. 直接因果关系XYX \to YYXY \to X,变量之间存在真实的因果链条。
  2. 反向因果关系YXY \to X——相关性本身无法揭示因果方向,这需要理论或研究设计的支撑。例如,警察数量与犯罪率可能呈正相关,但不是因为警察导致犯罪,而是因为高犯罪率地区雇佣了更多警察。
  3. 共同原因(Confounding):存在一个未观测的第三个变量 ZZ 同时影响 XXYY,即 XZYX \leftarrow Z \to Y。经典的例子是冰激凌销量与溺水死亡人数之间的正相关——它们共享同一个原因,即夏季高温。
  4. 选择偏差(Selection Bias):样本并非从总体中随机抽取,而是在某个共同结果变量 CC 上条件化后产生的——即 XCYX \to C \leftarrow Y 的对撞结构(Collider Structure)。控制对撞变量会诱导出原本不存在的虚假相关,这是伯克森悖论(Berkson's Paradox)的一般形式。
  5. 偶然性:在足够多的变量对中进行搜索,纯粹的随机波动必然会"发现"一些看起来令人惊讶的强相关——这就是多重比较问题(Multiple Comparisons Problem)和数据挖掘偏差(Data-Snooping Bias)的来源。Tyler Vigen的"Spurious Correlations"项目用大量滑稽的例子——如美国在科学领域的支出与上吊自杀人数之间的相关——生动地展示了这一点。

识别因果关系需要超越简单的相关分析,诉诸随机对照试验(RCT)、工具变量(IV)、断点回归设计(RDD)、双重差分法(DID)等现代因果推断方法。这些方法的共同目标是在潜在结果框架(Rubin Causal Model)下,构造可忽略性(Ignorability)条件,从而将相关性转化为可解释的因果效应。

在经济学与金融学中的应用

金融经济学中,相关性是现代投资组合理论(Modern Portfolio Theory, MPT)的基石。马科维茨(Markowitz)的均值—方差框架中,两项资产 AABB 构成的投资组合的风险由下式给出:

σP2=wA2σA2+wB2σB2+2wAwBρABσAσB\sigma_P^2 = w_A^2 \sigma_A^2 + w_B^2 \sigma_B^2 + 2 w_A w_B \rho_{AB} \sigma_A \sigma_B

ρAB<1\rho_{AB} < 1 时,组合的标准差小于各资产标准差的加权平均——这就是分散化(Diversification)降低风险的根本机制。相关性越低(越接近 1-1),分散化带来的风险降低效果越显著。这一思想扩展至 nn 项资产时,系统性风险(不可分散风险)由资产与市场组合的相关系数 β\beta 捕获,这正是资本资产定价模型(CAPM)的核心。

计量经济学中,高度相关(多重共线性,Multicollinearity)若发生在解释变量之间而非解释变量与被解释变量之间,会使OLS估计量的方差膨胀(Variance Inflation Factor, VIF > 10 通常被视为严重的信号),导致系数估计不稳定、符号反转和统计显著性的丧失。在时间序列分析中,两个独立的随机游走过程之间也可能产生看似高度显著的相关——这是伪回归(Spurious Regression)问题,Granger和Newbold在1974年的经典蒙特卡洛研究中对此进行了系统揭示,推动了协整(Cointegration)理论的发展。