ARTICLE

相关关系

相关关系 (Correlation) 相关关系 (Correlation) 是统计学中描述两个或两个以上变量之间相互关联的统计关系 (Statistical Relationship)。它刻画的是变量之间协同变动的倾向——当一个变量的取值发生变化时,另一个变量的取值也倾向于以某种可识别的方式发生变化。相关关系是实证研究中最基本的分析对象之一,广泛应用于经济学

浏览 3 更新 2025-10-26

相关关系 (Correlation)

相关关系 (Correlation) 是统计学中描述两个或两个以上变量之间相互关联的统计关系 (Statistical Relationship)。它刻画的是变量之间协同变动的倾向——当一个变量的取值发生变化时,另一个变量的取值也倾向于以某种可识别的方式发生变化。相关关系是实证研究中最基本的分析对象之一,广泛应用于经济学、金融学、社会学、生物统计学和数据科学等几乎所有依赖数据的学科。

确定性函数关系不同,相关关系并不蕴含精确的一一对应:给定一个变量的值,我们只能对另一个变量的条件分布做出概率性推断,而无法确切地知道其取值。例如,受教育年限与收入之间存在正相关关系,但受教育年限相同的人,其收入也存在相当大的离散性。这种不确定性源于遗漏变量的存在、测量误差以及随机扰动等因素。

在经济学中,几乎所有经验规律都是以相关关系的形式呈现的:通货膨胀与失业率之间的菲利普斯曲线关系、利率与投资之间的负向关联、广告支出与销售额之间的正向关联,无一不是统计相关而非确定性函数关系。因此,理解相关关系的本质、度量方法及其局限性,是学习计量经济学统计学的基础。

相关关系的度量

相关关系的强度与方向通常由相关系数 (Correlation Coefficient) 来量化。最常用的度量是皮尔逊积矩相关系数 (Pearson Product-Moment Correlation Coefficient):

ρXY=Cov(X,Y)σXσY=E[(XμX)(YμY)]σXσY\rho_{XY} = \frac{\operatorname{Cov}(X, Y)}{\sigma_X \sigma_Y} = \frac{\mathbb{E}[(X - \mu_X)(Y - \mu_Y)]}{\sigma_X \sigma_Y}

其中 Cov(X,Y)\operatorname{Cov}(X, Y) 是变量 XXYY协方差,度量二者协同偏离各自均值的程度;σX\sigma_XσY\sigma_Y 是各自的标准差。除以标准差的乘积使得相关系数成为一个无量纲的标准化度量,取值范围固定在 [1,1][-1, 1]

样本相关系数 rr 由样本协方差和样本标准差计算:

rxy=i=1n(xixˉ)(yiyˉ)i=1n(xixˉ)2i=1n(yiyˉ)2r_{xy} = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2} \sqrt{\sum_{i=1}^{n} (y_i - \bar{y})^2}}

相关系数的解读包含两个维度:

  1. 符号(方向)r>0r > 0 表示正相关——一个变量增大时另一个也倾向于增大;r<0r < 0 表示负相关——一个变量增大时另一个倾向于减小;r0r \approx 0 表示不存在线性相关。
  2. 绝对值(强度)r|r| 越接近 1,线性相关越强;越接近 0,线性相关越弱。一般将 r0.8|r| \geq 0.8 视为强相关,0.5r<0.80.5 \leq |r| < 0.8 为中等相关,0.3r<0.50.3 \leq |r| < 0.5 为弱相关,r<0.3|r| < 0.3 为极弱或无线性相关。

除皮尔逊相关系数外,还存在其他相关性度量:斯皮尔曼秩相关系数 (Spearman's Rank Correlation) 基于变量的秩次而非原始取值,对异常值和单调非线性关系更为稳健,其计算方式是将原始数据替换为各自排序位置(秩)后再计算皮尔逊公式;肯德尔 τ\tau 系数 (Kendall's τ\tau) 基于观测对的一致性与非一致性比较,适用于有序分类数据,其定义为和谐对比例与不和谐对比例之差。当数据严重偏离正态分布或存在极端值时,秩方法往往比皮尔逊方法更为可靠。

相关关系的类型

根据变量间协同变动的模式,相关关系可做如下分类:

  • 线性相关与非线性相关:皮尔逊相关系数仅度量线性相关程度。两个变量之间可以存在完美的非线性关系(如 Y=X2Y = X^2XX[1,1][-1, 1] 上对称分布),而皮尔逊相关系数接近零。因此,在分析相关关系之前,必须通过散点图或其他可视化手段检查变量间是否存在非线性模式。
  • 正相关与负相关:如前所述,正相关意味着变量同向变动(如收入与消费),负相关意味着反向变动(如价格与需求量)。
  • 简单相关与偏相关:简单相关只考虑两个变量之间的边际关系。偏相关 (Partial Correlation) 则在控制了一个或多个其他变量的影响之后,度量两个变量之间的"净"相关关系。例如,在控制了收入因素后,教育年限与健康状况之间的偏相关系数可能显著小于简单相关系数。
  • 横截面相关与时间序列相关:横截面数据中的相关描述不同个体在同一时点的变量关联;时间序列中的相关(特别是自相关)描述同一变量在不同时点之间的关联模式。

相关关系的统计推断

在实际研究中,我们通常基于样本相关系数 rr 对总体相关系数 ρ\rho 进行统计推断。在二元正态分布的假设下,检验 H0:ρ=0H_0: \rho = 0 的检验统计量为:

t=rn21r2t(n2)t = r \sqrt{\frac{n - 2}{1 - r^2}} \sim t(n - 2)

该统计量在零假设下服从自由度为 n2n-2tt 分布。这一检验的本质是检验线性回归中斜率系数是否为零,两者在简单线性回归中完全等价。若要检验 H0:ρ=ρ0H_0: \rho = \rho_0(其中 ρ00\rho_0 \neq 0),则需要使用 Fisher zz 变换

z=12ln(1+r1r)=arctanh(r)z = \frac{1}{2} \ln\left(\frac{1 + r}{1 - r}\right) = \operatorname{arctanh}(r)

Fisher zz 变换后的统计量近似服从正态分布 N(arctanh(ρ),1n3)\mathcal{N}\left(\operatorname{arctanh}(\rho), \frac{1}{n-3}\right),这使得我们可以方便地构造相关系数的置信区间并进行多组相关系数的比较检验。需要注意的是,当样本量较小或数据严重非正态时,基于 tt 和 Fisher zz 的推断可能不可靠,此时应考虑使用 Bootstrap 方法或非参数秩相关检验。

相关不等于因果

"相关不等于因果"(Correlation Does Not Imply Causation)是统计学与计量经济学中最根本的方法论警示。两个变量之间观测到的统计相关性,在逻辑上可能对应五种截然不同的关系:

  1. XX 导致 YY(直接因果);
  2. YY 导致 XX反向因果,Reverse Causality);
  3. XXYY 互为因果(双向因果,如价格与数量在市场均衡中的联立性);
  4. 第三个变量 ZZ 同时导致 XXYY混杂因素,Confounding Factor);
  5. 纯粹的抽样偶然性(在多次假设检验中尤其容易产生虚假的"显著"相关)。

仅凭相关系数的大小或统计显著性,无法在这五种可能之间做出区分。例如,冰激凌销量与溺水死亡人数在夏季高度正相关,但二者同为高温这一混杂因素的结果,彼此之间并无因果关系;警察数量与犯罪率之间的正相关,可能反映的是犯罪高发地区部署了更多警力(反向因果),而非警察导致了犯罪。

这一警示在政策评估中具有极其重要的实践意义。基于观测相关性制定干预政策而忽视因果识别,可能导致资源的严重错配甚至政策的反效果。现代因果推断方法论——包括随机对照试验工具变量断点回归双重差分法倾向得分匹配——正是为了在观测数据中分离出真正的因果效应而发展起来的。

伪相关

伪相关 (Spurious Correlation) 是两个变量在统计上显著相关,但这种相关并非源于任何直接或间接的因果机制,而是由偶然性、数据构造方式或未被识别的共同趋势所导致。伪相关在时间序列分析中尤为常见:两个具有确定性时间趋势或单位根的独立变量,在进行回归分析时往往会表现出高度显著的"相关关系",这被称为伪回归 (Spurious Regression) 问题。Granger 和 Newbold (1974) 通过蒙特卡洛模拟首次系统性地揭示了这一现象的严重性。

避免伪相关陷阱的关键措施包括:对时间序列数据进行平稳性检验(如ADF检验),必要时使用差分或协整技术;在横截面分析中引入控制变量以消除混杂因素的影响;始终以理论或先验知识为指导来选择变量和分析框架,避免纯粹的数据驱动式"钓鱼"。

应用场景

相关分析在经济与金融领域有广泛的应用场景。在投资组合理论中,资产收益率之间的相关系数是分散化决策的核心输入:当资产间相关系数较低甚至为负时,组合的风险可大幅低于各资产风险的加权平均。在资本资产定价模型中,个股与市场组合的相关性通过Beta系数体现,βi=Cov(Ri,Rm)Var(Rm)\beta_i = \frac{\operatorname{Cov}(R_i, R_m)}{\operatorname{Var}(R_m)} 直接决定了资产的系统性风险溢价。在宏观经济预测中,领先指标的选择往往依据其与目标变量(如 GDP 增长率、通货膨胀率)的历史相关性。在机器学习中,特征选择阶段常通过相关矩阵剔除高度共线的变量以减轻多重共线性问题。

局限性与注意事项

相关分析有其根本局限,使用时应保持高度警觉。

其一,皮尔逊相关系数对异常值 (Outliers) 极为敏感。单个极端数据点即可大幅改变相关系数的估计值,甚至将正相关扭转为负相关。因此,在计算相关系数之前,必须先通过箱线图或散点图检查数据中是否存在异常值,必要时采用稳健的相关性度量(如斯皮尔曼秩相关系数或基于截尾数据的百分位数相关系数)。

其二,相关系数仅度量线性关联,无法捕捉复杂的非线性依赖结构。一个经典例子是:XX[a,a][-a, a] 上对称分布,Y=X2Y = X^2,则 XXYY 之间具有完美的抛物关系,但皮尔逊相关系数恒为零。在这种情况下,基于Copula函数互信息 (Mutual Information) 或距离相关系数 (Distance Correlation) 等更通用的依赖度量可能更为合适。

其三,相关矩阵仅描述变量间的边际两两关系,无法直接揭示多元系统中更为精细的条件独立结构。例如,XXYY 之间的显著相关可能完全由第三个变量 ZZ 所驱动,在给定 ZZ 的条件下,XXYY 可能条件独立。揭示这类结构需要借助偏相关系数图模型 (Graphical Models) 或结构方程模型等工具。

其四,在时间序列背景下,两个独立的随机游走过程极有可能产生表面上高度显著的样本相关——这是伪回归的典型表现。处理此类数据的正确方式是先进行单位根检验,若确认存在单位根,则应检验变量间是否存在协整关系,而非直接计算相关系数。

总而言之,相关关系是探索数据模式的起点而非终点。它为研究者提供初步的经验线索,但从相关走向因果,需要严谨的研究设计、恰当的识别策略和对数据生成过程的深入理解。在报告和解读相关分析结果时,研究者应当明确说明所使用的相关性度量类型、样本特征、潜在的混淆因素以及推断的局限性,避免过度解读统计输出。