ARTICLE

相关分析

相关分析 (Correlation Analysis) 相关分析 (Correlation Analysis) 是统计学中用于度量两个或多个变量之间关联方向与关联强度的核心方法体系。它回答"变量X变化时,变量Y如何变化"这一基本问题,但不涉及因果推断。相关分析是回归分析、因子分析和多元统计建模的前置步骤,在经济学中被广泛用于探索宏观指标联动、金融资产收益关联

浏览 5 更新 2025-10-26

相关分析 (Correlation Analysis)

相关分析 (Correlation Analysis) 是统计学中用于度量两个或多个变量之间关联方向关联强度的核心方法体系。它回答"变量X变化时,变量Y如何变化"这一基本问题,但不涉及因果推断。相关分析是回归分析、因子分析和多元统计建模的前置步骤,在经济学中被广泛用于探索宏观指标联动、金融资产收益关联及微观变量间关系的初步诊断。现代相关分析的奠基人是卡尔·皮尔逊,他于1895年系统提出了积矩相关系数;而高尔顿此前已在生物遗传研究中奠定了相关思想的雏形。

皮尔逊相关系数

设有nn对独立同分布的二元观测值(X1,Y1),,(Xn,Yn)(X_1, Y_1), \ldots, (X_n, Y_n),总体皮尔逊相关系数定义为两变量的协方差除以各自标准差的乘积:

ρXY=Cov(X,Y)σXσY=E[(XμX)(YμY)]σXσY\rho_{XY} = \frac{\text{Cov}(X, Y)}{\sigma_X \sigma_Y} = \frac{\mathbb{E}[(X - \mu_X)(Y - \mu_Y)]}{\sigma_X \sigma_Y}

其样本估计量rr由以下公式给出:

r=i=1n(XiXˉ)(YiYˉ)i=1n(XiXˉ)2i=1n(YiYˉ)2r = \frac{\sum_{i=1}^n (X_i - \bar{X})(Y_i - \bar{Y})} {\sqrt{\sum_{i=1}^n (X_i - \bar{X})^2} \sqrt{\sum_{i=1}^n (Y_i - \bar{Y})^2}}

rr的值域为[1,1][-1, 1]。正值表示正向关联(X增大时Y也倾向于增大),负值表示负向关联,0表示无线性相关。通常以r|r|[0,0.3][0, 0.3](0.3,0.7](0.3, 0.7](0.7,1](0.7, 1]分别界定弱、中、强相关,但这一界值高度依赖学科惯例和情境。

皮尔逊相关系数具有重要的数学性质:第一,它只度量线性关联,r=0r=0不排除非线性的完美依赖关系(如Y=X2Y = X^2在对称区间上可产生零相关);第二,它对极端值极为敏感,单个离群点可大幅扭曲rr;第三,(X,Y)(X, Y)的线性变换下r|r|不变。

假设检验与置信区间

ρ=0\rho = 0的检验是相关分析最基础也最常用的推断。在联合正态的假设下,统计量

t=rn21r2t = r \sqrt{\frac{n - 2}{1 - r^2}}

在原假设ρ=0\rho = 0下服从自由度为n2n-2t分布。该检验的直观逻辑:若rr偏离0足够远(相对于样本量),便拒绝不相关的原假设。

若需构建ρ\rho的置信区间或检验非零假设值,则需借助Fisher变换

z=12ln(1+r1r)=z = \frac{1}{2} \ln\left(\frac{1 + r}{1 - r}\right) =

arctanh\text{arctanh}(r)

该变换量的抽样分布近似为正态,均值为arctanh(ρ)\text{arctanh}(\rho),方差为1/(n3)1/(n-3)。这一近似使构建精确置信区间成为可能,也是元分析中合并多个研究的相关系数的统计基础——各个研究的rr经Fisher变换后以逆方差加权合并。

斯皮尔曼秩相关系数

当数据不满足正态性或变量间关系单调但非线性时,斯皮尔曼秩相关系数ρs\rho_s(或rsr_s)提供了稳健替代方案。它将原始数据替换为各自排序的秩次,然后计算秩次上的皮尔逊相关系数。若所有秩次均无平局,斯皮尔曼系数等价于:

rs=16i=1ndi2n(n21)r_s = 1 - \frac{6 \sum_{i=1}^n d_i^2}{n(n^2 - 1)}

其中did_i为第ii个观测的X秩与Y秩之差。

斯皮尔曼系数度量的是单调关系的强度:若Y随X严格单调递增,即使该关系强烈弯曲,rsr_s也等于1。这使其特别适用于序数数据(如调查评分、信用评级)和存在明显离群值的情形。零假设下的检验既可用t近似(n10n \geq 10),也可参考专门的临界值表。与皮尔逊相关系数相比,斯皮尔曼系数的破坏点为0,即单个异常观测可使系数任意偏离,但其影响函数有界,在实际应用中比皮尔逊系数更稳健。

肯德尔相关系数

肯德尔τ\tau (Kendall's tau) 是另一种基于秩次的关联度量,其核心思想是计数"协调对"与"不协调对"。对于任意两个观测iijj,若(XiXj)(YiYj)>0(X_i - X_j)(Y_i - Y_j) > 0则为协调对,若<0< 0则为不协调对。肯德尔τa\tau_a定义为:

τa=NcNd(n2)\tau_a = \frac{N_c - N_d}{\binom{n}{2}}

其中NcN_cNdN_d分别为协调与不协调对的数量。该系数同样在[1,1][-1, 1]之间取值,且比斯皮尔曼系数具有更优的小样本统计性质:在零假设下,τ\tau的抽样分布收敛更快,且不依赖于数据的分布形式。肯德尔τ\tau生存分析copula建模中作用关键——它是连接阿基米德copula参数与数据关联的桥梁。

偏相关系数

当涉及三个或更多变量时,简单两两相关可能产生伪相关。例如,X与Y的显著正相关可能完全由潜在变量Z驱动,控制Z后X与Y的相关性可能消失或逆转。偏相关系数rXYZr_{XY \cdot Z}度量在剔除变量Z的线性影响后X与Y之间的净相关性:

r_{XY \cdot Z} = \frac{r_{XY} - r_{XZ} \cdot r_{YZ}}

{\sqrt{(1 - rXZr_{XZ}^2)(1 - rYZr_{YZ}^2)}}

该公式直观反映了对Z的"校正"过程:分子剔除了通过Z的间接路径,分母重新标准化。偏相关推广至多控制变量时,可通过相关矩阵的逆矩阵直接计算,这是多元正态分布高斯图模型的基础。

相关与因果

相关分析最著名的警示是"相关不等于因果"。这一论断看似简单,其深层结构包含多层含义:第一,两个变量间的相关可能是偶然的(伪相关);第二,可能存在双向因果或反向因果(X导致Y与Y导致X在相关矩阵中不可区分);第三,可能存在遗漏变量同时驱动X和Y;第四,可能存在选择偏误(如对撞偏误,控制对撞变量可诱导虚假相关)。格兰杰因果关系检验试图在时间序列框架下将相关性与预测性区分开来,但其本质仍是预测关系而非结构因果。现代经济学中,相关分析提供的关联模式通常是工具变量设计、断点回归双重差分等因果识别策略的起点而非终点。

经济学应用中的注意事项

在经济学实证研究中,相关分析的应用需注意以下要点。第一,金融收益率数据常呈现厚尾分布,此时皮尔逊相关系数的方差极大且t检验失效,应改用秩相关或稳健方法。第二,时间序列变量可能因共同的时间趋势而产生显著的伪相关性(如GDP与咖啡消费量的同步上升),一阶差分去趋势是必要的预处理。第三,在经济预测中,领先指标的选择往往以交叉相关函数为准则——计算当期X与未来Y的相关性以筛选预测变量。第四,相关矩阵的收敛性在高维设定下(变量数接近甚至超过样本量)不再成立,随机矩阵理论提供了理解此类情形下最大特征值分布和样本相关矩阵行为的理论框架。