ARTICLE

相关分析

相关分析 (Correlation Analysis) 相关分析 (Correlation Analysis) 是统计学中用于度量两个或多个变量之间关联方向与关联强度的核心方法体系。它回答"变量X变化时，变量Y如何变化"这一基本问题，但不涉及因果推断。相关分析是回归分析、因子分析和多元统计建模的前置步骤，在经济学中被广泛用于探索宏观指标联动、金融资产收益关联

浏览 5 更新 2025-10-26

相关分析 (Correlation Analysis)

相关分析 (Correlation Analysis) 是统计学中用于度量两个或多个变量之间关联方向与关联强度的核心方法体系。它回答"变量X变化时，变量Y如何变化"这一基本问题，但不涉及因果推断。相关分析是回归分析、因子分析和多元统计建模的前置步骤，在经济学中被广泛用于探索宏观指标联动、金融资产收益关联及微观变量间关系的初步诊断。现代相关分析的奠基人是卡尔·皮尔逊，他于1895年系统提出了积矩相关系数；而高尔顿此前已在生物遗传研究中奠定了相关思想的雏形。

皮尔逊相关系数

设有 $n$ 对独立同分布的二元观测值 $(X_1, Y_1), \ldots, (X_n, Y_n)$ ，总体皮尔逊相关系数定义为两变量的协方差除以各自标准差的乘积：

\rho_{XY} = \frac{\text{Cov}(X, Y)}{\sigma_X \sigma_Y} = \frac{\mathbb{E}[(X - \mu_X)(Y - \mu_Y)]}{\sigma_X \sigma_Y}

其样本估计量 $r$ 由以下公式给出：

r = \frac{\sum_{i=1}^n (X_i - \bar{X})(Y_i - \bar{Y})} {\sqrt{\sum_{i=1}^n (X_i - \bar{X})^2} \sqrt{\sum_{i=1}^n (Y_i - \bar{Y})^2}}

$r$ 的值域为 $[-1, 1]$ 。正值表示正向关联（X增大时Y也倾向于增大），负值表示负向关联，0表示无线性相关。通常以 $|r|$ 在 $[0, 0.3]$ 、 $(0.3, 0.7]$ 、 $(0.7, 1]$ 分别界定弱、中、强相关，但这一界值高度依赖学科惯例和情境。

皮尔逊相关系数具有重要的数学性质：第一，它只度量线性关联， $r=0$ 不排除非线性的完美依赖关系（如 $Y = X^2$ 在对称区间上可产生零相关）；第二，它对极端值极为敏感，单个离群点可大幅扭曲 $r$ ；第三， $(X, Y)$ 的线性变换下 $|r|$ 不变。

假设检验与置信区间

对 $\rho = 0$ 的检验是相关分析最基础也最常用的推断。在联合正态的假设下，统计量

t = r \sqrt{\frac{n - 2}{1 - r^2}}

在原假设 $\rho = 0$ 下服从自由度为 $n-2$ 的t分布。该检验的直观逻辑：若 $r$ 偏离0足够远（相对于样本量），便拒绝不相关的原假设。

若需构建 $\rho$ 的置信区间或检验非零假设值，则需借助Fisher变换：

z = \frac{1}{2} \ln\left(\frac{1 + r}{1 - r}\right) =

$\text{arctanh}$ (r)

该变换量的抽样分布近似为正态，均值为 $\text{arctanh}(\rho)$ ，方差为 $1/(n-3)$ 。这一近似使构建精确置信区间成为可能，也是元分析中合并多个研究的相关系数的统计基础——各个研究的 $r$ 经Fisher变换后以逆方差加权合并。

斯皮尔曼秩相关系数

当数据不满足正态性或变量间关系单调但非线性时，斯皮尔曼秩相关系数 $\rho_s$ （或 $r_s$ ）提供了稳健替代方案。它将原始数据替换为各自排序的秩次，然后计算秩次上的皮尔逊相关系数。若所有秩次均无平局，斯皮尔曼系数等价于：

r_s = 1 - \frac{6 \sum_{i=1}^n d_i^2}{n(n^2 - 1)}

其中 $d_i$ 为第 $i$ 个观测的X秩与Y秩之差。

斯皮尔曼系数度量的是单调关系的强度：若Y随X严格单调递增，即使该关系强烈弯曲， $r_s$ 也等于1。这使其特别适用于序数数据（如调查评分、信用评级）和存在明显离群值的情形。零假设下的检验既可用t近似（ $n \geq 10$ ），也可参考专门的临界值表。与皮尔逊相关系数相比，斯皮尔曼系数的破坏点为0，即单个异常观测可使系数任意偏离，但其影响函数有界，在实际应用中比皮尔逊系数更稳健。

肯德尔相关系数

肯德尔 $\tau$ (Kendall's tau) 是另一种基于秩次的关联度量，其核心思想是计数"协调对"与"不协调对"。对于任意两个观测 $i$ 和 $j$ ，若 $(X_i - X_j)(Y_i - Y_j) > 0$ 则为协调对，若 $< 0$ 则为不协调对。肯德尔 $\tau_a$ 定义为：

\tau_a = \frac{N_c - N_d}{\binom{n}{2}}

其中 $N_c$ 、 $N_d$ 分别为协调与不协调对的数量。该系数同样在 $[-1, 1]$ 之间取值，且比斯皮尔曼系数具有更优的小样本统计性质：在零假设下， $\tau$ 的抽样分布收敛更快，且不依赖于数据的分布形式。肯德尔 $\tau$ 在生存分析和copula建模中作用关键——它是连接阿基米德copula参数与数据关联的桥梁。

偏相关系数

当涉及三个或更多变量时，简单两两相关可能产生伪相关。例如，X与Y的显著正相关可能完全由潜在变量Z驱动，控制Z后X与Y的相关性可能消失或逆转。偏相关系数 $r_{XY \cdot Z}$ 度量在剔除变量Z的线性影响后X与Y之间的净相关性：

r_{XY \cdot Z} = \frac{r_{XY} - r_{XZ} \cdot r_{YZ}}

{ $\sqrt$ {(1 - $r_{XZ}$ ^2)(1 - $r_{YZ}$ ^2)}}

该公式直观反映了对Z的"校正"过程：分子剔除了通过Z的间接路径，分母重新标准化。偏相关推广至多控制变量时，可通过相关矩阵的逆矩阵直接计算，这是多元正态分布下高斯图模型的基础。

经济学应用中的注意事项

在经济学实证研究中，相关分析的应用需注意以下要点。第一，金融收益率数据常呈现厚尾分布，此时皮尔逊相关系数的方差极大且t检验失效，应改用秩相关或稳健方法。第二，时间序列变量可能因共同的时间趋势而产生显著的伪相关性（如GDP与咖啡消费量的同步上升），一阶差分或去趋势是必要的预处理。第三，在经济预测中，领先指标的选择往往以交叉相关函数为准则——计算当期X与未来Y的相关性以筛选预测变量。第四，相关矩阵的收敛性在高维设定下（变量数接近甚至超过样本量）不再成立，随机矩阵理论提供了理解此类情形下最大特征值分布和样本相关矩阵行为的理论框架。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。