ARTICLE

相关

相关 (Correlation) 相关（Correlation）是统计学和计量经济学中度量两个或多个变量之间线性关联程度与方向的核心概念。它回答了一个最基本的问题：当一个变量发生变化时，另一个变量是否倾向于随之变化，以及这种协同变化的强度如何。相关分析是探索数据结构的起点，也是回归分析和因果推断的基础。然而，社会科学和统计学中反复强调的一个根本性原则是：相关

浏览 6 更新 2025-10-26

相关 (Correlation)

相关（Correlation）是统计学和计量经济学中度量两个或多个变量之间线性关联程度与方向的核心概念。它回答了一个最基本的问题：当一个变量发生变化时，另一个变量是否倾向于随之变化，以及这种协同变化的强度如何。相关分析是探索数据结构的起点，也是回归分析和因果推断的基础。然而，社会科学和统计学中反复强调的一个根本性原则是：相关关系并不意味着因果关系（Correlation does not imply causation）——这是从观察到决策的桥梁上必须悬挂的警示牌。

皮尔逊相关系数

最广泛使用的相关性度量是皮尔逊相关系数（Pearson Correlation Coefficient），由卡尔·皮尔逊（Karl Pearson）在弗朗西斯·高尔顿（Francis Galton）的工作基础上于19世纪末正式提出。对于两个随机变量 $X$ 和 $Y$ ，总体皮尔逊相关系数定义为它们的协方差与各自标准差乘积之比：

\rho_{XY} = \frac{\operatorname{Cov}(X, Y)}{\sigma_X \sigma_Y} = \frac{\mathbb{E}[(X - \mu_X)(Y - \mu_Y)]}{\sigma_X \sigma_Y}

从几何视角看， $\rho_{XY}$ 等于向量 $\mathbf{X} - \bar{X}\mathbf{1}$ 和 $\mathbf{Y} - \bar{Y}\mathbf{1}$ 之间夹角的余弦值——相关性就是数据在去均值化后的"方向一致性"的度量。

样本皮尔逊相关系数 $r$ 是总体系数 $\rho$ 的估计量：

r_{xy} = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2} \sqrt{\sum_{i=1}^{n} (y_i - \bar{y})^2}}

皮尔逊相关系数的取值严格限定在 $[-1, 1]$ 区间内。 $r = 1$ 表示完全正线性相关（数据点严格落在一条斜率为正的直线上）； $r = -1$ 表示完全负线性相关； $r = 0$ 表示不存在线性相关关系。经验上通常将 $|r| > 0.7$ 视为强相关， $0.3 < |r| < 0.7$ 视为中等相关， $|r| < 0.3$ 视为弱相关，但这种分界并非绝对，实际判断必须结合具体领域和研究目的。

重要属性与局限性

皮尔逊相关系数具有若干重要数学性质。首先，它是尺度不变（Scale-Invariant）的——对 $X$ 或 $Y$ 进行任何线性变换 $aX + b$ （ $a \neq 0$ ）都不改变相关系数的值。其次， $r$ 是普通最小二乘法（OLS）中一元线性回归斜率 $\hat{\beta}_1$ 的标准化形式： $\hat{\beta}_1 = r_{xy} \cdot \frac{s_y}{s_x}$ ，且判定系数 $R^2 = r_{xy}^2$ ，这意味着相关系数的平方恰好等于 $Y$ 的变异中被 $X$ 的线性关系所解释的比例。

然而，皮尔逊相关系数的应用受制于几个严格限制：(1) 它仅度量线性相关，两个变量可能具有完美的非线性关系（如 $Y = X^2$ ， $X$ 对称分布在零点附近）而 $r$ 趋近于零；(2) 它对异常值（Outliers）高度敏感，单个极端数据点可以严重扭曲 $r$ 的值，这催生了基于秩的稳健替代方案；(3) 它要求变量为连续型且近似服从二元正态分布——当这些假设不成立时，基于 $r$ 的统计推断（如t检验和置信区间）可能失效。

斯皮尔曼秩相关系数与肯德尔τ系数

针对皮尔逊相关系数的局限，非参数秩相关方法提供了重要补充。

斯皮尔曼秩相关系数（Spearman's Rank Correlation Coefficient, $\rho_s$ 或 $r_s$ ）：将原始数据分别替换为各自的秩次（Rank），然后对秩次计算皮尔逊相关系数。对于样本容量 $n$ ，不考虑结（tie）时：

r_s = 1 - \frac{6 \sum_{i=1}^{n} d_i^2}{n(n^2 - 1)}

其中 $d_i$ 是第 $i$ 个观测在 $X$ 和 $Y$ 上的秩次之差。斯皮尔曼系数度量的是单调关系的强度——只要 $Y$ 随 $X$ 的增加而一致增加或减少（无论线性还是非线性）， $r_s$ 就会接近于 ±1。它对异常值具有稳健性，是金融收益率、序数评分数据和生态学研究中常用的相关度量。

肯德尔τ系数（Kendall's Tau, $\tau$ ）：基于一致对（Concordant Pairs）和不一致对（Discordant Pairs）的比较。对于 $n$ 个观测中所有 $\binom{n}{2}$ 对可能的组合，若 $(x_i - x_j)(y_i - y_j) > 0$ 则称该对为一致的（Concordant），反之为不一致的（Discordant）。肯德尔τ定义为：

\tau = \frac{n_c - n_d}{\binom{n}{2}} = \frac{n_c - n_d}{n(n-1)/2}

其中 $n_c$ 和 $n_d$ 分别为一致对和不一致对的数目。相比于斯皮尔曼系数，肯德尔τ具有更优良的统计性质（其抽样分布更快收敛于正态），且在小样本中的解释更为直接—— $\tau$ 恰好等于随机抽取一对观测时，二者顺序一致的概率减去顺序不一致的概率。

在经济学与金融学中的应用

在金融经济学中，相关性是现代投资组合理论（Modern Portfolio Theory, MPT）的基石。马科维茨（Markowitz）的均值—方差框架中，两项资产 $A$ 和 $B$ 构成的投资组合的风险由下式给出：

\sigma_P^2 = w_A^2 \sigma_A^2 + w_B^2 \sigma_B^2 + 2 w_A w_B \rho_{AB} \sigma_A \sigma_B

当 $\rho_{AB} < 1$ 时，组合的标准差小于各资产标准差的加权平均——这就是分散化（Diversification）降低风险的根本机制。相关性越低（越接近 $-1$ ），分散化带来的风险降低效果越显著。这一思想扩展至 $n$ 项资产时，系统性风险（不可分散风险）由资产与市场组合的相关系数 $\beta$ 捕获，这正是资本资产定价模型（CAPM）的核心。

在计量经济学中，高度相关（多重共线性，Multicollinearity）若发生在解释变量之间而非解释变量与被解释变量之间，会使OLS估计量的方差膨胀（Variance Inflation Factor, VIF > 10 通常被视为严重的信号），导致系数估计不稳定、符号反转和统计显著性的丧失。在时间序列分析中，两个独立的随机游走过程之间也可能产生看似高度显著的相关——这是伪回归（Spurious Regression）问题，Granger和Newbold在1974年的经典蒙特卡洛研究中对此进行了系统揭示，推动了协整（Cointegration）理论的发展。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。

相关

相关 (Correlation)

皮尔逊相关系数

重要属性与局限性

斯皮尔曼秩相关系数与肯德尔τ系数

相关与因果：统计学中最重要的警句

在经济学与金融学中的应用