ARTICLE

相关性

相关性 (Correlation) 相关性 (Correlation) 是统计学和概率论中的一个核心概念，用以衡量两个或多个随机变量或数据变量之间关联的强度和方向。它描述了一个变量的变化在多大程度上与另一个变量的变化相关联。相关性是经济学、金融学、计量经济学等众多领域进行数据分析、模型构建和预测的基础工具。在学习此词条时，必须首先建立一个至关重要的认知：相

浏览 59 更新 2025-10-25

相关性 (Correlation)

相关性 (Correlation) 是统计学和概率论中的一个核心概念，用以衡量两个或多个随机变量或数据变量之间关联的强度和方向。它描述了一个变量的变化在多大程度上与另一个变量的变化相关联。相关性是经济学、金融学、计量经济学等众多领域进行数据分析、模型构建和预测的基础工具。

在学习此词条时，必须首先建立一个至关重要的认知：相关不蕴含因果 (Correlation does not imply causation)。这是统计推断中最基本也是最容易被误解的原则之一。

衡量相关性：皮尔逊相关系数

在众多衡量相关性的指标中，最常用的是 皮尔逊积矩相关系数 (Pearson Product-Moment Correlation Coefficient)，通常用小写字母 $r$ 表示样本相关系数，用希腊字母 $\rho$ (rho) 表示总体相关系数。

定义：皮尔逊相关系数衡量的是两个变量之间 线性 (linear) 关系的强度和方向。

性质：

$r$ 的取值范围在 $[-1, 1]$ 之间。
$r = +1$ ：表示两个变量之间存在完美的 正向线性关系。所有数据点都精确地落在一条斜率为正的直线上。
$r = -1$ ：表示两个变量之间存在完美的 负向线性关系。所有数据点都精确地落在一条斜率为负的直线上。
$r = 0$ ：表示两个变量之间 不存在线性关系。但这并不意味着变量之间没有任何关系，它们可能存在非线性关系（如二次方关系）。
$r$ 的绝对值 $|r|$ 越大，表示线性关系越强。一般而言（这只是经验法则，具体标准需视研究领域而定）： \begin{itemize}
$|r| > 0.7$ 可视为强相关
$0.3 < |r| < 0.7$ 可视为中等相关
$|r| < 0.3$ 可视为弱相关

\end{itemize}

计算公式：对于包含 $n$ 个观测值的样本 $(x_1, y_1), (x_2, y_2), \dots, (x_n, y_n)$ ，样本相关系数 $r$ 的计算公式为：

r = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i - \bar{x})^2}\sqrt{\sum_{i=1}^{n}(y_i - \bar{y})^2}}

其中：

$x_i$ 和 $y_i$ 是第 $i$ 个观测值。
$\bar{x}$ 和 $\bar{y}$ 分别是变量 $x$ 和 $y$ 的样本均值。

这个公式的本质可以理解为：将两个变量的协方差 (Covariance) 进行标准化处理。

分子：是 $x$ 和 $y$ 的样本协方差的 $n-1$ 倍，即 $\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})$ 。协方差本身可以度量两个变量的联动方向，但其值受变量的度量单位影响。
分母：是 $x$ 和 $y$ 的标准差 (Standard Deviation) 的乘积（经过一些代数变换）。通过除以各自的标准差，消除了量纲的影响，使得相关系数成为一个介于-1和1之间的无量纲数，从而可以在不同数据集之间进行比较。

可视化工具：散点图

散点图 (Scatter Plot) 是检验两个连续变量之间关系的最直观的图形工具。通过将一个变量作为X轴，另一个变量作为Y轴，并将每个数据对 $(x_i, y_i)$ 描绘成图上的一个点，我们可以从点的分布模式中观察到：

关系的方向：如果数据点整体呈从左下到右上的趋势，则为正相关；如果呈从左上到右下的趋势，则为负相关。
关系的强度：数据点围绕某条假想的直线聚集得越紧密，线性关系就越强。如果数据点散乱分布，则关系很弱或不存在。
关系的形式：散点图可以清晰地揭示关系是线性的还是非线性的（例如U形或倒U形）。在非线性关系下，皮尔逊相关系数可能会产生误导，因为它只能捕捉线性关联。

伪相关与"相关不蕴含因果"

这是理解和应用相关性时最重要的警戒线。观察到两个变量 $X$ 和 $Y$ 之间存在强相关，并不能得出 $X$ 导致了 $Y$ (或 $Y$ 导致了 $X$ ) 的结论。这种没有真实因果支持的相关性被称为 伪相关 (Spurious Correlation)。

伪相关通常由以下几种情况导致：

潜变量 (Lurking Variable) 或 混淆变量 (Confounding Variable) 一个未被观测到的第三个变量 $Z$ 可能同时影响着 $X$ 和 $Y$ ，从而导致了它们之间的相关性。 \begin{itemize}
经典案例：城市的冰淇淋销量与溺水死亡人数呈强正相关。这里的潜变量是"天气温度"。炎热的天气既导致人们购买更多冰淇淋，也导致更多人去游泳，从而增加了溺水的风险。冰淇淋销量和溺水之间并无直接的因果关系 (causal relationship)。 \end{itemize}
巧合 (Coincidence) 在大数据时代，当检验的变量数量足够多时，纯粹由于随机性，我们总能找到一些看似高度相关的变量。
反向因果 (Reverse Causality) 相关关系存在，但因果方向与直觉相反。例如，研究发现警察数量越多的城市，犯罪率也越高。这可能不是因为警察导致了犯罪，而是因为高犯罪率的城市需要部署更多的警力。

要从相关性推断出因果关系，需要更严谨的研究设计，如随机对照试验 (RCTs)，或使用高级的计量经济学方法，如工具变量法、回归断点设计或双重差分法来控制混淆因素。

其他类型的相关系数

皮尔逊相关系数并非唯一的度量标准，尤其在数据不满足其假设（如非线性关系或存在异常值）时。

斯皮尔曼等级相关系数 (Spearman's Rank Correlation, $r_s$ )：它衡量两个变量之间 单调关系 (monotonic relationship) 的强度。单调关系指一个变量增加时，另一个变量也持续增加（或持续减少），但不要求变化率恒定。它通过对原始数据进行排序，然后计算其等级的皮尔逊相关系数来实现。它对异常值不敏感，且适用于序数数据。
肯德尔等级相关系数 (Kendall's Tau, $\tau$ )：这是另一种基于数据等级的非参数相关性度量，它通过比较数据对的一致性（concordant）和不一致性（discordant）来评估相关性。

在经济与金融中的应用

投资组合理论：相关性是现代投资组合理论 (MPT) 的基石。通过将相关性较低或呈负相关的资产（如股票和债券）组合在一起，投资者可以实现多元化投资，从而在不牺牲预期回报率的情况下，降低整个投资组合的风险（即波动性）。
风险管理：金融机构使用相关性矩阵来评估其资产组合的整体风险。例如，在市场压力下，许多资产的相关性会趋于一致（即都下跌），理解这种相关性动态对于计算在险价值 (VaR) 和进行压力测试至关重要。
回归分析：在建立计量经济模型时，相关性分析是第一步。它帮助研究者识别哪些自变量可能与因变量相关，从而将它们纳入回归模型进行进一步的检验。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。

相关性