ARTICLE
相关性
相关性 (Correlation) 相关性 (Correlation) 是统计学和概率论中的一个核心概念,用以衡量两个或多个随机变量或数据变量之间关联的强度和方向。它描述了一个变量的变化在多大程度上与另一个变量的变化相关联。相关性是经济学、金融学、计量经济学等众多领域进行数据分析、模型构建和预测的基础工具。 在学习此词条时,必须首先建立一个至关重要的认知:相
相关性 (Correlation)
相关性 (Correlation) 是统计学和概率论中的一个核心概念,用以衡量两个或多个随机变量或数据变量之间关联的强度和方向。它描述了一个变量的变化在多大程度上与另一个变量的变化相关联。相关性是经济学、金融学、计量经济学等众多领域进行数据分析、模型构建和预测的基础工具。
在学习此词条时,必须首先建立一个至关重要的认知:相关不蕴含因果 (Correlation does not imply causation)。这是统计推断中最基本也是最容易被误解的原则之一。
相关性的方向与强度
相关性通常从两个维度进行描述:方向和强度。
- 方向 (Direction) \begin{itemize}
- 正相关 (Positive Correlation):两个变量倾向于向相同的方向移动。即当一个变量的取值增加时,另一个变量的取值也倾向于增加;反之亦然。例如,一个人的学习时间与其考试成绩通常呈正相关。
- 负相关 (Negative Correlation):两个变量倾向于向相反的方向移动。即当一个变量的取值增加时,另一个变量的取值倾向于减少。例如,商品的价格与其需求量通常呈负相关,这就是需求定律的基础。
- 零相关 (Zero Correlation):两个变量之间没有可辨别的线性关联。一个变量的变动不会对另一个变量的变动产生任何可预测的模式。例如,一个人的身高和其出生月份之间通常被认为是零相关。 \end{itemize}
- 强度 (Strength) 强度指的是变量之间关联的紧密程度。一个强大的相关性意味着一个变量的变动能够高度确定地预测另一个变量的变动方向和幅度。而弱相关性则表示这种关联较为松散,预测性不强。强度的衡量通常通过相关系数 (Correlation Coefficient) 来量化。
衡量相关性:皮尔逊相关系数
在众多衡量相关性的指标中,最常用的是 皮尔逊积矩相关系数 (Pearson Product-Moment Correlation Coefficient),通常用小写字母 表示样本相关系数,用希腊字母 (rho) 表示总体相关系数。
定义:皮尔逊相关系数衡量的是两个变量之间 线性 (linear) 关系的强度和方向。
性质:
- 的取值范围在 之间。
- :表示两个变量之间存在完美的 正向线性关系。所有数据点都精确地落在一条斜率为正的直线上。
- :表示两个变量之间存在完美的 负向线性关系。所有数据点都精确地落在一条斜率为负的直线上。
- :表示两个变量之间 不存在线性关系。但这并不意味着变量之间没有任何关系,它们可能存在非线性关系(如二次方关系)。
- 的绝对值 越大,表示线性关系越强。一般而言(这只是经验法则,具体标准需视研究领域而定): \begin{itemize}
- 可视为强相关
- 可视为中等相关
- 可视为弱相关
\end{itemize}
计算公式: 对于包含 个观测值的样本 ,样本相关系数 的计算公式为:
其中:
- 和 是第 个观测值。
- 和 分别是变量 和 的样本均值。
这个公式的本质可以理解为:将两个变量的协方差 (Covariance) 进行标准化处理。
- 分子:是 和 的样本协方差的 倍,即 。协方差本身可以度量两个变量的联动方向,但其值受变量的度量单位影响。
- 分母:是 和 的标准差 (Standard Deviation) 的乘积(经过一些代数变换)。通过除以各自的标准差,消除了量纲的影响,使得相关系数成为一个介于-1和1之间的无量纲数,从而可以在不同数据集之间进行比较。
可视化工具:散点图
散点图 (Scatter Plot) 是检验两个连续变量之间关系的最直观的图形工具。通过将一个变量作为X轴,另一个变量作为Y轴,并将每个数据对 描绘成图上的一个点,我们可以从点的分布模式中观察到:
- 关系的方向:如果数据点整体呈从左下到右上的趋势,则为正相关;如果呈从左上到右下的趋势,则为负相关。
- 关系的强度:数据点围绕某条假想的直线聚集得越紧密,线性关系就越强。如果数据点散乱分布,则关系很弱或不存在。
- 关系的形式:散点图可以清晰地揭示关系是线性的还是非线性的(例如U形或倒U形)。在非线性关系下,皮尔逊相关系数可能会产生误导,因为它只能捕捉线性关联。
伪相关与"相关不蕴含因果"
这是理解和应用相关性时最重要的警戒线。观察到两个变量 和 之间存在强相关,并不能得出 导致了 (或 导致了 ) 的结论。这种没有真实因果支持的相关性被称为 伪相关 (Spurious Correlation)。
伪相关通常由以下几种情况导致:
- 潜变量 (Lurking Variable) 或 混淆变量 (Confounding Variable) 一个未被观测到的第三个变量 可能同时影响着 和 ,从而导致了它们之间的相关性。 \begin{itemize}
- 经典案例:城市的冰淇淋销量与溺水死亡人数呈强正相关。这里的潜变量是"天气温度"。炎热的天气既导致人们购买更多冰淇淋,也导致更多人去游泳,从而增加了溺水的风险。冰淇淋销量和溺水之间并无直接的因果关系 (causal relationship)。 \end{itemize}
- 巧合 (Coincidence) 在大数据时代,当检验的变量数量足够多时,纯粹由于随机性,我们总能找到一些看似高度相关的变量。
- 反向因果 (Reverse Causality) 相关关系存在,但因果方向与直觉相反。例如,研究发现警察数量越多的城市,犯罪率也越高。这可能不是因为警察导致了犯罪,而是因为高犯罪率的城市需要部署更多的警力。
要从相关性推断出因果关系,需要更严谨的研究设计,如随机对照试验 (RCTs),或使用高级的计量经济学方法,如工具变量法、回归断点设计或双重差分法来控制混淆因素。
其他类型的相关系数
皮尔逊相关系数并非唯一的度量标准,尤其在数据不满足其假设(如非线性关系或存在异常值)时。
- 斯皮尔曼等级相关系数 (Spearman's Rank Correlation, ):它衡量两个变量之间 单调关系 (monotonic relationship) 的强度。单调关系指一个变量增加时,另一个变量也持续增加(或持续减少),但不要求变化率恒定。它通过对原始数据进行排序,然后计算其等级的皮尔逊相关系数来实现。它对异常值不敏感,且适用于序数数据。
- 肯德尔等级相关系数 (Kendall's Tau, ):这是另一种基于数据等级的非参数相关性度量,它通过比较数据对的一致性(concordant)和不一致性(discordant)来评估相关性。