ARTICLE
协方差
协方差 (Covariance) 协方差 (Covariance) 是统计学与概率论中的一个核心概念,用于衡量两个随机变量 (random variables) 之间的联合变化关系。具体来说,它度量的是两个变量在多大程度上会协同变化。如果一个变量的较大值主要对应于另一变量的较大值(或者一个变量的较小值主要对应于另一变量的较小值),则协方差为正。反之,如果一个
协方差 (Covariance)
协方差 (Covariance) 是统计学与概率论中的一个核心概念,用于衡量两个随机变量 (random variables) 之间的联合变化关系。具体来说,它度量的是两个变量在多大程度上会协同变化。如果一个变量的较大值主要对应于另一变量的较大值(或者一个变量的较小值主要对应于另一变量的较小值),则协方差为正。反之,如果一个变量的较大值主要对应于另一变量的较小值,则协方差为负。如果两个变量之间没有明显的线性关系,则协方差趋近于零。
协方差是理解变量间关系的第一步,并且是计算相关系数和构建多元化投资组合等高级概念的基础。
数学定义
协方差的定义分为对总体 (population) 的定义和对样本 (sample) 的定义。
总体协方差
对于两个随机变量 和 ,其总体协方差定义为它们各自与其期望值 (expected value) 离差乘积的期望值。
其中, 和 分别是随机变量 和 的期望值(或均值)。
这个公式在计算上通常不方便。通过展开上述表达式,可以得到一个更实用的计算公式:
因此,一个等价且常用的公式是:
这个公式表明,协方差是两变量乘积的期望值与两变量各自期望值乘积之差。
样本协方差
在实际应用中,我们通常处理的是从总体中抽取的样本数据。对于一组包含 个配对观测值 的样本,其样本协方差(通常记为 或 )计算如下:
其中:
- 和 是第 对观测值。
- 和 是样本 和 的平均值。
- 分母使用 而不是 是为了得到总体协方差的一个无偏估计量 (unbiased estimator)。这与样本方差计算中使用 的原因相同,涉及到自由度 (degrees of freedom) 的概念。
直观理解协方差的正负
我们可以通过分析样本协方差公式 来直观地理解其含义。想象一个以 为中心点的散点图 (scatter plot),该中心点将平面分为四个象限:
- 右上象限 (I):此处的点满足 且 。因此,乘积项 为正。
- 左上象限 (II):此处的点满足 且 。因此,乘积项 为负。
- 左下象限 (III):此处的点满足 且 。因此,乘积项 为正。
- 右下象限 (IV):此处的点满足 且 。因此,乘积项 为负。
- 正协方差:如果数据点主要分布在右上(I)和左下(III)象限,那么大多数乘积项为正,它们的总和将是一个较大的正数,意味着 和 倾向于同向变动。
- 负协方差:如果数据点主要分布在左上(II)和右下(IV)象限,那么大多数乘积项为负,它们的总和将是一个较大的负数,意味着 和 倾向于反向变动。
- 零协方差:如果数据点均匀地分布在所有四个象限,那么正的乘积项和负的乘积项会相互抵消,总和将趋近于零。这表明 和 之间没有线性的关联。
协方差的性质
协方差具有以下重要的数学性质(假设 为随机变量, 为常数):
- 与方差的关系:一个变量与自身的协方差等于其方差。 \[ \text{Cov}(X, X) = \text{Var}(X) \]
- 对称性:变量的顺序不影响协方差的值。 \[ \text{Cov}(X, Y) = \text{Cov}(Y, X) \]
- 常数的可加性:对变量加上一个常数不改变协方差。 \[ \text{Cov}(X+a, Y+b) = \text{Cov}(X, Y) \]
- 常数的乘法性: \[ \text{Cov}(aX, bY) = ab \cdot \text{Cov}(X, Y) \]
- 线性组合(双线性): \[ \text{Cov}(X+Y, Z) = \text{Cov}(X, Z) + \text{Cov}(Y, Z) \] \[ \text{Cov}(aX+bY, cZ+dW) = ac \cdot \text{Cov}(X,Z) + ad \cdot \text{Cov}(X,W) + bc \cdot \text{Cov}(Y,Z) + bd \cdot \text{Cov}(Y,W) \]
- 两随机变量和的方差:这是金融领域极为重要的一个属性。 \[ \text{Var}(X+Y) = \text{Var}(X) + \text{Var}(Y) + 2\text{Cov}(X, Y) \] 更一般地: \[ \text{Var}(aX+bY) = a^2\text{Var}(X) + b^2\text{Var}(Y) + 2ab\text{Cov}(X, Y) \]
- 独立性与协方差:如果两个随机变量 和 是独立性 (概率论)的,那么它们的协方差为零。 \[ \text{若 } X, Y \text{ 独立, 则 } \text{Cov}(X, Y) = 0 \] 重要的是,反之不成立。协方差为零仅表示两个变量是不相关 (uncorrelated),即没有线性关系,但它们可能存在非线性关系。例如,设 是一个在 上均匀分布的随机变量,令 。显然 是完全由 决定的,但它们的协方差 。
协方差的局限性
协方差的主要局限在于其数值大小本身难以解释。协方差的单位是两个变量单位的乘积(例如,如果 的单位是米, 的单位是千克,则 的单位是米-千克)。这导致了两个问题:
- 依赖于变量的尺度:如果将变量 的单位从米改为厘米(乘以100),协方差的值也会乘以100,尽管变量之间的根本关系没有改变。
- 缺乏可比较的基准:我们无法仅通过协方差的数值(比如 200 或 -5000)来判断关系的"强弱",因为它的大小受变量自身波动性(即标准差)的影响。
为了克服这些局限性,统计学家引入了相关系数 (correlation coefficient)。相关系数是标准化的协方差,它是一个无量纲的、介于 和 之间的值,从而可以更直观地比较不同变量对之间线性关系的强度和方向。
(X, Y) = \frac{(X, Y)}{ }
其中 和 分别是 和 的标准差。
主要应用
尽管存在局限性,协方差在经济和金融领域仍然是不可或缺的工具。
现代投资组合理论 (MPT):在构建投资组合时,投资者不仅关心单个资产的预期回报和风险(方差),更关心不同资产回报之间的协方差。通过组合协方差为负或较低正值的资产,可以有效降低整个投资组合的总体风险,这就是多元化 (diversification) 的核心思想。一个双资产投资组合的风险(方差)由公式 决定。
计量经济学 (Econometrics):协方差是线性回归分析的基础。在简单线性回归 中,斜率系数 的估计值 可以表示为:
这表明,自变量 对因变量 的影响方向和大小直接与它们之间的协方差相关。
协方差矩阵
在多变量情形中,协方差的概念自然地扩展到协方差矩阵(Covariance Matrix)。对于一个 维随机向量 ,其协方差矩阵 是一个 的对称矩阵,其中第 个元素为 :
() \& (, ) \& \cdots \& (, ) \\ (, ) \& () \& \cdots \& (, ) \\ \vdots \& \vdots \& \ddots \& \vdots \\ (, ) \& (, ) \& \cdots \& ()
协方差矩阵在多元统计分析、主成分分析(PCA)和资产定价模型(CAPM)中发挥着核心作用。例如,在投资组合优化中,投资组合的总方差可以简洁地表示为 ,其中 是权重向量。
样本协方差与总体协方差的关系
作为对总体协方差 的估计,样本协方差 是一个无偏的估计量。也就是说,在重复抽样下, 的期望值等于真实的总体协方差。这一性质与样本方差的无偏性一脉相承。当样本量 足够大时,分母使用 或 的差异趋于微不足道,但在小样本情形下,使用 的修正对于获得无偏推断至关重要。
总结
协方差是衡量两个随机变量之间线性协同变化方向的基本度量。它不仅是计算相关系数和构建投资组合多元化的基石,也是线性回归、计量经济学推断以及多元统计分析中不可或缺的中间量。理解协方差的定义、性质及其与方差、相关系数的关系,是掌握更高级的统计与计量方法的必要前提。同时,明确其尺度依赖性和无法直接衡量关系强度的局限,有助于在实践中正确地选择后续的标准化工具(如相关系数)来进一步分析变量间的关联。