ARTICLE

协方差

协方差 (Covariance) 协方差 (Covariance) 是统计学与概率论中的一个核心概念，用于衡量两个随机变量 (random variables) 之间的联合变化关系。具体来说，它度量的是两个变量在多大程度上会协同变化。如果一个变量的较大值主要对应于另一变量的较大值（或者一个变量的较小值主要对应于另一变量的较小值），则协方差为正。反之，如果一个

浏览 68 更新 2025-10-26

协方差 (Covariance)

协方差 (Covariance) 是统计学与概率论中的一个核心概念，用于衡量两个随机变量 (random variables) 之间的联合变化关系。具体来说，它度量的是两个变量在多大程度上会协同变化。如果一个变量的较大值主要对应于另一变量的较大值（或者一个变量的较小值主要对应于另一变量的较小值），则协方差为正。反之，如果一个变量的较大值主要对应于另一变量的较小值，则协方差为负。如果两个变量之间没有明显的线性关系，则协方差趋近于零。

协方差是理解变量间关系的第一步，并且是计算相关系数和构建多元化投资组合等高级概念的基础。

数学定义

协方差的定义分为对总体 (population) 的定义和对样本 (sample) 的定义。

总体协方差

对于两个随机变量 $X$ 和 $Y$ ，其总体协方差定义为它们各自与其期望值 (expected value) 离差乘积的期望值。

\text{Cov}(X, Y) = E[(X - E[X])(Y - E[Y])]

其中， $E[X]$ 和 $E[Y]$ 分别是随机变量 $X$ 和 $Y$ 的期望值（或均值）。

这个公式在计算上通常不方便。通过展开上述表达式，可以得到一个更实用的计算公式：

\begin{aligned} \text{Cov}(X, Y) &= E[XY - X \cdot E[Y] - Y \cdot E[X] + E[X]E[Y]] \\ &= E[XY] - E[X \cdot E[Y]] - E[Y \cdot E[X]] + E[E[X]E[Y]] \\ &= E[XY] - E[X]E[Y] - E[Y]E[X] + E[X]E[Y] \\ &= E[XY] - E[X]E[Y] \end{aligned}

因此，一个等价且常用的公式是：

\text{Cov}(X, Y) = E[XY] - E[X]E[Y]

这个公式表明，协方差是两变量乘积的期望值与两变量各自期望值乘积之差。

样本协方差

在实际应用中，我们通常处理的是从总体中抽取的样本数据。对于一组包含 $n$ 个配对观测值 $(x_1, y_1), (x_2, y_2), \dots, (x_n, y_n)$ 的样本，其样本协方差（通常记为 $s_{xy}$ 或 $\hat{\sigma}_{xy}$ ）计算如下：

s_{xy} = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})

其中：

$x_i$ 和 $y_i$ 是第 $i$ 对观测值。
$\bar{x}$ 和 $\bar{y}$ 是样本 $X$ 和 $Y$ 的平均值。
分母使用 $n-1$ 而不是 $n$ 是为了得到总体协方差的一个无偏估计量 (unbiased estimator)。这与样本方差计算中使用 $n-1$ 的原因相同，涉及到自由度 (degrees of freedom) 的概念。

直观理解协方差的正负

我们可以通过分析样本协方差公式 $\sum (x_i - \bar{x})(y_i - \bar{y})$ 来直观地理解其含义。想象一个以 $(\bar{x}, \bar{y})$ 为中心点的散点图 (scatter plot)，该中心点将平面分为四个象限：

右上象限 (I)：此处的点满足 $x_i > \bar{x}$ 且 $y_i > \bar{y}$ 。因此，乘积项 $(x_i - \bar{x})(y_i - \bar{y})$ 为正。
左上象限 (II)：此处的点满足 $x_i < \bar{x}$ 且 $y_i > \bar{y}$ 。因此，乘积项 $(x_i - \bar{x})(y_i - \bar{y})$ 为负。
左下象限 (III)：此处的点满足 $x_i < \bar{x}$ 且 $y_i < \bar{y}$ 。因此，乘积项 $(x_i - \bar{x})(y_i - \bar{y})$ 为正。
右下象限 (IV)：此处的点满足 $x_i > \bar{x}$ 且 $y_i < \bar{y}$ 。因此，乘积项 $(x_i - \bar{x})(y_i - \bar{y})$ 为负。

正协方差：如果数据点主要分布在右上（I）和左下（III）象限，那么大多数乘积项为正，它们的总和将是一个较大的正数，意味着 $X$ 和 $Y$ 倾向于同向变动。
负协方差：如果数据点主要分布在左上（II）和右下（IV）象限，那么大多数乘积项为负，它们的总和将是一个较大的负数，意味着 $X$ 和 $Y$ 倾向于反向变动。
零协方差：如果数据点均匀地分布在所有四个象限，那么正的乘积项和负的乘积项会相互抵消，总和将趋近于零。这表明 $X$ 和 $Y$ 之间没有线性的关联。

协方差的性质

协方差具有以下重要的数学性质（假设 $X, Y, Z$ 为随机变量， $a, b, c, d$ 为常数）：

与方差的关系：一个变量与自身的协方差等于其方差。 \[ \text{Cov}(X, X) = \text{Var}(X) \]
对称性：变量的顺序不影响协方差的值。 \[ \text{Cov}(X, Y) = \text{Cov}(Y, X) \]
常数的可加性：对变量加上一个常数不改变协方差。 \[ \text{Cov}(X+a, Y+b) = \text{Cov}(X, Y) \]
常数的乘法性： \[ \text{Cov}(aX, bY) = ab \cdot \text{Cov}(X, Y) \]
线性组合（双线性）： \[ \text{Cov}(X+Y, Z) = \text{Cov}(X, Z) + \text{Cov}(Y, Z) \] \[ \text{Cov}(aX+bY, cZ+dW) = ac \cdot \text{Cov}(X,Z) + ad \cdot \text{Cov}(X,W) + bc \cdot \text{Cov}(Y,Z) + bd \cdot \text{Cov}(Y,W) \]
两随机变量和的方差：这是金融领域极为重要的一个属性。 \[ \text{Var}(X+Y) = \text{Var}(X) + \text{Var}(Y) + 2\text{Cov}(X, Y) \] 更一般地： \[ \text{Var}(aX+bY) = a^2\text{Var}(X) + b^2\text{Var}(Y) + 2ab\text{Cov}(X, Y) \]
独立性与协方差：如果两个随机变量 $X$ 和 $Y$ 是独立性 (概率论)的，那么它们的协方差为零。 \[ \text{若 } X, Y \text{ 独立, 则 } \text{Cov}(X, Y) = 0 \] 重要的是，反之不成立。协方差为零仅表示两个变量是不相关 (uncorrelated)，即没有线性关系，但它们可能存在非线性关系。例如，设 $X$ 是一个在 $[-1, 1]$ 上均匀分布的随机变量，令 $Y=X^2$ 。显然 $Y$ 是完全由 $X$ 决定的，但它们的协方差 $\text{Cov}(X, Y) = 0$ 。

协方差的局限性

协方差的主要局限在于其数值大小本身难以解释。协方差的单位是两个变量单位的乘积（例如，如果 $X$ 的单位是米， $Y$ 的单位是千克，则 $\text{Cov}(X, Y)$ 的单位是米-千克）。这导致了两个问题：

依赖于变量的尺度：如果将变量 $X$ 的单位从米改为厘米（乘以100），协方差的值也会乘以100，尽管变量之间的根本关系没有改变。
缺乏可比较的基准：我们无法仅通过协方差的数值（比如 200 或 -5000）来判断关系的"强弱"，因为它的大小受变量自身波动性（即标准差）的影响。

为了克服这些局限性，统计学家引入了相关系数 (correlation coefficient)。相关系数是标准化的协方差，它是一个无量纲的、介于 $-1$ 和 $+1$ 之间的值，从而可以更直观地比较不同变量对之间线性关系的强度和方向。

$\rho$ (X, Y) = $\frac$ { $\text{Cov}$ (X, Y)}{ $\sigma_X$ $\sigma_Y$ }

其中 $\sigma_X$ 和 $\sigma_Y$ 分别是 $X$ 和 $Y$ 的标准差。

主要应用

尽管存在局限性，协方差在经济和金融领域仍然是不可或缺的工具。

现代投资组合理论 (MPT)：在构建投资组合时，投资者不仅关心单个资产的预期回报和风险（方差），更关心不同资产回报之间的协方差。通过组合协方差为负或较低正值的资产，可以有效降低整个投资组合的总体风险，这就是多元化 (diversification) 的核心思想。一个双资产投资组合的风险（方差）由公式 $\sigma_p^2 = w_A^2 \sigma_A^2 + w_B^2 \sigma_B^2 + 2w_A w_B \text{Cov}(R_A, R_B)$ 决定。

计量经济学 (Econometrics)：协方差是线性回归分析的基础。在简单线性回归 $Y = \beta_0 + \beta_1 X + \epsilon$ 中，斜率系数 $\beta_1$ 的估计值 $\hat{\beta}_1$ 可以表示为：

\hat{\beta}_1 = \frac{s_{xy}}{s_x^2} = \frac{\text{Cov}(X, Y)}{\text{Var}(X)}

这表明，自变量 $X$ 对因变量 $Y$ 的影响方向和大小直接与它们之间的协方差相关。

协方差矩阵

在多变量情形中，协方差的概念自然地扩展到协方差矩阵（Covariance Matrix）。对于一个 $k$ 维随机向量 $\mathbf{X} = (X_1, X_2, \dots, X_k)^T$ ，其协方差矩阵 $\Sigma$ 是一个 $k \times k$ 的对称矩阵，其中第 $(i, j)$ 个元素为 $\text{Cov}(X_i, X_j)$ ：

\Sigma = \begin{pmatrix}

$\text{Var}$ ( $X_1$ ) \& $\text{Cov}$ ( $X_1$ , $X_2$ ) \& \cdots \& $\text{Cov}$ ( $X_1$ , $X_k$ ) \\ $\text{Cov}$ ( $X_2$ , $X_1$ ) \& $\text{Var}$ ( $X_2$ ) \& \cdots \& $\text{Cov}$ ( $X_2$ , $X_k$ ) \\ \vdots \& \vdots \& \ddots \& \vdots \\ $\text{Cov}$ ( $X_k$ , $X_1$ ) \& $\text{Cov}$ ( $X_k$ , $X_2$ ) \& \cdots \& $\text{Var}$ ( $X_k$ )

\end{pmatrix}

协方差矩阵在多元统计分析、主成分分析（PCA）和资产定价模型（CAPM）中发挥着核心作用。例如，在投资组合优化中，投资组合的总方差可以简洁地表示为 $\sigma_p^2 = \mathbf{w}^T \Sigma \mathbf{w}$ ，其中 $\mathbf{w}$ 是权重向量。

样本协方差与总体协方差的关系

作为对总体协方差 $\text{Cov}(X, Y)$ 的估计，样本协方差 $s_{xy} = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})$ 是一个无偏的估计量。也就是说，在重复抽样下， $s_{xy}$ 的期望值等于真实的总体协方差。这一性质与样本方差的无偏性一脉相承。当样本量 $n$ 足够大时，分母使用 $n$ 或 $n-1$ 的差异趋于微不足道，但在小样本情形下，使用 $n-1$ 的修正对于获得无偏推断至关重要。

总结

协方差是衡量两个随机变量之间线性协同变化方向的基本度量。它不仅是计算相关系数和构建投资组合多元化的基石，也是线性回归、计量经济学推断以及多元统计分析中不可或缺的中间量。理解协方差的定义、性质及其与方差、相关系数的关系，是掌握更高级的统计与计量方法的必要前提。同时，明确其尺度依赖性和无法直接衡量关系强度的局限，有助于在实践中正确地选择后续的标准化工具（如相关系数）来进一步分析变量间的关联。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。