ARTICLE

方差-协方差矩阵

方差-协方差矩阵 (Variance-Covariance Matrix) 方差-协方差矩阵 (Variance-Covariance Matrix),简称 协方差矩阵 (Covariance Matrix),是 概率论 与 统计学 中描述一组 随机变量 之间线性关联结构的核心工具。它是一个方阵,全面刻画了多维随机向量的二阶矩信息——对角线承载各变量自身的

浏览 56 更新 2026-01-16

方差-协方差矩阵 (Variance-Covariance Matrix)

方差-协方差矩阵 (Variance-Covariance Matrix),简称 协方差矩阵 (Covariance Matrix),是 概率论统计学 中描述一组 随机变量 之间线性关联结构的核心工具。它是一个方阵,全面刻画了多维随机向量的二阶矩信息——对角线承载各变量自身的 方差(波动程度),非对角线承载两两变量之间的 协方差(联动方向与强度)。该矩阵构成了 多元统计分析计量经济学金融学 中风险建模与推断的理论基石。理解其结构与性质,是深入学习任何涉及多维数据分析领域的前提。

数学定义与结构

X=[X1,X2,,Xn]T\mathbf{X} = [X_1, X_2, \ldots, X_n]^Tnn随机向量,其均值向量 μ=E[X]\boldsymbol{\mu} = E[\mathbf{X}]。方差-协方差矩阵 Σ\boldsymbol{\Sigma} 由外积的 期望 定义:

Σ=E[(Xμ)(Xμ)T]\boldsymbol{\Sigma} = E\left[ (\mathbf{X} - \boldsymbol{\mu})(\mathbf{X} - \boldsymbol{\mu})^T \right]

展开后,Σ\boldsymbol{\Sigma} 是一个 n×nn \times n 的矩阵:

Σ=(Var(X1)Cov(X1,X2)Cov(X1,Xn)Cov(X2,X1)Var(X2)Cov(X2,Xn)Cov(Xn,X1)Cov(Xn,X2)Var(Xn))\boldsymbol{\Sigma} = \begin{pmatrix} \mathrm{Var}(X_1) & \mathrm{Cov}(X_1, X_2) & \cdots & \mathrm{Cov}(X_1, X_n) \\ \mathrm{Cov}(X_2, X_1) & \mathrm{Var}(X_2) & \cdots & \mathrm{Cov}(X_2, X_n) \\ \vdots & \vdots & \ddots & \vdots \\ \mathrm{Cov}(X_n, X_1) & \mathrm{Cov}(X_n, X_2) & \cdots & \mathrm{Var}(X_n) \end{pmatrix}

其中 Σii=Var(Xi)=E[(Xiμi)2]\Sigma_{ii} = \mathrm{Var}(X_i) = E[(X_i - \mu_i)^2] 度量第 ii 个变量偏离其均值的平均平方幅度;Σij=Cov(Xi,Xj)=E[(Xiμi)(Xjμj)]\Sigma_{ij} = \mathrm{Cov}(X_i, X_j) = E[(X_i - \mu_i)(X_j - \mu_j)] 度量两变量同向或反向联动的倾向——正值表示同向变动,负值表示反向变动,零表示无线性关联。由于 Cov(Xi,Xj)=Cov(Xj,Xi)\mathrm{Cov}(X_i, X_j) = \mathrm{Cov}(X_j, X_i),该矩阵必然是一个 对称矩阵。从几何角度看,Σ\boldsymbol{\Sigma} 的每个元素都刻画了随机向量在 nn 维空间中的散布椭球——对角线控制各轴方向的延展幅度,非对角线控制椭球的旋转与倾斜。

核心性质

方差-协方差矩阵具备若干关键数学性质,这些性质使其在理论推导和应用计算中都极为便利。

  1. 对称性Σ=ΣT\boldsymbol{\Sigma} = \boldsymbol{\Sigma}^T。这一性质意味着矩阵可被 正交对角化,为后续的 特征分解主成分分析 奠定基础。
  2. 半正定性:对任意非零实向量 aRn\mathbf{a} \in \mathbb{R}^n,二次型 aTΣa0\mathbf{a}^T \boldsymbol{\Sigma} \mathbf{a} \ge 0。原因在于 aTΣa=Var(aTX)\mathbf{a}^T \boldsymbol{\Sigma} \mathbf{a} = \mathrm{Var}(\mathbf{a}^T \mathbf{X}),而方差本身必定非负。若 随机变量 之间不存在 完全多重共线性(即没有任何一个变量可被其他变量的线性组合精确表示),则对所有非零 a\mathbf{a} 有严格不等式成立,此时 Σ\boldsymbol{\Sigma} 升级为 正定矩阵,保证可逆且 Cholesky 分解 可行。在数值计算中,Cholesky 分解将 Σ\boldsymbol{\Sigma} 表为 LLT\mathbf{L}\mathbf{L}^TL\mathbf{L} 为下三角阵),这一分解在蒙特卡洛模拟中广泛用于生成具有给定协方差结构的多元正态样本,也是许多优化算法的预处理步骤。
  3. 线性变换规则:若新随机向量 Y\mathbf{Y}仿射变换 Y=AX+b\mathbf{Y} = \mathbf{A}\mathbf{X} + \mathbf{b} 得到(ARm×n\mathbf{A} \in \mathbb{R}^{m \times n}bRm\mathbf{b} \in \mathbb{R}^m 为常数),则: \[ \mathrm{Cov}(\mathbf{Y}) = \mathbf{A} \boldsymbol{\Sigma} \mathbf{A}^T \] 这一规则将复杂的非线性协方差计算转化为简洁的矩阵乘法,在 现代投资组合理论 的资产组合风险分解和 多元线性回归 的系数推断中均扮演核心角色。
  4. 与相关系数矩阵的联系:协方差的值受变量量纲影响,不便于跨变量比较。令 D=diag(σ1,,σn)\mathbf{D} = \mathrm{diag}(\sigma_1, \ldots, \sigma_n) 为各变量 标准差 构成的对角阵(σi=Var(Xi)\sigma_i = \sqrt{\mathrm{Var}(X_i)}),则 相关系数 矩阵 R\mathbf{R} 满足: \[ \boldsymbol{\Sigma} = \mathbf{D} \mathbf{R} \mathbf{D}, \quad \mathbf{R} = \mathbf{D}^{-1} \boldsymbol{\Sigma} \mathbf{D}^{-1} \] R\mathbf{R} 的对角线全为 1,非对角线元素 ρij[1,1]\rho_{ij} \in [-1, 1] 为 Pearson 相关系数,消除了量纲,使不同变量对之间的线性关联强度可横向比较。

样本协方差矩阵

现实中的总体协方差矩阵 Σ\boldsymbol{\Sigma} 极少已知,须从观测数据中估计。设有 mm 组独立同分布的 nn 维观测向量 x1,x2,,xm\mathbf{x}_1, \mathbf{x}_2, \ldots, \mathbf{x}_m,首先计算 样本均值

μ^=1mk=1mxk\hat{\boldsymbol{\mu}} = \frac{1}{m} \sum_{k=1}^m \mathbf{x}_k

样本协方差矩阵 S\mathbf{S} 定义为:

S=1m1k=1m(xkμ^)(xkμ^)T\mathbf{S} = \frac{1}{m-1} \sum_{k=1}^m (\mathbf{x}_k - \hat{\boldsymbol{\mu}})(\mathbf{x}_k - \hat{\boldsymbol{\mu}})^T

此处分母选用 m1m-1 而非最大似然估计的 mm,源于 贝塞尔校正 (Bessel's Correction):以样本均值替代未知的总体均值会消耗一个 自由度,使用 m1m-1 可确保 S\mathbf{S}Σ\boldsymbol{\Sigma}无偏估计,即 E[S]=ΣE[\mathbf{S}] = \boldsymbol{\Sigma}。当样本量 mm 较小时,这一校正至关重要;当 mm \to \infty 时,两种定义渐近等价。在 n>mn > m 的高维设定下,样本协方差矩阵 S\mathbf{S} 即使作为估计量是无偏的,也会变为奇异矩阵而不可逆,此时须借助 收缩估计 (Shrinkage Estimation) 或稀疏性假设下的正则化方法(如 Graphical Lasso)来获得结构良好且可用的协方差矩阵估计。

典型应用

方差-协方差矩阵在多个学科中具有不可替代的应用价值。

  • 金融学与投资组合理论:在 哈里·马科维茨 创立的 现代投资组合理论 (Modern Portfolio Theory, MPT) 中,nn 项风险资产构成的投资组合,其收益方差(风险度量)为二次型 σp2=wTΣw\sigma_p^2 = \mathbf{w}^T \boldsymbol{\Sigma} \mathbf{w},其中 w\mathbf{w} 为资产权重向量。分散化原理 的核心在于:只要资产间相关系数 ρij<1\rho_{ij} < 1,组合方差便严格小于各资产方差的加权平均。通过求解二次规划问题,投资者可在给定收益水平下最小化 σp2\sigma_p^2,从而构造 有效前沿 (Efficient Frontier)。
  • 计量经济学与统计推断:在 多元线性回归 模型 y=Xβ+ϵ\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\epsilon} 中,普通最小二乘法 (OLS) 估计量 β^=(XTX)1XTy\hat{\boldsymbol{\beta}} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y} 的协方差矩阵为: \[ \mathrm{Cov}(\hat{\boldsymbol{\beta}}) = \sigma^2 (\mathbf{X}^T\mathbf{X})^{-1} \] 其中 σ2\sigma^2误差项 方差,X\mathbf{X}设计矩阵。该矩阵的对角线元素给出各回归系数估计量的标准误,是进行 假设检验(如 t 检验判断单个系数的显著性、F 检验判断多个线性约束的联合显著性)和构造 置信区间 的核心输入。当误差项存在 异方差自相关 时,需使用稳健协方差矩阵估计(如 White 或 Newey-West 估计量)替代上述经典形式。
  • 多元统计与降维:在 主成分分析 (Principal Component Analysis, PCA) 中,对 Σ\boldsymbol{\Sigma}(或对标准化后的相关系数矩阵 R\mathbf{R},以消除量纲差异导致的偏差)进行 谱分解Σ=QΛQT\boldsymbol{\Sigma} = \mathbf{Q} \boldsymbol{\Lambda} \mathbf{Q}^T,其中 Λ=diag(λ1,,λn)\boldsymbol{\Lambda} = \mathrm{diag}(\lambda_1, \ldots, \lambda_n) 为降序排列的 特征值Q\mathbf{Q} 的列向量为对应的 特征向量。第一主成分方向由最大特征值对应的特征向量给出,保留了数据最大的方差分量;保留前 kk 个主成分即可在损失最少信息的前提下实现 降维。此外,在 多元正态分布 N(μ,Σ)\mathcal{N}(\boldsymbol{\mu}, \boldsymbol{\Sigma}) 中,Σ\boldsymbol{\Sigma} 完全决定了概率密度等高线的形状、方向和散布程度——若 Σ\boldsymbol{\Sigma} 为对角阵则各维独立,若为单位阵则退化为各向同性的标准正态。