知经 KNOWECON · 卓越的经济金融统计数学学习平台

多元正态分布

# 多元正态分布 (Multivariate Normal Distribution)

多元正态分布 (Multivariate Normal Distribution, MVN),也称为 多元高斯分布 (Multivariate Gaussian Distribution),是统计学中一个基础且极为重要的{{{概率分布}}}。它是单变量{{{正态分布}}} (Univariate Normal Distribution) 在多维空间中的自然推广,用于描述多个连续型{{{随机变量}}}之间的联合概率行为。

多元正态分布在金融、经济、机器学习等诸多领域都有着广泛的应用,因为它能够以一种数学上易于处理的方式来刻画变量间的{{{线性相关性}}}。

## 正式定义

一个 $n$ 维的随机{{{向量}}} $\mathbf{X} = [X_1, X_2, \ldots, X_n]^T$ 如果服从多元正态分布,那么它的{{{概率密度函数}}} (Probability Density Function, PDF) 由以下公式给出:

$$ f_{\mathbf{X}}( \mathbf{x} ) = \frac{1}{(2\pi)^{n/2} |\boldsymbol{\Sigma}|^{1/2}} \exp\left( -\frac{1}{2} (\mathbf{x} - \boldsymbol{\mu})^T \boldsymbol{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu}) \right) $$

这个分布由两个参数完全确定:

1. 均值向量 (Mean Vector) $\boldsymbol{\mu}$:一个 $n \times 1$ 的向量,表示分布的中心或位置。 2. 协方差矩阵 (Covariance Matrix) $\boldsymbol{\Sigma}$:一个 $n \times n$ 的{{{矩阵}}},描述了各个变量的离散程度以及它们之间的线性关系。

我们通常使用记号 $\mathbf{X} \sim \mathcal{N}(\boldsymbol{\mu}, \boldsymbol{\Sigma})$ 来表示向量 $\mathbf{X}$ 服从均值为 $\boldsymbol{\mu}$、协方差矩阵为 $\boldsymbol{\Sigma}$ 的多元正态分布。

### 解析概率密度函数

* $\boldsymbol{\mu} = E[\mathbf{X}]$ 是一个 $n$ 维列向量,其中第 $i$ 个元素 $\mu_i$ 是随机变量 $X_i$ 的{{{期望值}}}。它决定了概率密度函数的中心点。 * $\boldsymbol{\Sigma}$ 是一个 $n \times n$ 的{{{协方差矩阵}}}。它必须是对称{{{正定}}} (Positive Definite) 的。 * 其对角线元素 $\Sigma_{ii} = \text{Var}(X_i) = \sigma_i^2$ 是每个随机变量 $X_i$ 的{{{方差}}}。 * 其非对角线元素 $\Sigma_{ij} = \text{Cov}(X_i, X_j)$ 是随机变量 $X_i$ 和 $X_j$ 之间的{{{协方差}}}。 * $|\boldsymbol{\Sigma}|$ 是协方差矩阵的{{{行列式}}} (determinant)。 * $\boldsymbol{\Sigma}^{-1}$ 是协方差矩阵的逆矩阵。 * 指数部分中的二次型 $(\mathbf{x} - \boldsymbol{\mu})^T \boldsymbol{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu})$ 被称为点 $\mathbf{x}$ 到中心 $\boldsymbol{\mu}$ 的平方{{{马氏距离}}} (Squared {{{Mahalanobis Distance}}})。它是一个标量,衡量了点 $\mathbf{x}$ 与分布中心的"统计距离",考虑了变量间的相关性。

## 核心性质

多元正态分布之所以如此重要,很大程度上归功于其优雅和强大的数学性质。

1. 线性变换下的封闭性 这是MVN最核心的性质之一。如果一个随机向量 $\mathbf{X} \sim \mathcal{N}(\boldsymbol{\mu}, \boldsymbol{\Sigma})$,那么它的任何{{{线性变换}}} $\mathbf{Y} = \mathbf{A}\mathbf{X} + \mathbf{b}$(其中 $\mathbf{A}$ 是一个 $m \times n$ 的常数矩阵,$\mathbf{b}$ 是一个 $m \times 1$ 的常数向量)也服从多元正态分布。其新的分布为: $$ \mathbf{Y} \sim \mathcal{N}(\mathbf{A}\boldsymbol{\mu} + \mathbf{b}, \mathbf{A}\boldsymbol{\Sigma}\mathbf{A}^T) $$ 这个性质在投资组合理论等领域至关重要,因为一个投资组合的收益正是其包含的各项资产收益的线性组合。

2. 边缘分布 (Marginal Distributions) 多元正态分布的任何一个子集(即它的边缘分布)也服从正态分布。例如,如果我们将向量 $\mathbf{X}$ 划分为两个部分 $\mathbf{X} = \begin{bmatrix} \mathbf{X}_a \\ \mathbf{X}_b \end{bmatrix}$,其对应的均值和协方差矩阵也相应地划分为: $$ \boldsymbol{\mu} = \begin{bmatrix} \boldsymbol{\mu}_a \\ \boldsymbol{\mu}_b \end{bmatrix}, \quad \boldsymbol{\Sigma} = \begin{bmatrix} \boldsymbol{\Sigma}_{aa} & \boldsymbol{\Sigma}_{ab} \\ \boldsymbol{\Sigma}_{ba} & \boldsymbol{\Sigma}_{bb} \end{bmatrix} $$ 那么,边缘分布 $\mathbf{X}_a$ 和 $\mathbf{X}_b$ 本身就是多元正态的: $$ \mathbf{X}_a \sim \mathcal{N}(\boldsymbol{\mu}_a, \boldsymbol{\Sigma}_{aa}) \quad \text{和} \quad \mathbf{X}_b \sim \mathcal{N}(\boldsymbol{\mu}_b, \boldsymbol{\Sigma}_{bb}) $$ 特别地,MVN中的每一个单独分量 $X_i$ 都服从一个一元正态分布 $X_i \sim \mathcal{N}(\mu_i, \Sigma_{ii})$。

3. 条件分布 (Conditional Distributions) 在给定MVN中一个子集的值的条件下,另一个子集的分布依然是多元正态分布。继续使用上面的划分,给定 $\mathbf{X}_b = \mathbf{x}_b$ 时,$\mathbf{X}_a$ 的条件分布为: $$ \mathbf{X}_a | \mathbf{X}_b = \mathbf{x}_b \sim \mathcal{N}(\bar{\boldsymbol{\mu}}, \bar{\boldsymbol{\Sigma}}) $$ 其中,条件均值和条件协方差分别为: $$ \bar{\boldsymbol{\mu}} = \boldsymbol{\mu}_a + \boldsymbol{\Sigma}_{ab}\boldsymbol{\Sigma}_{bb}^{-1}(\mathbf{x}_b - \boldsymbol{\mu}_b) $$ $$ \bar{\boldsymbol{\Sigma}} = \boldsymbol{\Sigma}_{aa} - \boldsymbol{\Sigma}_{ab}\boldsymbol{\Sigma}_{bb}^{-1}\boldsymbol{\Sigma}_{ba} $$ 这个性质是{{{线性回归}}}分析和{{{贝叶斯推断}}} ({{{Bayesian Inference}}})的理论基础。

4. 不相关等价于独立 对于一般的随机变量,零协方差(不相关)不一定意味着{{{统计独立}}}。然而,对于服从多元正态分布的随机变量,不相关与独立是等价的。也就是说,如果 $X_i$ 和 $X_j$ 是一个MVN向量的两个分量,并且它们的协方差 $\text{Cov}(X_i, X_j) = \Sigma_{ij} = 0$,那么 $X_i$ 和 $X_j$ 就是相互独立的。

## 几何解释:等高线图

多元正态分布的概率密度函数的等高线(即所有具有相同概率密度的点的集合)是{{{椭球}}} (ellipsoids) 或椭圆 (ellipses)(在二维情况下)。 * 这些椭球的中心是均值向量 $\boldsymbol{\mu}$。 * 椭球的形状和方向由协方差矩阵 $\boldsymbol{\Sigma}$ 决定。$\boldsymbol{\Sigma}$ 的{{{特征向量}}} (eigenvectors) 指出了椭球的主轴方向,而对应的{{{特征值}}} (eigenvalues) 的平方根与主轴的长度成正比。

## 二元正态分布:一个直观的特例

当 $n=2$ 时,我们得到二元正态分布 (Bivariate Normal Distribution),这有助于我们直观地理解协方差的作用。此时,协方差矩阵可以写作: $$ \boldsymbol{\Sigma} = \begin{pmatrix} \sigma_1^2 & \rho\sigma_1\sigma_2 \\ \rho\sigma_1\sigma_2 & \sigma_2^2 \end{pmatrix} $$ 其中,$\sigma_1$ 和 $\sigma_2$ 分别是 $X_1$ 和 $X_2$ 的标准差,$\rho$ 是它们之间的{{{相关系数}}} ({{{Correlation Coefficient}}})。 * 如果 $\rho=0$,两个变量不相关(也因此独立),等高线是与坐标轴平行的椭圆(如果 $\sigma_1=\sigma_2$,则是圆形)。 * 如果 $\rho > 0$,两个变量正相关,等高线椭圆的長轴呈正斜率,表示一个变量增大时,另一个变量也倾向于增大。 * 如果 $\rho < 0$,两个变量负相关,等高线椭圆的長轴呈负斜率,表示一个变量增大时,另一个变量倾向于减小。 * $|\rho|$ 的值越接近1,椭圆被拉伸得越长,表明两个变量之间的线性关系越强。

## 应用与局限

### 主要应用 * 金融学:在现代{{{投资组合理论}}} ({{{Markowitz portfolio theory}}})中,资产的收益率被假设为服从多元正态分布,该理论利用均值-方差框架来寻找最优资产配置。{{{风险价值}}} ({{{Value at Risk (VaR)}}}) 的计算也常常基于此假设。 * 计量经济学:在{{{线性回归}}}模型 $Y = X\beta + \epsilon$ 中,误差项 $\epsilon$ 常被假设为服从均值为0的多元正态分布,即 $\epsilon \sim \mathcal{N}(0, \sigma^2 I)$。这个假设是进行{{{假设检验}}}和构建置信区间的基础。 * 机器学习:在分类问题中,{{{线性判别分析}}} (Linear Discriminant Analysis, LDA) 假设每个类别的数据点都服从一个协方差矩阵相同但均值不同的多元正态分布。

### 局限性 尽管多元正态分布在理论和应用中都极为方便,但其核心假设在现实世界中并不总是成立。 * {{{肥尾}}} ({{{Fat Tails}}}):许多金融资产的收益率分布表现出比正态分布更厚的尾部,这意味着极端事件(如市场崩盘)发生的概率比正态模型预测的要高。 * {{{偏度}}} ({{{Skewness}}}):实际数据分布可能是不对称的,而正态分布是完全对称的。 * 非线性关系:MVN只能捕捉变量间的线性相关性。如果变量间存在复杂的非线性依赖关系,MVN将无法有效描述。

为了克服这些局限,统计学家开发了如{{{多元t分布}}} ({{{Multivariate t-distribution}}})、{{{Copula函数}}}等更为灵活的模型。尽管如此,多元正态分布仍然是理解多变量统计分析的基石。