ARTICLE

二元正态分布

二元正态分布(英语:bivariate normal distribution)是概率论与统计学中一种最基本的多元连续概率分布,它描述的是两个服从正态分布的随机变量之间的联合分布关系。作为多元正态分布当维数 p=2 时的特例,二元正态分布在数理统计、计量经济学、机器学习以及各类自然科学与社会科学领域中均有广泛而深刻的应用。 定义 设 (X, Y) 为二维随机

浏览 0 更新 2025-10-26

二元正态分布(英语:bivariate normal distribution)是概率论与统计学中一种最基本的多元连续概率分布,它描述的是两个服从正态分布的随机变量之间的联合分布关系。作为多元正态分布当维数 p=2 p=2 时的特例,二元正态分布在数理统计、计量经济学、机器学习以及各类自然科学与社会科学领域中均有广泛而深刻的应用。

定义

(X,Y) (X, Y) 为二维随机向量。若其联合概率密度函数为

f(x,y)=12πσXσY1ρ2exp{12(1ρ2)[(xμXσX)22ρ(xμXσX)(yμYσY)+(yμYσY)2]},f(x, y) = \frac{1}{2\pi\sigma_X\sigma_Y\sqrt{1-\rho^2}} \exp\left\{ -\frac{1}{2(1-\rho^2)} \left[ \left(\frac{x-\mu_X}{\sigma_X}\right)^2 - 2\rho\left(\frac{x-\mu_X}{\sigma_X}\right)\left(\frac{y-\mu_Y}{\sigma_Y}\right) + \left(\frac{y-\mu_Y}{\sigma_Y}\right)^2 \right] \right\},

则称 (X,Y) (X, Y) 服从参数为 (μX,μY,σX2,σY2,ρ) (\mu_X, \mu_Y, \sigma_X^2, \sigma_Y^2, \rho) 的二元正态分布,常记为

(XY)N((μXμY),(σX2ρσXσYρσXσYσY2)).\begin{pmatrix} X \\ Y \end{pmatrix} \sim \mathcal{N}\left( \begin{pmatrix} \mu_X \\ \mu_Y \end{pmatrix}, \begin{pmatrix} \sigma_X^2 & \rho\sigma_X\sigma_Y \\ \rho\sigma_X\sigma_Y & \sigma_Y^2 \end{pmatrix} \right).

其中 μX=E[X] \mu_X = \mathbb{E}[X] μY=E[Y] \mu_Y = \mathbb{E}[Y] 分别为两个分量的均值;σX2=Var(X) \sigma_X^2 = \text{Var}(X) σY2=Var(Y) \sigma_Y^2 = \text{Var}(Y) 分别为方差;ρ=Corr(X,Y) \rho = \text{Corr}(X, Y) X X Y Y 之间的相关系数,满足 ρ<1 |\rho| < 1 。当 ρ=0 \rho = 0 时,两个变量相互独立。协方差矩阵 Σ=(σX2ρσXσYρσXσYσY2) \Sigma = \begin{pmatrix} \sigma_X^2 & \rho\sigma_X\sigma_Y \\ \rho\sigma_X\sigma_Y & \sigma_Y^2 \end{pmatrix} 必须为正定矩阵,这一条件等价于 σX2>0 \sigma_X^2 > 0 σY2>0 \sigma_Y^2 > 0 ρ<1 |\rho| < 1

基本性质

边缘分布。(X,Y) (X, Y) 服从二元正态分布,则其两个边缘分布均为一元正态分布:

XN(μX,σX2),YN(μY,σY2).X \sim \mathcal{N}(\mu_X, \sigma_X^2), \qquad Y \sim \mathcal{N}(\mu_Y, \sigma_Y^2).

这一性质可由联合密度函数对另一个变量积分得到,也可从协方差矩阵的结构直接推导。值得注意的是,边缘分布为正态是二元正态分布的必要条件,但反之并不成立:两个边缘分布都是正态的随机向量,其联合分布不一定是二元正态分布。

条件分布。 二元正态分布最为重要的性质之一是其在条件化下的封闭性。给定 X=x X = x Y Y 的条件分布仍然是正态分布:

YX=xN(μY+ρσYσX(xμX),  σY2(1ρ2)).Y \mid X = x \sim \mathcal{N}\left( \mu_Y + \rho\frac{\sigma_Y}{\sigma_X}(x - \mu_X),\; \sigma_Y^2(1 - \rho^2) \right).

这一结果有两点值得强调。第一,条件均值函数 E[YX=x]=μY+ρσYσX(xμX) \mathbb{E}[Y \mid X = x] = \mu_Y + \rho\frac{\sigma_Y}{\sigma_X}(x - \mu_X) x x 的线性函数,它构成了经典线性回归模型的理论基础——在二元正态假设下,最优预测函数恰好是线性的。第二,条件方差 Var(YX=x)=σY2(1ρ2) \text{Var}(Y \mid X = x) = \sigma_Y^2(1 - \rho^2) x x 的取值无关,这一性质被称为同方差性(homoscedasticity)。ρ |\rho| 越接近 1 1 ,条件方差越小,这意味着 X X Y Y 的预测能力越强;当 ρ=0 |\rho| = 0 时,条件方差退化为无条件方差 σY2 \sigma_Y^2 ,表明 X X 不包含关于 Y Y 的任何线性信息。

独立性。 对于二元正态分布而言,X X Y Y 相互独立当且仅当相关系数 ρ=0 \rho = 0 。这一命题在一般分布中并不成立——对任意分布,独立必然推出不相关,但反过来不相关并不保证独立。然而在(多元)正态分布这一特定分布族中,不相关与独立是等价的。这一性质源于正态分布的特征函数形式:当 ρ=0 \rho = 0 时,联合特征函数可分解为两个边缘特征函数的乘积。

线性组合的封闭性。 二元正态分布对线性变换具有封闭性。若 (X,Y) (X, Y) 服从二元正态分布,则对任意实数 a,b a, b ,有

aX+bYN(aμX+bμY,  a2σX2+b2σY2+2abρσXσY).aX + bY \sim \mathcal{N}\left( a\mu_X + b\mu_Y,\; a^2\sigma_X^2 + b^2\sigma_Y^2 + 2ab\rho\sigma_X\sigma_Y \right).

更一般地,对于 m m 个线性组合的情形,所得随机向量仍服从多元正态分布。这一性质在投资组合理论中至关重要:若多项资产的收益率服从联合正态分布,则任意投资组合的收益率也服从正态分布。

特征函数与矩母函数。 二元正态分布的特征函数为

ϕX,Y(t1,t2)=exp[i(t1μX+t2μY)12(t12σX2+t22σY2+2t1t2ρσXσY)],\phi_{X,Y}(t_1, t_2) = \exp\left[ i(t_1\mu_X + t_2\mu_Y) - \frac{1}{2}(t_1^2\sigma_X^2 + t_2^2\sigma_Y^2 + 2t_1t_2\rho\sigma_X\sigma_Y) \right],

矩母函数具有类似形式。这些函数在理论推导中具有重要作用,例如用于证明中心极限定理的多元版本。

参数估计

给定 (Xi,Yi)i=1n (X_i, Y_i)_{i=1}^n 为来自二元正态总体的独立同分布样本,五个参数的极大似然估计分别为:

  • μ^X=Xˉ=1ni=1nXi \hat{\mu}_X = \bar{X} = \frac{1}{n}\sum_{i=1}^n X_i μ^Y=Yˉ=1ni=1nYi \hat{\mu}_Y = \bar{Y} = \frac{1}{n}\sum_{i=1}^n Y_i (样本均值)
  • σ^X2=1ni=1n(XiXˉ)2 \hat{\sigma}_X^2 = \frac{1}{n}\sum_{i=1}^n (X_i - \bar{X})^2 σ^Y2=1ni=1n(YiYˉ)2 \hat{\sigma}_Y^2 = \frac{1}{n}\sum_{i=1}^n (Y_i - \bar{Y})^2 (有偏方差)
  • ρ^=i=1n(XiXˉ)(YiYˉ)i=1n(XiXˉ)2i=1n(YiYˉ)2 \hat{\rho} = \frac{\sum_{i=1}^n (X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum_{i=1}^n (X_i - \bar{X})^2 \sum_{i=1}^n (Y_i - \bar{Y})^2}}

其中 ρ^ \hat{\rho} 即为样本皮尔逊相关系数。需要注意的是,σ^X2 \hat{\sigma}_X^2 σ^Y2 \hat{\sigma}_Y^2 的极大似然估计分母为 n n ,属于有偏估计;若改用 n1 n-1 作为分母,可得到无偏估计量。此外,ρ^ \hat{\rho} 的抽样分布涉及费希尔 z z 变换——z=12ln1+ρ^1ρ^ z = \frac{1}{2}\ln\frac{1+\hat{\rho}}{1-\hat{\rho}} 近似服从正态分布,这一变换常用于构造相关系数的置信区间。

几何直观

二元正态分布的概率密度函数在三维空间中呈现"钟形曲面"的形态。当从顶部俯视时,密度函数的等高线表现为一族同心椭圆。具体而言:

  • ρ=0 \rho = 0 σX=σY \sigma_X = \sigma_Y 时,等高线为同心圆。
  • ρ=0 \rho = 0 σXσY \sigma_X \neq \sigma_Y 时,等高线为轴对齐的椭圆,长轴与坐标轴平行。
  • ρ0 \rho \neq 0 时,等高线为旋转后的椭圆,旋转角度由 ρ \rho 的符号和 σX \sigma_X σY \sigma_Y 的相对大小共同决定。

ρ>0 \rho > 0 表示正向线性关系,椭圆沿 y=x y = x 方向拉长;ρ<0 \rho < 0 则表示负向关系,椭圆沿 y=x y = -x 方向拉长。ρ |\rho| 越接近 1 1 ,椭圆越狭长,表明变量间的线性相关性越强。当 ρ |\rho| 趋近于 1 1 时,椭圆退化为一条直线,意味着 X X Y Y 几乎完全线性相关。

应用场景

二元正态分布在多个学科中扮演着重要角色:

  • 计量经济学:线性回归模型中的误差项常假定服从联合正态分布,由此可推导最小二乘估计量的精确有限样本分布(t t 分布、F F 分布等)。工具变量估计、联立方程模型等更复杂的方法也依赖于正态性假定来构造统计推断。
  • 金融学与投资学:马克维茨的均值-方差投资组合理论假设资产收益率服从(联合)正态分布,从而将投资组合选择问题简化为均值与方差之间的权衡。风险价值(VaR)等风险管理指标的计算也常以正态假定为出发点。
  • 质量控制:霍特林 T2 T^2 控制图用于同时监控两个或多个相关质量特征,其理论基础正是多元正态分布。
  • 机器学习:高斯判别分析(GDA)假设每个类别的特征向量服从多元正态分布(包括二元正态分布作为特例),通过估计各类别的均值和协方差矩阵来进行分类。高斯过程回归中也涉及多元正态分布的条件分布计算。
  • 遗传学:两个数量性状(如身高与体重)的联合分布常用二元正态分布建模,遗传相关系数的估计通常基于此假设。

与更一般分布的关系

二元正态分布是多元正态分布在 p=2 p=2 时的特例,而多元正态分布又是椭圆分布家族中的一员。在实际数据分析中,若数据呈现厚尾、偏斜或峰度异常等特征,可考虑使用二元 t t 分布(具有更厚的尾部,适合处理异常值)、二元偏态正态分布(允许非对称性)或 Copula 模型(可分别建模边缘分布和相依结构)等更灵活的替代方案。其中,Copula 方法尤其值得关注,它通过将边缘分布与相依结构分离,允许两个变量分别具有任意形式的边缘分布,同时仍然能够刻画复杂的非线性相关关系。

综上,二元正态分布以其简洁的数学形式、丰富的解析性质和广泛的适用性,成为统计学与数据科学中最核心的分布之一。深入理解二元正态分布,是掌握多元统计分析、计量经济学和现代机器学习方法的必要基础。