ARTICLE

多元正态性

多元正态性(Multivariate Normality)是指多元随机向量服从多元正态分布(Multivariate Normal Distribution)的性质。它是多元统计分析中最重要的分布假设之一,广泛应用于因子分析、主成分分析、判别分析、多元回归分析、结构方程模型等领域。多元正态分布是单变量正态分布在多维空间中的自然推广,其理论基础由统计学家如哈罗

浏览 0 更新 2025-11-08

多元正态性(Multivariate Normality)是指多元随机向量服从多元正态分布(Multivariate Normal Distribution)的性质。它是多元统计分析中最重要的分布假设之一,广泛应用于因子分析、主成分分析、判别分析、多元回归分析、结构方程模型等领域。多元正态分布是单变量正态分布在多维空间中的自然推广,其理论基础由统计学家如哈罗德·霍特林(Harold Hotelling)等人奠定。

多元正态分布的核心定义基于均值向量和协方差矩阵。对于一个p维随机向量 X=(X1,X2,,Xp)T \mathbf{X} = (X_1, X_2, \ldots, X_p)^T ,如果它服从多元正态分布,记作 XNp(μ,Σ) \mathbf{X} \sim N_p(\boldsymbol{\mu}, \boldsymbol{\Sigma}) ,其中 μ \boldsymbol{\mu} 是p维均值向量,Σ \boldsymbol{\Sigma} 是p×p的正定协方差矩阵。其概率密度函数为:

f(x)=1(2π)p/2Σ1/2exp(12(xμ)TΣ1(xμ)).f(\mathbf{x}) = \frac{1}{(2\pi)^{p/2} |\boldsymbol{\Sigma}|^{1/2}} \exp\left(-\frac{1}{2} (\mathbf{x}-\boldsymbol{\mu})^T \boldsymbol{\Sigma}^{-1} (\mathbf{x}-\boldsymbol{\mu})\right).

该密度函数的指数部分是一个二次型,称为马氏距离(Mahalanobis Distance)的平方,记为 D2=(xμ)TΣ1(xμ) D^2 = (\mathbf{x}-\boldsymbol{\mu})^T \boldsymbol{\Sigma}^{-1} (\mathbf{x}-\boldsymbol{\mu}) ,它衡量了观测值到分布中心的距离。

多元正态分布具有若干重要性质。第一,多元正态分布的任何线性组合仍服从正态分布:如果 XNp(μ,Σ) \mathbf{X} \sim N_p(\boldsymbol{\mu}, \boldsymbol{\Sigma}) ,且 A \mathbf{A} 是q×p的常数矩阵,b \mathbf{b} 是q维常数向量,则 AX+bNq(Aμ+b,AΣAT) \mathbf{AX} + \mathbf{b} \sim N_q(\mathbf{A}\boldsymbol{\mu} + \mathbf{b}, \mathbf{A}\boldsymbol{\Sigma}\mathbf{A}^T) 。第二,多元正态分布的边际分布也是正态分布:将 X \mathbf{X} 分割为两个子向量 X1 \mathbf{X}_1 X2 \mathbf{X}_2 ,则每个子向量分别服从正态分布。第三,条件分布也是正态分布:在给定 X2 \mathbf{X}_2 的条件下,X1 \mathbf{X}_1 的条件分布仍然是正态分布,且条件均值是 X2 \mathbf{X}_2 的线性函数。第四,对于多元正态分布,不相关等价于独立——如果协方差矩阵是对角矩阵,则各分量相互独立。第五,马氏距离 D2 D^2 服从自由度为p的卡方分布 χp2 \chi^2_p ,这一性质是检验多元正态性的重要依据。

检验多元正态性是应用多元统计方法前的关键步骤。常用的检验方法可分为以下几类。

第一,基于马氏距离的Q-Q图方法。类似于单变量正态性的Q-Q图检验,在多元情形下,可以绘制样本马氏距离的排序值 D(1)2D(2)2D(n)2 D^2_{(1)} \leq D^2_{(2)} \leq \ldots \leq D^2_{(n)} 与卡方分布 χp2 \chi^2_p 的分位数之间的散点图。如果数据来自多元正态分布,这些点应大致落在一条通过原点且斜率为1的直线上。该方法的优点在于直观易懂,但主观性较强,难以给出严格的统计结论。

第二,Mardia检验(Mardia's Test)。由统计学家K. V. Mardia于1970年提出,是目前应用最广泛的多元正态性检验之一。该检验基于多元偏度(Multivariate Skewness)和多元峰度(Multivariate Kurtosis)两个统计量。对于来自p维总体的n个样本,多元偏度统计量 b1,p b_{1,p} 和多元峰度统计量 b2,p b_{2,p} 分别衡量了分布的不对称性和尾部厚度。在原假设(服从多元正态分布)下,多元偏度统计量渐近服从卡方分布,多元峰度统计量渐近服从正态分布。Mardia检验的优点是同时考虑偏度和峰度,且不需要指定备择分布。

第三,Shapiro-Wilk多元扩展检验。基于单变量Shapiro-Wilk检验的思想,Royston(1983)将其推广到多元情形。该方法首先将每个变量进行标准化和边际正态性检验,然后通过卡方变换将各变量的检验统计量合并为单一的多元检验统计量。该检验在小样本下表现较好,但对样本量的要求较高。

第四,Henze-Zirkler检验(Henze-Zirkler Test)。由Henze和Zirkler于1990年提出,基于经验特征函数与理论特征函数之间的距离度量。该检验统计量在原假设下的渐近分布为对数正态分布。Henze-Zirkler检验对各类偏离正态性的备择假设(如偏态分布、厚尾分布、混合分布)均具有较好的检验功效,是综合性能较强的检验方法。

第五,Doornik-Hansen检验。基于单变量Jarque-Bera检验的多元推广,通过将数据变换为不相关的变量并计算联合偏度和峰度统计量进行检验。该检验适用于中等以上样本量,计算效率较高。

在实际应用中,不同检验方法的适用条件有所差异。Mardia检验对样本量的要求适中,对偏态和厚尾偏离较为敏感;Henze-Zirkler检验在多数情形下具有较高的检验功效;Shapiro-Wilk多元检验在小样本下表现更优。建议在实证分析中综合使用多种检验方法,并结合Q-Q图进行辅助判断。如果数据未能通过多元正态性检验,可考虑采用以下应对策略:对变量进行变换(如Box-Cox变换或幂变换)、使用基于秩的非参数方法、采用拔靴法(Bootstrap)或稳健统计方法、或使用不依赖正态性假设的替代模型。

多元正态性在机器学习和高维数据分析中也具有重要意义。在高维情形下,即变量维度p接近或超过样本量n时,传统的多元正态性检验方法面临维数灾难的挑战。近年来,研究者提出了适用于高维数据的检验方法,如基于随机投影的检验和高维协方差矩阵检验等。

总之,多元正态性是多元统计分析的基石性假设。正确理解和检验该假设,对于确保统计推断的有效性、提高数据分析的科学性具有重要意义。实证研究者应根据具体的数据特征和分析目标,选择合适的检验方法,并在假设不满足时采取适当的处理措施。