ARTICLE

多元统计学

多元统计学 (Multivariate Statistics) 多元统计学是统计学的一个分支,研究同时观测多个随机变量的统计推断理论与方法。与一元统计不同,多元统计学的核心在于利用变量间的协方差结构和相关关系,在联合分布框架下进行参数估计、假设检验与降维。其理论基础由 Wishart (1928)、Hotelling (1931)、Wilks (1932)

浏览 0 更新 2025-11-08

多元统计学 (Multivariate Statistics)

多元统计学是统计学的一个分支,研究同时观测多个随机变量的统计推断理论与方法。与一元统计不同,多元统计学的核心在于利用变量间的协方差结构和相关关系,在联合分布框架下进行参数估计、假设检验与降维。其理论基础由 Wishart (1928)、Hotelling (1931)、Wilks (1932) 及 Rao (1948) 等奠基,广泛应用于计量经济学心理测量学生物统计学机器学习等领域。

多元正态分布与基本推断

多元正态分布 Np(μ,Σ) N_p(\boldsymbol{\mu}, \boldsymbol{\Sigma}) 是多元分析的核心模型,由均值向量 μ \boldsymbol{\mu} 和协方差矩阵 Σ \boldsymbol{\Sigma} 参数化,具有线性变换下封闭性、边际与条件分布仍为正态等性质。基于多元正态的三类经典检验构成推断基础:Hotelling T2 T^2 检验(单样本与双样本均值向量检验,为一元 t t 检验的多元推广);Wilk's Λ \Lambda 检验(比较多组均值向量,基于似然比原理);以及 Bartlett 球形检验(检验协方差矩阵是否为标量矩阵,用于判断变量间相关性是否足以进行因子分析)。

降维与结构发现方法

当变量维度 p p 较大时,降维成为核心任务:

  1. 主成分分析 (PCA):由 Pearson (1901) 提出、Hotelling (1933) 发展,通过对协方差矩阵谱分解 Σ=VΛV \boldsymbol{\Sigma} = \mathbf{V} \boldsymbol{\Lambda} \mathbf{V}^\top ,将原始变量正交变换为不相关的主成分 Zk=vkX Z_k = \mathbf{v}_k^\top \mathbf{X} 。方差解释率 λk/λj \lambda_k / \sum \lambda_j 决定保留成分数,常用于数据可视化多重共线性处理。
  2. 因子分析 (Factor Analysis):将观测变量表示为少数潜因子的线性组合 X=ΛF+ϵ \mathbf{X} = \boldsymbol{\Lambda} \mathbf{F} + \boldsymbol{\epsilon} ,其中 Λ \boldsymbol{\Lambda} 为因子载荷矩阵。与 PCA 追求方差最大化不同,因子分析旨在解释可观测变量间的协方差结构,在心理测量学和量表开发中应用广泛。Kaiser 准则和碎石图常用于确定因子数。
  3. 典型相关分析 (CCA):由 Hotelling (1936) 提出,研究两组变量集间的整体相关性。寻找线性组合对 (U=aX,V=bY) (U = \mathbf{a}^\top \mathbf{X}, V = \mathbf{b}^\top \mathbf{Y}) 使相关系数最大化,逐次提取相互正交的典型变量,可视为多元回归的对称扩展。

分类与聚类方法

线性判别分析 (LDA) 假设各类服从多元正态且协方差阵相等,基于贝叶斯准则构建线性判别函数以最小化误判概率。Fisher 准则寻找使组间与组内方差比最大的投影方向,二者在正态等协方差条件下等价。协方差不等时需改用二次判别分析 (QDA)

聚类分析无需先验标签。K K -means 算法以最小化类内平方和为目标迭代分配样本;层次聚类通过凝聚或分裂构建树状结构,Ward 法以最小化合并后方差增量为准则。确定聚类数常用肘部法则、轮廓系数和 Gap 统计量。

多元方差分析

MANOVA 将一元 ANOVA 推广至多个相关响应变量,检验因素水平间均值向量是否相等,统计量包括 Wilk's Λ \Lambda 、Pillai 迹、Hotelling-Lawley 迹和 Roy 最大根。显著后需通过 Bonferroni 校正或 Holm 逐步法控制族系错误率 (FWER) 进行事后比较。多元线性回归模型 Y=XB+E \mathbf{Y} = \mathbf{XB} + \mathbf{E} 是多响应变量扩展,构成多元统计推断的统一框架。

高维挑战与现代发展

经典方法在 n>p n > p 条件下性质优良,但现代大数据背景下 pn p \gg n 的高维设定使样本协方差矩阵不可逆,导致 Fisher LDA 和 Hotelling T2 T^2 无法直接计算。应对策略包括正则化方法(Lasso、弹性网向高维回归的推广)、稀疏主成分分析 (Sparse PCA)、以及基于图模型的高斯图模型——以精度矩阵 Ω=Σ1 \boldsymbol{\Omega} = \boldsymbol{\Sigma}^{-1} 刻画条件独立关系,通过 GLASSO 实现稀疏估计。这些进展使多元统计学与统计学习理论日益融合,成为现代数据科学的方法论基石。