ARTICLE
多元统计学
多元统计学 (Multivariate Statistics) 多元统计学是统计学的一个分支,研究同时观测多个随机变量的统计推断理论与方法。与一元统计不同,多元统计学的核心在于利用变量间的协方差结构和相关关系,在联合分布框架下进行参数估计、假设检验与降维。其理论基础由 Wishart (1928)、Hotelling (1931)、Wilks (1932)
多元统计学 (Multivariate Statistics)
多元统计学是统计学的一个分支,研究同时观测多个随机变量的统计推断理论与方法。与一元统计不同,多元统计学的核心在于利用变量间的协方差结构和相关关系,在联合分布框架下进行参数估计、假设检验与降维。其理论基础由 Wishart (1928)、Hotelling (1931)、Wilks (1932) 及 Rao (1948) 等奠基,广泛应用于计量经济学、心理测量学、生物统计学和机器学习等领域。
多元正态分布与基本推断
多元正态分布 是多元分析的核心模型,由均值向量 和协方差矩阵 参数化,具有线性变换下封闭性、边际与条件分布仍为正态等性质。基于多元正态的三类经典检验构成推断基础:Hotelling 检验(单样本与双样本均值向量检验,为一元 检验的多元推广);Wilk's 检验(比较多组均值向量,基于似然比原理);以及 Bartlett 球形检验(检验协方差矩阵是否为标量矩阵,用于判断变量间相关性是否足以进行因子分析)。
降维与结构发现方法
当变量维度 较大时,降维成为核心任务:
- 主成分分析 (PCA):由 Pearson (1901) 提出、Hotelling (1933) 发展,通过对协方差矩阵谱分解 ,将原始变量正交变换为不相关的主成分 。方差解释率 决定保留成分数,常用于数据可视化和多重共线性处理。
- 因子分析 (Factor Analysis):将观测变量表示为少数潜因子的线性组合 ,其中 为因子载荷矩阵。与 PCA 追求方差最大化不同,因子分析旨在解释可观测变量间的协方差结构,在心理测量学和量表开发中应用广泛。Kaiser 准则和碎石图常用于确定因子数。
- 典型相关分析 (CCA):由 Hotelling (1936) 提出,研究两组变量集间的整体相关性。寻找线性组合对 使相关系数最大化,逐次提取相互正交的典型变量,可视为多元回归的对称扩展。
分类与聚类方法
线性判别分析 (LDA) 假设各类服从多元正态且协方差阵相等,基于贝叶斯准则构建线性判别函数以最小化误判概率。Fisher 准则寻找使组间与组内方差比最大的投影方向,二者在正态等协方差条件下等价。协方差不等时需改用二次判别分析 (QDA)。
聚类分析无需先验标签。-means 算法以最小化类内平方和为目标迭代分配样本;层次聚类通过凝聚或分裂构建树状结构,Ward 法以最小化合并后方差增量为准则。确定聚类数常用肘部法则、轮廓系数和 Gap 统计量。
多元方差分析
MANOVA 将一元 ANOVA 推广至多个相关响应变量,检验因素水平间均值向量是否相等,统计量包括 Wilk's 、Pillai 迹、Hotelling-Lawley 迹和 Roy 最大根。显著后需通过 Bonferroni 校正或 Holm 逐步法控制族系错误率 (FWER) 进行事后比较。多元线性回归模型 是多响应变量扩展,构成多元统计推断的统一框架。
高维挑战与现代发展
经典方法在 条件下性质优良,但现代大数据背景下 的高维设定使样本协方差矩阵不可逆,导致 Fisher LDA 和 Hotelling 无法直接计算。应对策略包括正则化方法(Lasso、弹性网向高维回归的推广)、稀疏主成分分析 (Sparse PCA)、以及基于图模型的高斯图模型——以精度矩阵 刻画条件独立关系,通过 GLASSO 实现稀疏估计。这些进展使多元统计学与统计学习理论日益融合,成为现代数据科学的方法论基石。