ARTICLE

多元统计学

多元统计学 (Multivariate Statistics) 多元统计学是统计学的一个分支，研究同时观测多个随机变量的统计推断理论与方法。与一元统计不同，多元统计学的核心在于利用变量间的协方差结构和相关关系，在联合分布框架下进行参数估计、假设检验与降维。其理论基础由 Wishart (1928)、Hotelling (1931)、Wilks (1932)

浏览 0 更新 2025-11-08

多元统计学 (Multivariate Statistics)

多元统计学是统计学的一个分支，研究同时观测多个随机变量的统计推断理论与方法。与一元统计不同，多元统计学的核心在于利用变量间的协方差结构和相关关系，在联合分布框架下进行参数估计、假设检验与降维。其理论基础由 Wishart (1928)、Hotelling (1931)、Wilks (1932) 及 Rao (1948) 等奠基，广泛应用于计量经济学、心理测量学、生物统计学和机器学习等领域。

多元正态分布与基本推断

多元正态分布 $N_p(\boldsymbol{\mu}, \boldsymbol{\Sigma})$ 是多元分析的核心模型，由均值向量 $\boldsymbol{\mu}$ 和协方差矩阵 $\boldsymbol{\Sigma}$ 参数化，具有线性变换下封闭性、边际与条件分布仍为正态等性质。基于多元正态的三类经典检验构成推断基础：Hotelling $T^2$ 检验（单样本与双样本均值向量检验，为一元 $t$ 检验的多元推广）；Wilk's $\Lambda$ 检验（比较多组均值向量，基于似然比原理）；以及 Bartlett 球形检验（检验协方差矩阵是否为标量矩阵，用于判断变量间相关性是否足以进行因子分析）。

降维与结构发现方法

当变量维度 $p$ 较大时，降维成为核心任务：

主成分分析 (PCA)：由 Pearson (1901) 提出、Hotelling (1933) 发展，通过对协方差矩阵谱分解 $\boldsymbol{\Sigma} = \mathbf{V} \boldsymbol{\Lambda} \mathbf{V}^\top$ ，将原始变量正交变换为不相关的主成分 $Z_k = \mathbf{v}_k^\top \mathbf{X}$ 。方差解释率 $\lambda_k / \sum \lambda_j$ 决定保留成分数，常用于数据可视化和多重共线性处理。
因子分析 (Factor Analysis)：将观测变量表示为少数潜因子的线性组合 $\mathbf{X} = \boldsymbol{\Lambda} \mathbf{F} + \boldsymbol{\epsilon}$ ，其中 $\boldsymbol{\Lambda}$ 为因子载荷矩阵。与 PCA 追求方差最大化不同，因子分析旨在解释可观测变量间的协方差结构，在心理测量学和量表开发中应用广泛。Kaiser 准则和碎石图常用于确定因子数。
典型相关分析 (CCA)：由 Hotelling (1936) 提出，研究两组变量集间的整体相关性。寻找线性组合对 $(U = \mathbf{a}^\top \mathbf{X}, V = \mathbf{b}^\top \mathbf{Y})$ 使相关系数最大化，逐次提取相互正交的典型变量，可视为多元回归的对称扩展。

分类与聚类方法

线性判别分析 (LDA) 假设各类服从多元正态且协方差阵相等，基于贝叶斯准则构建线性判别函数以最小化误判概率。Fisher 准则寻找使组间与组内方差比最大的投影方向，二者在正态等协方差条件下等价。协方差不等时需改用二次判别分析 (QDA)。

聚类分析无需先验标签。 $K$ -means 算法以最小化类内平方和为目标迭代分配样本；层次聚类通过凝聚或分裂构建树状结构，Ward 法以最小化合并后方差增量为准则。确定聚类数常用肘部法则、轮廓系数和 Gap 统计量。

多元方差分析

MANOVA 将一元 ANOVA 推广至多个相关响应变量，检验因素水平间均值向量是否相等，统计量包括 Wilk's $\Lambda$ 、Pillai 迹、Hotelling-Lawley 迹和 Roy 最大根。显著后需通过 Bonferroni 校正或 Holm 逐步法控制族系错误率 (FWER) 进行事后比较。多元线性回归模型 $\mathbf{Y} = \mathbf{XB} + \mathbf{E}$ 是多响应变量扩展，构成多元统计推断的统一框架。

高维挑战与现代发展

经典方法在 $n > p$ 条件下性质优良，但现代大数据背景下 $p \gg n$ 的高维设定使样本协方差矩阵不可逆，导致 Fisher LDA 和 Hotelling $T^2$ 无法直接计算。应对策略包括正则化方法（Lasso、弹性网向高维回归的推广）、稀疏主成分分析 (Sparse PCA)、以及基于图模型的高斯图模型——以精度矩阵 $\boldsymbol{\Omega} = \boldsymbol{\Sigma}^{-1}$ 刻画条件独立关系，通过 GLASSO 实现稀疏估计。这些进展使多元统计学与统计学习理论日益融合，成为现代数据科学的方法论基石。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。