ARTICLE

高斯混合模型

高斯混合模型（Gaussian Mixture Model, GMM）高斯混合模型（Gaussian Mixture Model，简称GMM）是一种概率模型，用于表示由多个高斯分布（正态分布）分量混合而成的总体分布。它假设观测数据来源于若干个未知的子群体（即混合分量），每个子群体内的数据服从一个独立的高斯分布。GMM是混合模型中最常见的一种形式，广泛应用于

浏览 0 更新 2026-09-24

高斯混合模型（Gaussian Mixture Model, GMM）

高斯混合模型（Gaussian Mixture Model，简称GMM）是一种概率模型，用于表示由多个高斯分布（正态分布）分量混合而成的总体分布。它假设观测数据来源于若干个未知的子群体（即混合分量），每个子群体内的数据服从一个独立的高斯分布。GMM是混合模型中最常见的一种形式，广泛应用于聚类分析、密度估计、异常检测以及模式识别等领域。

与K均值聚类等硬聚类算法不同，GMM提供了一种软聚类的框架：它不仅为每个数据点分配一个所属的簇，还给出该点属于各个簇的后验概率。这种概率性的表述使得GMM能够更灵活地处理不同形状和方向的簇。

模型定义

高斯混合模型假设数据集中的每一个观测值 $x_i \in \mathbb{R}^d$ 服从以下概率分布：

p(x_i | \theta) = \sum_{k=1}^{K} \pi_k \, \mathcal{N}(x_i | \mu_k, \Sigma_k)

其中 $K$ 表示分量（簇）的总数， $\pi_k$ 是第 $k$ 个分量的混合系数（满足 $\sum_{k=1}^K \pi_k = 1$ 且 $\pi_k \ge 0$ ）， $\mathcal{N}(x|\mu_k, \Sigma_k)$ 表示均值为 $\mu_k$ 、协方差矩阵为 $\Sigma_k$ 的多元高斯分布的概率密度函数。完整参数集记作 $\theta = \{\pi_1, \dots, \pi_K, \mu_1, \dots, \mu_K, \Sigma_1, \dots, \Sigma_K\}$ 。

每个高斯分量可以捕获一个局部数据簇的分布特征。混合系数 $\pi_k$ 可解释为随机选择一个数据点属于第 $k$ 个分量的先验概率。

参数估计：期望最大化算法

GMM的参数估计通常使用期望最大化算法（EM算法）。EM算法是一种迭代优化方法，能够在存在潜变量的情况下寻找参数的最大似然估计。对于GMM，潜变量 $z_i$ 指示数据点 $x_i$ 来自哪个分量。

EM算法在GMM中的执行步骤如下：

E步（期望步）：基于当前参数估计值，计算每个数据点 $x_i$ 属于分量 $k$ 的后验概率（也称为责任度）：

\gamma_{ik} = \frac{\pi_k \, \mathcal{N}(x_i | \mu_k, \Sigma_k)}{\sum_{j=1}^{K} \pi_j \, \mathcal{N}(x_i | \mu_j, \Sigma_j)}

M步（最大化步）：使用E步计算的责任度，更新模型参数以最大化似然函数：

\mu_k^{\text{new}} = \frac{1}{N_k} \sum_{i=1}^{N} \gamma_{ik} x_i

\Sigma_k^{\text{new}} = \frac{1}{N_k} \sum_{i=1}^{N} \gamma_{ik} (x_i - \mu_k^{\text{new}})(x_i - \mu_k^{\text{new}})^\top

\pi_k^{\text{new}} = \frac{N_k}{N}

其中 $N_k = \sum_{i=1}^N \gamma_{ik}$ 是分配给分量 $k$ 的有效样本量。

EM算法迭代进行E步和M步，直到对数似然函数的变化小于预设阈值或达到最大迭代次数。由于对数似然函数在每次迭代中单调不减，EM算法保证收敛到局部最优解。

GMM与K均值聚类的关系

GMM与K均值聚类之间存在紧密联系。事实上，K均值算法可以被视为GMM的一种特殊情形：当所有高斯分量的协方差矩阵均取为 $\Sigma_k = \sigma^2 I$ 且 $\sigma \to 0$ 时，GMM的硬分配极限即收敛至K均值。更具体地，K均值的每次迭代包含"分配步骤"（将每个点分配到最近的质心）和"更新步骤"（重新计算质心），这与EM算法的E步和M步在结构上高度对应。然而，GMM比K均值更为灵活：它能够识别不同大小、不同方向和不同形状的簇，且输出概率归属而非硬性分类。

协方差结构的选择

GMM的性能高度依赖于协方差矩阵 $\Sigma_k$ 的参数化方式。常用的协方差结构包括：

球面协方差（Spherical）： $\Sigma_k = \sigma_k^2 I$ ，每个分量的协方差矩阵为对角矩阵且对角元素相等，形成的簇呈球状。参数最少，计算效率最高。
对角协方差（Diagonal）： $\Sigma_k = \text{diag}(\sigma_{k1}^2, \dots, \sigma_{kd}^2)$ ，允许每个维度具有不同的方差，但各维度之间相互独立，形成的簇沿坐标轴对齐。
全协方差（Full）： $\Sigma_k$ 为自由形式的对称正定矩阵，可以捕捉各维度之间的相关性，形成的簇可具有任意方向的椭圆形。参数最多，计算成本最高，且需要足够的数据量以避免过拟合。
绑定协方差（Tied）：所有分量共享同一个协方差矩阵 $\Sigma_k = \Sigma$ ，在减少参数数量的同时保留了各向异性特征。

在实践中，通常使用赤池信息量准则（AIC）或贝叶斯信息量准则（BIC）在模型拟合度和复杂度之间进行权衡，从而选择最优的协方差结构和分量数 $K$ 。

GMM的应用

GMM在多个领域有着广泛的应用。在图像分割中，每个像素被建模为来自某个颜色分布分量的样本，GMM可用于将图像划分为具有相似颜色特征的区域。在语音识别中，GMM被用于对每个音素或词汇的声学特征分布进行建模，是经典的声学模型之一，常与隐马尔可夫模型联合使用构成语音识别系统。在异常检测中，低概率密度区域的数据点被视为异常值，GMM能够为正常数据构建高密度概率边界。在金融风险管理中，GMM能够捕获资产收益率的多峰性和厚尾特征，比单一正态分布更贴合实际数据。此外，GMM还广泛应用于生物信息学中的基因表达数据聚类、客户细分中的市场人群划分以及运动跟踪中的背景建模等场景。

局限性与扩展

GMM的主要局限性包括：首先，需要预先指定分量数目 $K$ ，而真实的聚类数目通常是未知的，选择不当会导致欠拟合或过拟合；其次，EM算法对初始值敏感，容易收敛到局部最优解，实践中通常采用多次随机初始化或K均值预聚类来缓解这一问题；第三，GMM假设每个分量服从高斯分布，当数据分布严重偏离高斯分布（如存在大量离群值或呈明显偏态）时，模型拟合效果较差；第四，当数据维度较高时，全协方差矩阵的参数数量随维度平方增长，容易导致维数灾难；第五，GMM对异常值较为敏感，单个离群点可能显著扭曲协方差矩阵的估计结果。

针对这些局限性，研究者提出了多种扩展模型，如狄利克雷过程混合模型（允许无限个分量）、变分自编码器（处理高维复杂分布）以及混合t分布（对离群值更具鲁棒性）等。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。