ARTICLE

高斯混合模型

高斯混合模型(Gaussian Mixture Model, GMM) 高斯混合模型(Gaussian Mixture Model,简称GMM)是一种概率模型,用于表示由多个高斯分布(正态分布)分量混合而成的总体分布。它假设观测数据来源于若干个未知的子群体(即混合分量),每个子群体内的数据服从一个独立的高斯分布。GMM是混合模型中最常见的一种形式,广泛应用于

浏览 0 更新 2026-09-24

高斯混合模型(Gaussian Mixture Model, GMM)

高斯混合模型(Gaussian Mixture Model,简称GMM)是一种概率模型,用于表示由多个高斯分布(正态分布)分量混合而成的总体分布。它假设观测数据来源于若干个未知的子群体(即混合分量),每个子群体内的数据服从一个独立的高斯分布。GMM是混合模型中最常见的一种形式,广泛应用于聚类分析密度估计异常检测以及模式识别等领域。

K均值聚类等硬聚类算法不同,GMM提供了一种软聚类的框架:它不仅为每个数据点分配一个所属的簇,还给出该点属于各个簇的后验概率。这种概率性的表述使得GMM能够更灵活地处理不同形状和方向的簇。

模型定义

高斯混合模型假设数据集中的每一个观测值 xiRd x_i \in \mathbb{R}^d 服从以下概率分布

p(xiθ)=k=1KπkN(xiμk,Σk)p(x_i | \theta) = \sum_{k=1}^{K} \pi_k \, \mathcal{N}(x_i | \mu_k, \Sigma_k)

其中 K K 表示分量(簇)的总数,πk \pi_k 是第 k k 个分量的混合系数(满足 k=1Kπk=1 \sum_{k=1}^K \pi_k = 1 πk0 \pi_k \ge 0 ),N(xμk,Σk) \mathcal{N}(x|\mu_k, \Sigma_k) 表示均值为 μk \mu_k 协方差矩阵Σk \Sigma_k 多元高斯分布的概率密度函数。完整参数集记作 θ={π1,,πK,μ1,,μK,Σ1,,ΣK} \theta = \{\pi_1, \dots, \pi_K, \mu_1, \dots, \mu_K, \Sigma_1, \dots, \Sigma_K\}

每个高斯分量可以捕获一个局部数据簇的分布特征。混合系数 πk \pi_k 可解释为随机选择一个数据点属于第 k k 个分量的先验概率。

参数估计:期望最大化算法

GMM的参数估计通常使用期望最大化算法(EM算法)。EM算法是一种迭代优化方法,能够在存在潜变量的情况下寻找参数的最大似然估计。对于GMM,潜变量 zi z_i 指示数据点 xi x_i 来自哪个分量。

EM算法在GMM中的执行步骤如下:

E步(期望步):基于当前参数估计值,计算每个数据点 xi x_i 属于分量 k k 的后验概率(也称为责任度):

γik=πkN(xiμk,Σk)j=1KπjN(xiμj,Σj)\gamma_{ik} = \frac{\pi_k \, \mathcal{N}(x_i | \mu_k, \Sigma_k)}{\sum_{j=1}^{K} \pi_j \, \mathcal{N}(x_i | \mu_j, \Sigma_j)}

M步(最大化步):使用E步计算的责任度,更新模型参数以最大化似然函数:

μknew=1Nki=1Nγikxi\mu_k^{\text{new}} = \frac{1}{N_k} \sum_{i=1}^{N} \gamma_{ik} x_i
Σknew=1Nki=1Nγik(xiμknew)(xiμknew)\Sigma_k^{\text{new}} = \frac{1}{N_k} \sum_{i=1}^{N} \gamma_{ik} (x_i - \mu_k^{\text{new}})(x_i - \mu_k^{\text{new}})^\top
πknew=NkN\pi_k^{\text{new}} = \frac{N_k}{N}

其中 Nk=i=1Nγik N_k = \sum_{i=1}^N \gamma_{ik} 是分配给分量 k k 的有效样本量。

EM算法迭代进行E步和M步,直到对数似然函数的变化小于预设阈值或达到最大迭代次数。由于对数似然函数在每次迭代中单调不减,EM算法保证收敛到局部最优解。

GMM与K均值聚类的关系

GMM与K均值聚类之间存在紧密联系。事实上,K均值算法可以被视为GMM的一种特殊情形:当所有高斯分量的协方差矩阵均取为 Σk=σ2I \Sigma_k = \sigma^2 I σ0 \sigma \to 0 时,GMM的硬分配极限即收敛至K均值。更具体地,K均值的每次迭代包含"分配步骤"(将每个点分配到最近的质心)和"更新步骤"(重新计算质心),这与EM算法的E步和M步在结构上高度对应。然而,GMM比K均值更为灵活:它能够识别不同大小、不同方向和不同形状的簇,且输出概率归属而非硬性分类。

协方差结构的选择

GMM的性能高度依赖于协方差矩阵 Σk \Sigma_k 的参数化方式。常用的协方差结构包括:

  • 球面协方差(Spherical):Σk=σk2I \Sigma_k = \sigma_k^2 I ,每个分量的协方差矩阵为对角矩阵且对角元素相等,形成的簇呈球状。参数最少,计算效率最高。
  • 对角协方差(Diagonal):Σk=diag(σk12,,σkd2) \Sigma_k = \text{diag}(\sigma_{k1}^2, \dots, \sigma_{kd}^2) ,允许每个维度具有不同的方差,但各维度之间相互独立,形成的簇沿坐标轴对齐。
  • 全协方差(Full):Σk \Sigma_k 为自由形式的对称正定矩阵,可以捕捉各维度之间的相关性,形成的簇可具有任意方向的椭圆形。参数最多,计算成本最高,且需要足够的数据量以避免过拟合。
  • 绑定协方差(Tied):所有分量共享同一个协方差矩阵 Σk=Σ \Sigma_k = \Sigma ,在减少参数数量的同时保留了各向异性特征。

在实践中,通常使用赤池信息量准则(AIC)或贝叶斯信息量准则(BIC)在模型拟合度和复杂度之间进行权衡,从而选择最优的协方差结构和分量数 K K

GMM的应用

GMM在多个领域有着广泛的应用。在图像分割中,每个像素被建模为来自某个颜色分布分量的样本,GMM可用于将图像划分为具有相似颜色特征的区域。在语音识别中,GMM被用于对每个音素或词汇的声学特征分布进行建模,是经典的声学模型之一,常与隐马尔可夫模型联合使用构成语音识别系统。在异常检测中,低概率密度区域的数据点被视为异常值,GMM能够为正常数据构建高密度概率边界。在金融风险管理中,GMM能够捕获资产收益率的多峰性和厚尾特征,比单一正态分布更贴合实际数据。此外,GMM还广泛应用于生物信息学中的基因表达数据聚类、客户细分中的市场人群划分以及运动跟踪中的背景建模等场景。

局限性与扩展

GMM的主要局限性包括:首先,需要预先指定分量数目 K K ,而真实的聚类数目通常是未知的,选择不当会导致欠拟合或过拟合;其次,EM算法对初始值敏感,容易收敛到局部最优解,实践中通常采用多次随机初始化或K均值预聚类来缓解这一问题;第三,GMM假设每个分量服从高斯分布,当数据分布严重偏离高斯分布(如存在大量离群值或呈明显偏态)时,模型拟合效果较差;第四,当数据维度较高时,全协方差矩阵的参数数量随维度平方增长,容易导致维数灾难;第五,GMM对异常值较为敏感,单个离群点可能显著扭曲协方差矩阵的估计结果。

针对这些局限性,研究者提出了多种扩展模型,如狄利克雷过程混合模型(允许无限个分量)、变分自编码器(处理高维复杂分布)以及混合t分布(对离群值更具鲁棒性)等。