ARTICLE
高斯混合模型
高斯混合模型(Gaussian Mixture Model, GMM) 高斯混合模型(Gaussian Mixture Model,简称GMM)是一种概率模型,用于表示由多个高斯分布(正态分布)分量混合而成的总体分布。它假设观测数据来源于若干个未知的子群体(即混合分量),每个子群体内的数据服从一个独立的高斯分布。GMM是混合模型中最常见的一种形式,广泛应用于
高斯混合模型(Gaussian Mixture Model, GMM)
高斯混合模型(Gaussian Mixture Model,简称GMM)是一种概率模型,用于表示由多个高斯分布(正态分布)分量混合而成的总体分布。它假设观测数据来源于若干个未知的子群体(即混合分量),每个子群体内的数据服从一个独立的高斯分布。GMM是混合模型中最常见的一种形式,广泛应用于聚类分析、密度估计、异常检测以及模式识别等领域。
与K均值聚类等硬聚类算法不同,GMM提供了一种软聚类的框架:它不仅为每个数据点分配一个所属的簇,还给出该点属于各个簇的后验概率。这种概率性的表述使得GMM能够更灵活地处理不同形状和方向的簇。
模型定义
高斯混合模型假设数据集中的每一个观测值 服从以下概率分布:
其中 表示分量(簇)的总数, 是第 个分量的混合系数(满足 且 ), 表示均值为 、协方差矩阵为 的多元高斯分布的概率密度函数。完整参数集记作 。
每个高斯分量可以捕获一个局部数据簇的分布特征。混合系数 可解释为随机选择一个数据点属于第 个分量的先验概率。
参数估计:期望最大化算法
GMM的参数估计通常使用期望最大化算法(EM算法)。EM算法是一种迭代优化方法,能够在存在潜变量的情况下寻找参数的最大似然估计。对于GMM,潜变量 指示数据点 来自哪个分量。
EM算法在GMM中的执行步骤如下:
E步(期望步):基于当前参数估计值,计算每个数据点 属于分量 的后验概率(也称为责任度):
M步(最大化步):使用E步计算的责任度,更新模型参数以最大化似然函数:
其中 是分配给分量 的有效样本量。
EM算法迭代进行E步和M步,直到对数似然函数的变化小于预设阈值或达到最大迭代次数。由于对数似然函数在每次迭代中单调不减,EM算法保证收敛到局部最优解。
GMM与K均值聚类的关系
GMM与K均值聚类之间存在紧密联系。事实上,K均值算法可以被视为GMM的一种特殊情形:当所有高斯分量的协方差矩阵均取为 且 时,GMM的硬分配极限即收敛至K均值。更具体地,K均值的每次迭代包含"分配步骤"(将每个点分配到最近的质心)和"更新步骤"(重新计算质心),这与EM算法的E步和M步在结构上高度对应。然而,GMM比K均值更为灵活:它能够识别不同大小、不同方向和不同形状的簇,且输出概率归属而非硬性分类。
协方差结构的选择
GMM的性能高度依赖于协方差矩阵 的参数化方式。常用的协方差结构包括:
- 球面协方差(Spherical):,每个分量的协方差矩阵为对角矩阵且对角元素相等,形成的簇呈球状。参数最少,计算效率最高。
- 对角协方差(Diagonal):,允许每个维度具有不同的方差,但各维度之间相互独立,形成的簇沿坐标轴对齐。
- 全协方差(Full): 为自由形式的对称正定矩阵,可以捕捉各维度之间的相关性,形成的簇可具有任意方向的椭圆形。参数最多,计算成本最高,且需要足够的数据量以避免过拟合。
- 绑定协方差(Tied):所有分量共享同一个协方差矩阵 ,在减少参数数量的同时保留了各向异性特征。
在实践中,通常使用赤池信息量准则(AIC)或贝叶斯信息量准则(BIC)在模型拟合度和复杂度之间进行权衡,从而选择最优的协方差结构和分量数 。
GMM的应用
GMM在多个领域有着广泛的应用。在图像分割中,每个像素被建模为来自某个颜色分布分量的样本,GMM可用于将图像划分为具有相似颜色特征的区域。在语音识别中,GMM被用于对每个音素或词汇的声学特征分布进行建模,是经典的声学模型之一,常与隐马尔可夫模型联合使用构成语音识别系统。在异常检测中,低概率密度区域的数据点被视为异常值,GMM能够为正常数据构建高密度概率边界。在金融风险管理中,GMM能够捕获资产收益率的多峰性和厚尾特征,比单一正态分布更贴合实际数据。此外,GMM还广泛应用于生物信息学中的基因表达数据聚类、客户细分中的市场人群划分以及运动跟踪中的背景建模等场景。
局限性与扩展
GMM的主要局限性包括:首先,需要预先指定分量数目 ,而真实的聚类数目通常是未知的,选择不当会导致欠拟合或过拟合;其次,EM算法对初始值敏感,容易收敛到局部最优解,实践中通常采用多次随机初始化或K均值预聚类来缓解这一问题;第三,GMM假设每个分量服从高斯分布,当数据分布严重偏离高斯分布(如存在大量离群值或呈明显偏态)时,模型拟合效果较差;第四,当数据维度较高时,全协方差矩阵的参数数量随维度平方增长,容易导致维数灾难;第五,GMM对异常值较为敏感,单个离群点可能显著扭曲协方差矩阵的估计结果。
针对这些局限性,研究者提出了多种扩展模型,如狄利克雷过程混合模型(允许无限个分量)、变分自编码器(处理高维复杂分布)以及混合t分布(对离群值更具鲁棒性)等。