ARTICLE

梅尔频率倒谱系数

梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,简称 MFCC)是语音信号处理和音频分析领域中最常用的特征表示方法之一。MFCC 的提取过程模拟人耳听觉系统的感知特性,将音频信号映射到梅尔刻度(Mel Scale)上的倒谱域中,从而得到一组紧凑的系数向量。这一特征在语音识别、说话人识别、情感识别和音乐信息检索等任务中

浏览 0 更新 2025-11-09

梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,简称 MFCC)是语音信号处理和音频分析领域中最常用的特征表示方法之一。MFCC 的提取过程模拟人耳听觉系统的感知特性,将音频信号映射到梅尔刻度(Mel Scale)上的倒谱域中,从而得到一组紧凑的系数向量。这一特征在语音识别、说话人识别、情感识别和音乐信息检索等任务中表现优异,自 1980 年代提出以来一直是语音处理领域的事实标准前端特征。其核心思想在于利用梅尔频率刻度近似人耳对频率的非线性感知——人耳在低频区域具有较高的频率分辨率,在高频区域则分辨率逐渐降低。

1. 理论基础

1.1 梅尔刻度

梅尔刻度(Mel Scale)是一种基于听觉感知实验的心理物理刻度,由史蒂文斯(S. S. Stevens)和福克曼(J. Volkmann)于 1937 年提出。梅尔频率与线性频率之间通过近似公式 Mel(f) = 2595 × log₁₀(1 + f / 700) 相互转换。该公式表明,当线性频率从 0 增加至约 1000 Hz 时,梅尔频率近似线性增长;此后梅尔刻度随频率呈对数增长,反映出人耳基底膜的共振特性——基底膜上各位置的频率响应在对数频率轴上是近似均匀分布的。

1.2 倒谱分析

倒谱(Cepstrum)是信号处理中的一种同态变换,最初由博格特(B. P. Bogert)等人于 1963 年在地震信号分析中提出。倒谱的定义为信号功率谱的对数的傅里叶逆变换。在语音产生模型中,语音信号 s(t) 可视为声门激励信号 e(t) 与声道冲激响应 v(t) 的卷积。通过对数运算将频域中的乘积关系转换为加法关系,再利用傅里叶逆变换将加性分量在倒谱域中分离,从而获得表征声道形状的倒谱系数。MFCC 进一步将梅尔刻度引入这一框架,使其在感知意义上更具相关性。

1.3 与人类听觉系统的关系

MFCC 的设计深受人类听觉生理机制的影响。内耳耳蜗基底膜的频率选择性表现为一系列重叠的带通滤波器,其带宽随频率升高而增大——这一特性在 MFCC 中通过三角滤波器组在梅尔刻度上等间距排列来实现。每个滤波器的输出能量代表该频段的听觉响应强度,经对数变换后近似于响度感知的对数特性。最终通过离散余弦变换去相关,得到近似于听觉皮质中对频谱边缘信息感知的系数表示。

2. 提取流程

2.1 预加重与分帧

输入语音信号首先经过预加重滤波器 H(z) = 1 − αz⁻¹(通常 α = 0.97),补偿语音信号的高频衰减,增强高频分量。由于语音信号具有短时平稳性,将信号按 20–40 毫秒的长度分帧,帧移通常为 10 毫秒。每一帧信号乘以汉明窗(Hamming Window)以减少频谱泄漏,形成加窗信号 xwx_w[n]。

2.2 频谱计算与梅尔滤波

对每一帧加窗信号执行短时傅里叶变换(STFT),计算功率谱 |X(k)|²。在梅尔刻度上设计 M 个三角带通滤波器(通常 M = 20–40),各滤波器的中心频率在梅尔刻度上均匀分布,带宽随线性频率增大而展宽。将每个滤波器的功率谱输出取对数,得到对数梅尔谱能量:EmE_m = ln(∑\_k |X(k)|² · HmH_m(k)),其中 HmH_m(k) 为第 m 个三角滤波器的频率响应。

2.3 离散余弦变换与动态特征

对 M 维对数梅尔谱能量向量执行离散余弦变换(DCT),保留前 L 个系数(通常 L = 12–13),即得到 MFCC。DCT 操作具有去相关作用,使各系数间的冗余信息被有效压缩,并使得低阶系数主要表征谱包络的平滑形状。为进一步捕捉语音的动态演化信息,在静态 MFCC 基础上计算其一阶差分(ΔMFCC)和二阶差分(ΔΔMFCC),最终的常用特征向量维度为 39(13 静止 + 13 一阶差分 + 13 二阶差分)。

3. 主要特性

3.1 感知相关性

MFCC 的核心优势在于其系数具有良好的听觉感知相关性。梅尔刻度的非线性映射使特征在低频段具有更高的频率分辨率,与人耳对语音中福音(Formant)的敏感度高度一致。实验表明,MFCC 在噪声环境下的鲁棒性显著优于线性预测系数(LPC)和谱图特征,这得益于对数操作对乘性噪声的抑制作用以及 DCT 的能量压缩特性。

3.2 正交性与低冗余

通过 DCT 变换得到的 MFCC 系数间近似正交,各系数携带相对独立的谱信息。与 LPC 或线谱对(LSP)相比,MFCC 在相同维数下能够以更少的系数捕获大部分谱包络信息。在说话人识别任务中,仅使用前 13 个系数即可达到媲美全特征集的识别性能,后序系数主要包含细微音色差异信息。

3.3 对加性噪声的敏感性

MFCC 对加性噪声的敏感性问题不容忽视。当信噪比降低时,对数操作使噪声能量占主导,导致 MFCC 特征偏离干净条件下的分布。为此,实际系统中通常辅以语音增强前处理和倒谱均值归一化(CMN)技术来减轻通道效应和噪声影响。CMN 对每一维系数减去其在整个语句上的均值,有效消除卷积性通道失真的影响。

4. 应用场景

4.1 自动语音识别

MFCC 在自动语音识别系统中是最经典的前端特征。以隐马尔可夫模型(HMM)与高斯混合模型(GMM)为分类器的传统语音识别系统几乎全部基于 MFCC 特征构建。即使在以深度神经网络为主的现代端到端语音识别系统中,MFCC 仍然是评估模型性能的基准特征之一,许多研究将其与滤波器组特征(FBank)和 Wav2Vec 等学习型特征进行对比分析。

4.2 说话人识别与验证

在说话人识别与验证任务中,MFCC 用于提取发声者的个性化声纹特征。由于 MFCC 表征的是声道形状和发音习惯的频谱包络信息,不同说话人在 MFCC 特征空间中呈现差异化的分布模式。基于 GMM-UBM(通用背景模型)的说话人识别系统长期以来以 MFCC 为核心特征,近年虽被 x-vector 等嵌入表示逐步取代,但 MFCC 仍是后续 i-vector 和 x-vector 提取的不可缺少的基础层输入。

4.3 情感计算

语音情感识别中,MFCC 被广泛用于捕捉与情感状态相关的韵律和音色变化。不同情感状态下,发音的速度、基频和共振峰结构发生规律性变化,这些变化在 MFCC 系数的均值和方差中有所体现。例如,愤怒语音的 MFCC 一阶差分通常表现为较大的动态范围,而悲伤语音的 MFCC 系数变化则较为平缓。

4.4 音乐信息检索

在音乐领域,MFCC 用于音色分析和音乐风格分类。不同乐器在相同音高下产生的音色差异反映在频谱包络上,而 MFCC 正是对这一包络的紧凑描述。音乐检索系统常使用 MFCC 特征的长时间均值和协方差作为曲目的音色指纹,结合聚类或分类算法实现自动音乐标注和相似曲目推荐。

5. 局限性与改进

5.1 对噪声敏感

如前所述,MFCC 在低信噪比环境下性能急剧下降。为提高鲁棒性,研究者提出了功率归一化倒谱系数(PNCC)、伽马通频率倒谱系数(GFCC)以及基于深度特征学习的掩蔽策略。

5.2 缺乏相位信息

标准 MFCC 仅基于功率谱的幅度信息,完全丢弃了相位信息。研究表明相位谱在某些语音任务中携带有用的听觉线索。为此,改进方法如修正群延迟倒谱系数(MGDC)和全相位 MFCC 尝试引入相位特征。

5.3 滤波器组的设计固化

传统 MFCC 的三角滤波器组形状和间距在设计上固定不变,无法针对特定任务或声学环境自适应调整。卷积神经网络等学习型方法可通过数据驱动的方式学习出更优的滤波器形式和特征变换,已在多个语音任务上取得超越传统 MFCC 的性能。

总结

梅尔频率倒谱系数是语音信号处理中最具影响力的特征提取方法之一,其成功源于对听觉感知机制的深入模拟和对信号处理理论的精妙融合。通过梅尔刻度映射、对数压缩和离散余弦变换等步骤,MFCC 将高维频谱信息压缩为低维、去相关且感知相关的特征向量。尽管在噪声鲁棒性和任务适配性方面存在一定局限,但 MFCC 作为经典基准特征的地位至今不可撼动。在深度学习时代,MFCC 常作为初始特征层嵌入端到端模型中,或与滤波器组特征互补使用,持续在语音识别、说话人识别、情感计算和音乐信息检索等领域发挥基础作用。