ARTICLE
短时傅里叶变换
短时傅里叶变换 (Short-Time Fourier Transform, STFT) 短时傅里叶变换 (STFT) 是一种时频分析方法,通过在信号上滑动窗函数并逐段计算傅里叶变换,将一维时域信号映射到二维时频平面。STFT 的核心思想由 Dennis Gabor 于 1946 年提出,是分析非平稳信号的基石工具,广泛应用于语音处理、雷达信号分析、地震学、
短时傅里叶变换 (Short-Time Fourier Transform, STFT)
短时傅里叶变换 (STFT) 是一种时频分析方法,通过在信号上滑动窗函数并逐段计算傅里叶变换,将一维时域信号映射到二维时频平面。STFT 的核心思想由 Dennis Gabor 于 1946 年提出,是分析非平稳信号的基石工具,广泛应用于语音处理、雷达信号分析、地震学、音乐信息检索与生物医学信号处理等领域。
基本定义与数学形式
给定连续时间信号 ,其短时傅里叶变换定义为:
其中 为实值窗函数, 为时间平移参数, 为角频率。窗函数 在时刻 附近对信号进行局部截取,截取后的片段被视作平稳信号进行傅里叶分析。实际计算中常用离散形式:
其中 为帧移 (hop size), 为 FFT 点数, 为帧索引, 为频率 bin。
窗函数与分辨率权衡
STFT 的性能高度依赖窗函数选择。常见窗函数包括矩形窗、汉宁窗 (Hann)、汉明窗 (Hamming) 与布莱克曼窗 (Blackman)。窗函数引入时域局部化,但同时也导致频谱泄漏:矩形窗主瓣最窄但旁瓣最高,汉宁窗与汉明窗在旁瓣抑制与主瓣宽度之间取得折中。
STFT 面临时频分辨率的根本权衡——海森堡不确定性原理的时频版本:
其中 为时间分辨率, 为频率分辨率。窄窗赋予好的时间分辨率但差的频率分辨率;宽窗则相反。不存在同时在时域和频域都完美分辨的窗函数——这是 STFT 的内在局限,也是推动 小波变换 发展的核心动因。
语谱图
STFT 的平方模量称为语谱图 (Spectrogram):
语谱图以图像形式呈现信号能量在时频平面上的分布,是语音分析和音频信号处理中最常用的可视化工具。通过语谱图可直观识别谐波结构、共振峰轨迹、起音时刻等声学特征。语谱图的频率分辨率与时间分辨率始终处于反比关系中,参数选择取决于具体应用场景。
逆变换与信号重构
STFT 在满足恒重叠相加 (COLA) 约束的条件下是可逆的。连续逆变换为:
基于重叠相加法 (OLA) 或重叠保留法 (OLS) 的逆 STFT 广泛应用于信号重建、降噪处理与音效变换(如时间拉伸、音高偏移)等场景。重构的精确性要求窗函数设计满足 对所有 成立。
应用与扩展
STFT 在多个领域有核心应用:
- 语音识别:声学特征提取(MFCC 等特征依赖于 STFT 幅度谱)
- 音频编码:MP3、AAC 等编码标准中的时频变换
- 雷达与声纳:运动目标的多普勒参数估计
- 生物医学信号:EEG、ECG 的时频分析
- 机械故障诊断:振动信号的频谱监测
STFT 的主要局限在于:一旦窗函数选定,整个时频平面的分辨率就固定不变,无法对不同时间尺度的信号成分进行自适应调整。这一局限催生了 小波变换——通过可变尺度的时频原子实现对信号的多分辨率分析,低频段获得高频率分辨率,高频段获得高时间分辨率。
尽管如此,STFT 因其实现简单、物理意义清晰、可通过 FFT 快速计算等优势,至今仍是时频分析领域最基础且使用最广泛的工具。与 傅里叶变换 相比,STFT 保留了时间局部性;与小波变换相比,STFT 以均匀的时频分辨率换取计算效率与直观性。STFT 也可理解为一种特殊的滤波器组——对每个频点,STFT 等于信号经过带通滤波后调制至基带的结果。使用高斯窗的 STFT 特称 Gabor 变换,因其达到海森堡下界而具有最优的联合时频分辨率。