ARTICLE

图像压缩

图像压缩 (Image Compression) 图像压缩是数字图像处理与信息论中的核心技术,指在保持可接受视觉质量的前提下,减少表示一幅数字图像所需的数据量。图像压缩的理论基础根植于信息论中的率失真理论(Rate-Distortion Theory),其工程实现则贯穿了从互联网到移动终端的几乎每一个数字视觉系统。根据解码后能否无失真地恢复原始图像,图像压缩

浏览 0 更新 2025-12-20

图像压缩 (Image Compression)

图像压缩是数字图像处理与信息论中的核心技术,指在保持可接受视觉质量的前提下,减少表示一幅数字图像所需的数据量。图像压缩的理论基础根植于信息论中的率失真理论(Rate-Distortion Theory),其工程实现则贯穿了从互联网到移动终端的几乎每一个数字视觉系统。根据解码后能否无失真地恢复原始图像,图像压缩被划分为无损压缩有损压缩两个基本范式。

信息论基础:冗余与率失真

一切图像压缩的可行性来自两个事实:图像数据中存在统计冗余,以及人类视觉系统对特定类型的失真不敏感。统计冗余表现为三种形式:编码冗余——像素灰度值的概率分布不均匀,可用变长码降低平均码长;空间冗余——相邻像素高度相关,可由预测或变换来去相关;心理视觉冗余——人眼对高频细节和色度分量的敏感度远低于亮度,这些信息即便被丢弃也难以察觉。

香农的率失真理论给出了压缩的理论边界:对于给定的失真度量 DD率失真函数 R(D)R(D) 表示在失真不超过 DD 的条件下,每像素所需的最小比特数。所有实际的图像压缩算法都在向这一理论极限逼近——失真越小,所需码率越高,二者之间的权衡构成了图像压缩设计的核心张力。

无损压缩技术

无损压缩保证解码图像与原始图像像素级完全一致,通常用于医学影像、遥感图像和档案存储等不容许任何信息损失的领域。

预测编码是无损压缩的基本策略之一。JPEG-LS标准采用的 LOCO-I 算法通过邻域像素的线性预测来估计当前像素值,随后对预测残差进行 Golomb-Rice 熵编码。预测器利用像素间的空间相关性——在平滑区域,预测极为精准,残差接近于零,压缩率极高。

字典编码PNG 格式中得到典型应用。PNG 使用 DEFLATE 算法,该算法将 LZ77 字典压缩与哈夫曼编码级联:LZ77 将重复出现的像素模式替换为指向历史窗口中匹配位置的(距离,长度)对,哈夫曼编码再对这些符号按出现频率分配最优变长码字。GIF 格式则采用 LZW 算法——通过动态构建字符串表,将像素序列映射为递增的码字索引,特别适合颜色数有限的图形和图标。

游程编码(Run-Length Encoding, RLE)直接统计连续相同像素的重复次数,在二值图像和传真标准(如 CCITT Group 3/4)中效率极高,但在自然图像中因像素变化丰富而收效甚微。

有损压缩:变换编码范式

有损压缩接受适度失真以换取数倍乃至数十倍的压缩比,是 JPEG、WebP 和 HEIF 等主流格式的技术核心。其主导范式是变换编码(Transform Coding):将图像从像素空间变换到一个能量集中的表示域,在该域中对系数进行选择性量化,最后以熵编码完成压缩。

JPEG 标准是有史以来最广泛采用的有损图像压缩方案。其处理管道依次为:

  1. 色彩空间转换:将图像从 RGB 转换到 YCbCr 空间,分离亮度分量 Y 和两个色度分量 Cb、Cr。由于人眼对色度分辨率远不如亮度敏感,色度分量随后进行色度子采样(常见 4:2:0 模式将色度水平和垂直分辨率各减半),在几乎不察觉的情况下减少一半的原始信息。
  2. 分块与 DCT:将图像划分为 8×88 \times 8 像素块,对每个块施以离散余弦变换(Discrete Cosine Transform, DCT),将 64 个像素值转换为 64 个频率系数——左上角的 DC 系数代表块的平均亮度,向右下角频率逐渐升高。
  3. 量化:将 DCT 系数除以量化矩阵中的对应步长后取整。这是 JPEG 中有损性的唯一来源——高频系数因人眼不敏感而被大步长量化,绝大多数变为零。量化步长由质量因子控制:高画质用小步长(弱量化),低码率用大步长(强量化)。
  4. 熵编码:量化后的系数按 Zig-Zag 顺序扫描(从低频到高频),将非零系数和零游程组织为(游程,值)的符号序列,最终由哈夫曼编码或算术编码输出比特流。

JPEG 的致命弱点——低码率下的块效应(Blocking Artifacts)——源于分块独立处理时块边界的不连续性。JPEG 2000小波变换(Wavelet Transform)替代 DCT,对整幅图像进行多分辨率分解,在低码率下产生更自然的模糊而非尖锐的块边界,但因其计算复杂度和专利问题未能取代 JPEG 的主导地位。

现代标准与学习压缩

WebP(Google, 2010)集成了 VP8 视频编解码器中的帧内预测技术,支持有损和无损两种模式,在同等 SSIM 下较 JPEG 节省约 25\%–34\% 的文件大小。HEIF/HEIC(MPEG, 2015)基于 HEVC 视频编码标准的帧内预测,采用更大的编码块(64×6464 \times 64)和更复杂的预测方向,压缩效率较 JPEG 提升约 50\%,已被 Apple 生态系统广泛采用。AVIF(Alliance for Open Media, 2019)基于 AV1 编解码器,在保持开放免专利的同时提供了与 HEIF 相当的压缩性能,代表了当前开放标准的最前沿。

近年来,端到端学习图像压缩(Learned Image Compression)利用卷积神经网络变分自编码器对整条压缩管道进行联合优化,在率失真性能上已超越传统标准。这些方法通过可微的熵模型(如超先验网络和自回归上下文模型)实现对码率的精确估计,以端到端梯度优化替代手工设计的逐模块调整,标志着图像压缩从香农的数学框架迈入了深度学习驱动的数据驱动范式。

图像压缩的本质在于对人类视觉系统特性的深刻理解和巧妙的信号处理——将图像中人类不敏感的信息精准地识别并舍弃,仅将有限的比特预算分配给真正可感知的结构。这一跨信号处理、信息论和视觉感知科学的交叉领域,持续因互联网带宽压力和更高分辨率的需求而向前演化。