ARTICLE

信息论

信息论 信息论(Information Theory)是研究信息量化、存储与通信的数学理论,由克劳德·香农(Claude Shannon)于1948年奠基。其核心思想是:信息可以用概率论框架下的熵来度量,通信信道存在一个理论上限(信道容量),在不超过该上限的前提下,信息可以被可靠地传输。 熵(Entropy) 熵是信息论中最基本的概念,衡量一个随机变量的不确

浏览 5 更新 2025-10-26

信息论

信息论(Information Theory)是研究信息量化、存储与通信的数学理论,由克劳德·香农(Claude Shannon)于1948年奠基。其核心思想是:信息可以用概率论框架下的熵来度量,通信信道存在一个理论上限(信道容量),在不超过该上限的前提下,信息可以被可靠地传输。

熵(Entropy)

熵是信息论中最基本的概念,衡量一个随机变量的不确定性。设离散随机变量 X X 的概率分布为 p(x) p(x) ,其香农熵定义为:

H(X)=xXp(x)log2p(x)H(X) = -\sum_{x \in \mathcal{X}} p(x) \log_2 p(x)

单位为比特(bit)。熵也可以理解为编码 X X 所需的最小平均比特数。例如,一枚公平硬币的熵为 1 比特,而一个确定性事件的熵为 0。

联合熵 H(X,Y) H(X,Y) 描述两个随机变量的联合不确定性,条件熵 H(YX) H(Y|X) 表示在已知 X X 的条件下 Y Y 剩余的不确定性,满足链式法则 H(X,Y)=H(X)+H(YX) H(X,Y) = H(X) + H(Y|X)

互信息(Mutual Information)

互信息度量两个变量共享的信息量,即一个变量包含另一个变量的信息:

I(X;Y)=H(X)H(XY)=x,yp(x,y)log2p(x,y)p(x)p(y)I(X;Y) = H(X) - H(X|Y) = \sum_{x,y} p(x,y) \log_2 \frac{p(x,y)}{p(x)p(y)}

互信息是非负的,且 I(X;Y)=0 I(X;Y)=0 当且仅当 X X Y Y 独立。它是对称且可加的信息度量。

相对熵(KL散度)

KL散度(Kullback–Leibler divergence)衡量两个概率分布 P P Q Q 之间的差异:

DKL(PQ)=xp(x)log2p(x)q(x)D_{\text{KL}}(P \parallel Q) = \sum_x p(x) \log_2 \frac{p(x)}{q(x)}

KL散度不满足对称性和三角不等式,因此不是严格意义上的距离,但它常被用作分布差异的度量。在机器学习中,KL散度是变分推断和许多生成模型(如VAE)的关键组成部分。

信道容量(Channel Capacity)

信道容量是通信信道可以可靠传输信息的最大速率。香农的信道编码定理指出,只要传输速率低于信道容量,总存在一种编码方式使错误概率任意小;反之,若速率超过容量,则无法实现可靠通信。

对于离散无记忆信道,容量为:

C=maxp(x)I(X;Y)C = \max_{p(x)} I(X;Y)

这一定理开创了现代通信理论,也为数字通信系统的设计提供了理论基准。

率失真理论(Rate–Distortion Theory)

率失真理论研究在给定失真度下,信源压缩所需的最小比特率,是有损压缩的理论基础。率失真函数 R(D) R(D) 表示在期望失真不超过 D D 的前提下,信源所需的编码速率下界。

信息论的应用

信息论的影响远超通信领域:

  • 数据压缩:霍夫曼编码、算术编码等无损压缩算法直接源于熵的概念;有损压缩(如JPEG、MP3)则基于率失真理论。
  • 机器学习:互信息用于特征选择,KL散度见于变分推断、贝叶斯学习和生成对抗网络。信息瓶颈理论解释深度学习中表示与泛化的关系。
  • 经济学与统计推断:最大熵原理用于从有限观测中构造概率分布;信息论在计量经济学中用于模型选择(AIC、BIC本质上源于KL散度)。
  • 生物学与神经科学:神经元编码效率的分析常借用信道容量的工具;群体遗传学中用熵度量基因多样性。

总结

信息论以熵为核心,提供了量化信息、描述通信极限和分析随机系统不确定性的统一框架。从香农的奠基性论文至今,信息论已深刻影响了通信工程、统计学、计算科学、经济学及神经科学等多个学科,并继续在人工智能和数据科学时代焕发新的活力。