ARTICLE

微分熵

微分熵 微分熵(Differential Entropy)是信息论中将香农熵从离散随机变量推广到连续随机变量的核心概念。给定概率密度函数为 f(x) 的连续随机变量 X,其微分熵定义为: 与离散熵不同的是,微分熵并非"不确定性的绝对度量"——它可以取负值,且在非线性变换下不具有不变性。这些差异源于连续空间的根本性质:连续随机变量的取值是无限精度的,严格意义上

浏览 7 更新 2025-11-08

微分熵

微分熵(Differential Entropy)是信息论中将香农熵从离散随机变量推广到连续随机变量的核心概念。给定概率密度函数为 f(x)f(x) 的连续随机变量 XX,其微分熵定义为:

h(X)=f(x)logf(x)dxh(X) = -\int_{-\infty}^{\infty} f(x) \log f(x)\, dx

与离散熵不同的是,微分熵并非"不确定性的绝对度量"——它可以取负值,且在非线性变换下不具有不变性。这些差异源于连续空间的根本性质:连续随机变量的取值是无限精度的,严格意义上携带"无限大"的信息量,微分熵所捕获的是相对而非绝对的信息尺度。

离散与连续:微分熵的本质差异

离散熵 H(X)=pilogpiH(X) = -\sum p_i \log p_i 始终非负,且当且仅当 XX 是确定性变量时为零。微分熵则不然:考虑区间 [0,a][0, a] 上的均匀分布,其密度为 f(x)=1/af(x) = 1/a,微分熵为:

h(X)=0a1alog1adx=logah(X) = -\int_0^a \frac{1}{a} \log\frac{1}{a}\, dx = \log a

a<1a < 1 时,loga<0\log a < 0,微分熵为负。这一现象揭示了微分熵的相对性——它依赖于坐标系统的尺度选择。更一般地,若 Y=g(X)Y = g(X) 为单调可微变换,则:

h(Y)=h(X)+f(x)logg(x)dxh(Y) = h(X) + \int f(x) \log|g'(x)|\, dx

变换雅可比行列式会引入额外的偏移项,这意味着微分熵不是坐标不变量。这一特性与连续情形下的KL散度形成对比:KL散度在进行可逆变换时保持不变,因为它衡量的是两个分布之间的相对差异,而非单一分布的绝对信息量。

最大熵原理与典型分布

在给定约束条件下,最大化微分熵的分布具有特殊的理论地位,这是最大熵原理在连续领域的体现。

固定方差约束:在所有具有固定二阶矩(即给定方差 σ2\sigma^2)的连续分布中,正态分布使微分熵最大化:

h(N(μ,σ2))=12log(2πeσ2)h(\mathcal{N}(\mu, \sigma^2)) = \frac{1}{2}\log(2\pi e \sigma^2)

这一性质使正态分布成为连续情形下"最不确定"的分布,与离散情形下均匀分布的极值性质遥相呼应。

固定支撑集约束:在给定紧致支撑集(如区间 [a,b][a,b])上,均匀分布最大化微分熵:h(U[a,b])=log(ba)h(U[a,b]) = \log(b-a)

固定均值约束(正半轴):在正实轴上给定均值 λ1\lambda^{-1} 的分布中,指数分布最大化微分熵:h(Exp(λ))=1logλh(\operatorname{Exp}(\lambda)) = 1 - \log\lambda

这些极值性质直接推广了离散情形:正态分布是"给定均值和方差下的最大熵分布",与离散熵中几何分布(固定均值)的角色类似。

微分熵与量化

微分熵与离散熵之间最自然的桥梁是量化(quantization)。将连续变量 XX 以步长 Δ\Delta 离散化为 X^\hat{X},其离散熵近似满足:

H(X^)h(X)logΔH(\hat{X}) \approx h(X) - \log\Delta

Δ0\Delta \to 0 时,H(X^)H(\hat{X}) \to \infty:连续变量的离散化信息量依赖于测量精度,精度越高,所需比特数越大。微分熵 h(X)h(X) 在此充当"分辨率无关"的核心成分,而 logΔ-\log\Delta 则代表精度本身的比特代价。这一关系在率失真理论信源编码定理的连续版本中至关重要。

微分熵的链式法则与互信息

尽管微分熵缺乏绝对解释,由它构造的差分量却是良好定义的。联合微分熵 h(X,Y)h(X,Y)条件微分熵 h(XY)h(X|Y) 满足:

h(X,Y)=h(X)+h(YX)=h(Y)+h(XY)h(X, Y) = h(X) + h(Y|X) = h(Y) + h(X|Y)

更重要的是,连续互信息 I(X;Y)=h(X)h(XY)=h(Y)h(YX)I(X; Y) = h(X) - h(X|Y) = h(Y) - h(Y|X) 保留了离散互信息的所有优良性质:非负性、对称性、坐标不变性。KL散度 DKL(fg)=f(x)logf(x)g(x)dxD_{KL}(f\|g) = \int f(x) \log\frac{f(x)}{g(x)} dx 同样保持非负性和不变性。因此,在信息论的实际应用中——如信道容量的连续版本 C=maxf(x)I(X;Y)C = \max_{f(x)} I(X; Y)——微分熵作为中间量被差值操作消去了歧义,使其成为严谨理论框架中的有效工具。

微分熵的价值不在于其绝对数值,而在于它作为构建互信息、KL散度和信道容量等不变量时的"原材料"。理解微分熵,关键是接受它的相对性,并在差分或比较的语境中施展其信息论洞见。