ARTICLE

互信息

互信息 (Mutual Information) 互信息(Mutual Information, MI)是信息论中的一个核心概念,用于度量两个随机变量之间相互依赖的程度。直观而言,互信息衡量的是在观察到其中一个变量后,另一个变量的不确定性减少的量。若两个变量相互独立,则互信息为零;若一个变量是另一个变量的完全确定性函数,则互信息等于该变量的熵。互信息由克劳德

浏览 0 更新 2025-11-08

互信息 (Mutual Information)

互信息(Mutual Information, MI)是信息论中的一个核心概念,用于度量两个随机变量之间相互依赖的程度。直观而言,互信息衡量的是在观察到其中一个变量后,另一个变量的不确定性减少的量。若两个变量相互独立,则互信息为零;若一个变量是另一个变量的完全确定性函数,则互信息等于该变量的。互信息由克劳德·香农在其1948年奠基性论文《通信的数学理论》中提出,是信息论中三个基本量——熵、联合熵和条件熵——的自然延伸。

定义与数学表达

设离散随机变量 XXYY 的联合概率分布为 p(x,y)p(x, y),边际分布分别为 p(x)p(x)p(y)p(y),互信息定义为:

I(X;Y)=xXyYp(x,y)logp(x,y)p(x)p(y)I(X; Y) = \sum_{x \in \mathcal{X}} \sum_{y \in \mathcal{Y}} p(x, y) \log \frac{p(x, y)}{p(x)p(y)}

对于连续随机变量,求和替换为积分:

I(X;Y)=p(x,y)logp(x,y)p(x)p(y)dxdyI(X; Y) = \iint p(x, y) \log \frac{p(x, y)}{p(x)p(y)} \, dx \, dy

对数底数通常取2,此时互信息的单位为比特(bit);取自然对数时单位为奈特(nat)。

与熵的关系

互信息与熵之间存在若干重要等价关系。其一,互信息等于边际熵之和减去联合熵:I(X;Y)=H(X)+H(Y)H(X,Y)I(X; Y) = H(X) + H(Y) - H(X, Y)文氏图直观展示这一关系:两圆的重叠区域即代表互信息。其二,互信息等于X的熵减去给定Y时X的条件熵:I(X;Y)=H(X)H(XY)I(X; Y) = H(X) - H(X \mid Y),这解释了"互信息是观察Y后X不确定性的减少量"这一直观含义。其三,互信息是对称的:I(X;Y)=I(Y;X)I(X; Y) = I(Y; X)

性质

互信息具有以下基本数学性质:第一,非负性——I(X;Y)0I(X; Y) \geq 0,等号成立当且仅当 XXYY 独立。第二,上界——I(X;Y)min{H(X),H(Y)}I(X; Y) \leq \min\{H(X), H(Y)\},即互信息不能超过任一变量的熵。第三,数据处理不等式(Data Processing Inequality):若 XYZX \to Y \to Z 构成马尔可夫链,则 I(X;Z)I(X;Y)I(X; Z) \leq I(X; Y),表明数据处理过程不能增加信息。第四,在凸分析意义上,对固定的 p(x)p(x),互信息是 p(yx)p(y \mid x)凸函数

应用

互信息广泛应用于多个学科。在机器学习中,它被用作特征选择准则,衡量特征与类别标签之间的关联强度;在聚类分析中,互信息是评价聚类质量的常用指标。通信工程利用互信息定义信道容量C=maxp(x)I(X;Y)C = \max_{p(x)} I(X; Y),即信道所能可靠传输的最大信息率。在自然语言处理中,互信息用于发现搭配和词嵌入因果推断领域利用条件互信息揭示变量间的条件独立性关系,进而构建因果图

变体与扩展

为应对不同场景,互信息衍生出多种变体。条件互信息(Conditional Mutual Information)I(X;YZ)I(X; Y \mid Z) 衡量给定Z时X与Y之间的共享信息,在因果发现中尤为重要。归一化互信息(Normalized Mutual Information, NMI)将值映射到 [0,1][0, 1] 区间,便于跨数据集比较。互信息率(Mutual Information Rate)将概念扩展到随机过程,衡量两个过程间的信息共享速率。点互信息(Pointwise Mutual Information, PMI)pmi(x;y)=logp(x,y)p(x)p(y)\operatorname{pmi}(x; y) = \log \frac{p(x, y)}{p(x)p(y)} 为每个具体事件对的互信息值,常用于文本挖掘中的词关联发现。