ARTICLE
互信息
互信息 (Mutual Information) 互信息(Mutual Information, MI)是信息论中的一个核心概念,用于度量两个随机变量之间相互依赖的程度。直观而言,互信息衡量的是在观察到其中一个变量后,另一个变量的不确定性减少的量。若两个变量相互独立,则互信息为零;若一个变量是另一个变量的完全确定性函数,则互信息等于该变量的熵。互信息由克劳德
互信息 (Mutual Information)
互信息(Mutual Information, MI)是信息论中的一个核心概念,用于度量两个随机变量之间相互依赖的程度。直观而言,互信息衡量的是在观察到其中一个变量后,另一个变量的不确定性减少的量。若两个变量相互独立,则互信息为零;若一个变量是另一个变量的完全确定性函数,则互信息等于该变量的熵。互信息由克劳德·香农在其1948年奠基性论文《通信的数学理论》中提出,是信息论中三个基本量——熵、联合熵和条件熵——的自然延伸。
定义与数学表达
设离散随机变量 和 的联合概率分布为 ,边际分布分别为 和 ,互信息定义为:
对于连续随机变量,求和替换为积分:
对数底数通常取2,此时互信息的单位为比特(bit);取自然对数时单位为奈特(nat)。
与熵的关系
互信息与熵之间存在若干重要等价关系。其一,互信息等于边际熵之和减去联合熵:。文氏图直观展示这一关系:两圆的重叠区域即代表互信息。其二,互信息等于X的熵减去给定Y时X的条件熵:,这解释了"互信息是观察Y后X不确定性的减少量"这一直观含义。其三,互信息是对称的:。
性质
互信息具有以下基本数学性质:第一,非负性——,等号成立当且仅当 与 独立。第二,上界——,即互信息不能超过任一变量的熵。第三,数据处理不等式(Data Processing Inequality):若 构成马尔可夫链,则 ,表明数据处理过程不能增加信息。第四,在凸分析意义上,对固定的 ,互信息是 的凸函数。
应用
互信息广泛应用于多个学科。在机器学习中,它被用作特征选择准则,衡量特征与类别标签之间的关联强度;在聚类分析中,互信息是评价聚类质量的常用指标。通信工程利用互信息定义信道容量:,即信道所能可靠传输的最大信息率。在自然语言处理中,互信息用于发现搭配和词嵌入。因果推断领域利用条件互信息揭示变量间的条件独立性关系,进而构建因果图。
变体与扩展
为应对不同场景,互信息衍生出多种变体。条件互信息(Conditional Mutual Information) 衡量给定Z时X与Y之间的共享信息,在因果发现中尤为重要。归一化互信息(Normalized Mutual Information, NMI)将值映射到 区间,便于跨数据集比较。互信息率(Mutual Information Rate)将概念扩展到随机过程,衡量两个过程间的信息共享速率。点互信息(Pointwise Mutual Information, PMI) 为每个具体事件对的互信息值,常用于文本挖掘中的词关联发现。