ARTICLE

指数族

指数族(Exponential Family)是概率统计学中一类具有统一代数结构的分布族,其概率密度函数(或概率质量函数)可表达为指数形式的通用模板。包括正态分布、伯努利分布、泊松分布、伽马分布、贝塔分布在内的许多常用分布都属于指数族。这一统一框架为统计推断、机器学习与广义线性模型提供了坚实的理论基础,使得参数估计、假设检验和贝叶斯分析可以在一个高度抽象的层

浏览 9 更新 2025-10-26

指数族(Exponential Family)是概率统计学中一类具有统一代数结构的分布族,其概率密度函数(或概率质量函数)可表达为指数形式的通用模板。包括正态分布、伯努利分布、泊松分布、伽马分布、贝塔分布在内的许多常用分布都属于指数族。这一统一框架为统计推断、机器学习与广义线性模型提供了坚实的理论基础,使得参数估计、假设检验和贝叶斯分析可以在一个高度抽象的层次上统一处理。

定义与标准形式

指数族分布的核心特征是,其概率密度函数可以写成如下标准形式:

f(xη)=h(x)exp{ηTT(x)A(η)}f(x \mid \eta) = h(x) \exp\big\{\eta^{\mathsf{T}} T(x) - A(\eta)\big\}

其中 η \eta 称为自然参数(natural parameter),T(x) T(x) 是充分统计量(sufficient statistic),A(η) A(\eta) 是对数配分函数(log-partition function),h(x) h(x) 是基准测度(base measure)。若分布包含额外的尺度参数,可将定义扩展为含散度参数的更一般形式:

f(xη,ϕ)=h(x,ϕ)exp{ηTT(x)A(η)ϕ}f(x \mid \eta, \phi) = h(x, \phi) \exp\left\{\frac{\eta^{\mathsf{T}} T(x) - A(\eta)}{\phi}\right\}

这里 ϕ \phi 是散度参数,常见于广义线性模型中的指数分散族。自然参数空间的定义域是使 A(η) A(\eta) 为有限值的所有 η \eta 的集合,该集合构成一个凸集。

自然参数与充分统计量

自然参数 η \eta 与分布的标准参数之间存在可逆的变换关系。以伯努利分布为例,其概率质量函数为 p(xμ)=μx(1μ)1x p(x \mid \mu) = \mu^x (1-\mu)^{1-x} ,改写为指数族形式得 η=log(μ/(1μ)) \eta = \log(\mu/(1-\mu)) (即对数几率),T(x)=x T(x) = x A(η)=log(1+eη) A(\eta) = \log(1+e^\eta) 。这意味着伯努利分布的自然参数就是逻辑回归中使用的 logit 函数。正态分布已知方差时的均值参数亦可类似转化:η=μ/σ2 \eta = \mu/\sigma^2 T(x)=x T(x) = x 。充分统计量 T(x) T(x) 在指数族中具有特殊地位——对于 n n 个独立同分布样本,联合分布的充分统计量恰为 i=1nT(xi) \sum_{i=1}^n T(x_i) ,这直接印证了因子分解定理。若自然参数 η \eta 的维度与充分统计量 T(x) T(x) 的维度相同,则称为满秩指数族。

对数配分函数与矩

对数配分函数 A(η) A(\eta) 在指数族中不仅起归一化作用,它还承担着累积量生成函数的功能。对 A(η) A(\eta) 求一阶导数可得充分统计量的期望:

E[T(x)]=A(η)\mathbb{E}[T(x)] = \nabla A(\eta)

二阶导数给出方差:

Var[T(x)]=2A(η)\operatorname{Var}[T(x)] = \nabla^2 A(\eta)

这一性质使得矩的计算转化为求导运算,极大简化了理论推导。更一般地,A(η) A(\eta) k k 阶导数等于 T(x) T(x) k k 阶累积量,因此 A(η) A(\eta) 也被称为累积量生成函数。此外,A(η) A(\eta) 是严格凸函数,保证了自然参数空间上的优化问题具有唯一解——这是极大似然估计在指数族中一致有效的深层原因。该凸性还确保了指数族分布的熵是自然参数的凹函数,这一性质在信息几何中具有重要意义。

常见分布举例

指数族涵盖了大量常用分布。伯努利分布和二项分布属于离散指数族,其自然参数均为对数几率。泊松分布的自然参数为 η=logλ \eta = \log \lambda ,充分统计量为 T(x)=x T(x)=x 。正态分布(已知方差)亦属指数族;若方差未知,二元正态分布则属于两参数指数族,自然参数向量为 (μ/σ2,1/(2σ2)) (\mu/\sigma^2, -1/(2\sigma^2)) ,充分统计量为 (x,x2) (x, x^2) 。伽马分布和逆伽马分布也属于指数族,在贝叶斯统计中常用作共轭先验。多项分布对应的指数族形式则是分类分布的自然推广,其自然参数为各类别的对数几率。并非所有分布都属于指数族——均匀分布、学生 t t 分布和混合分布就不满足指数族的标准形式,因为它们无法通过有限的自然参数表达为指数形式。韦布尔分布在形状参数已知时属于指数族,但在形状参数未知时则不是。

共轭先验与贝叶斯推断

指数族在贝叶斯分析中具有特别重要的地位。对于给定的指数族似然函数,存在形式固定的共轭先验分布,且共轭先验本身也属于指数族。具体而言,若似然函数为 f(xη) f(x \mid \eta) ,则共轭先验可写为:

p(ητ,ν)exp{ηTτνA(η)}p(\eta \mid \tau, \nu) \propto \exp\big\{\eta^{\mathsf{T}} \tau - \nu A(\eta)\big\}

其中 τ \tau ν \nu 是超参数。后验分布的超参数更新规则极为简洁:τpost=τprior+T(xi) \tau_{\text{post}} = \tau_{\text{prior}} + \sum T(x_i) νpost=νprior+n \nu_{\text{post}} = \nu_{\text{prior}} + n 。这意味着先验信息可以解释为 ν \nu 个"虚拟观测"的充分统计量之和为 τ \tau ,新数据的加入仅通过加法更新即可完成推断。这一性质是变分推断、主题模型和在线学习等算法得以高效实现的理论基础。以贝塔-伯努利模型为例,若先验为 Beta(α, β),观测到 n 次试验中 k 次成功,则后验为 Beta(α+k, β+n−k),这正是共轭性最简洁的体现。类似地,正态-正态共轭模型和伽马-泊松共轭模型在贝叶斯分层建模中亦被广泛采用。

广义线性模型

指数族是广义线性模型的数学基石。Nelder 和 Wedderburn 于 1972 年提出的广义线性模型将线性回归推广到非正态响应变量场景,其核心假设为:响应变量的分布属于指数族,线性预测器 η=βTX \eta = \beta^{\mathsf{T}} X 通过一个链接函数 g() g(\cdot) 与均值 μ \mu 关联,即 g(μ)=βTX g(\mu) = \beta^{\mathsf{T}} X 。当链接函数取为自然参数时,称为典则链接函数——逻辑回归(伯努利分布 + logit 链接)、泊松回归(泊松分布 + 对数链接)和线性回归(正态分布 + 恒等链接)均是该框架的特例。广义线性模型统一了包括线性回归、逻辑回归、泊松回归和多项回归在内的一系列方法,为应用统计提供了系统化的建模工具。

总结

指数族通过统一的形式化语言,将大量看似无关的概率分布纳入同一数学框架。它揭示了一个深刻的事实:许多分布虽然在表现形态上截然不同,但其背后的统计结构却共享同样的代数规律。从充分统计量到共轭先验,从极大似然估计到广义线性模型,指数族为统计学的核心理论提供了统一的数学工具。在机器学习的神经网络与概率图模型中,指数族同样发挥着不可替代的作用。深度生成模型中的变分自编码器利用指数族性质设计编码器与解码器,概率图模型中的条件随机场则依赖指数族形式定义特征函数与势函数。理解指数族的数学结构,是掌握现代统计与机器学习方法论的重要基础。