指数族分布 (Exponential Family)
指数族是统计学中覆盖最广的参数分布族→正态分布/伯努利分布/泊松分布/Gamma分布/Beta分布/多项分布/Dirichlet分布/负二项分布等数十种常用分布皆其特例。核心价值:用统一数学形式处理所有成员→MLE/GLM/变分推断/贝叶斯更新均可纳入同一代数框架→充分统计量维数固定+累积量生成函数闭式+共轭先验系统构造→理论与应用中枢。
标准形式与三种参数化
自然参数形式(canonical form):
p(x∣η)=h(x)exp(ηTT(x)−A(η))
四大组件:①自然参数η∈Rd→指数族内积权重;②充分统计量T(x)→数据通过T(⋅)压缩为d维→Neyman-Fisher分解保证信息不损失→维数不随样本量n增长→此乃指数族定义性特征;③对数配分函数A(η)=log∫h(x)eηTT(x)dx→归一化保证积分为1→严格凸→其二阶导为Fisher信息;④底测度h(x)≥0→与参数无关→仅依赖数据空间结构。
均值参数化:自然参数空间H={η:A(η)<∞}为凸集→梯度映射μ(η)=∇A(η)=Eη[T(X)]将自然参数双射至均值参数μ→落在充分统计量期望值的可行集M内→对偶关系:η=∇A∗(μ),其中A∗(μ)=supη(ηTμ−A(η))为A的凸共轭(Legendre-Fenchel变换)。均值参数化在矩匹配和变分推断中尤便。
经典参数化:引入原参数θ(如伯努利成功概率p、泊松强度λ)→令η=η(θ)→p(x∣θ)=h(x)exp(η(θ)TT(x)−A(η(θ)))→称标准指数族。若η(θ)=θ(恒等映射)则已是自然形式→否则称曲指数族(curved exponential family)→参数空间维度<自然参数维度→非线性约束→渐近理论更复杂。
成员速查:
- 伯努利:η=log1−pp(logit),T(x)=x∈{0,1},A(η)=log(1+eη),h(x)=1→Logistic回归基础。
- 正态(方差已知σ2):η=μ/σ2,T(x)=x,A(η)=σ2η2/2,h(x)=2πσ21e−x2/(2σ2)。
- 正态(均值方差均未知):η=[μ/σ2,−1/(2σ2)]T,T(x)=[x,x2]T→二维自然参数→二维充分统计量。
- 泊松:η=logλ,T(x)=x,A(η)=eη,h(x)=1/x!。
- Gamma:η=[α−1,−β]T或自然参数化为形状-速率,T(x)=[logx,x]T,A(η)=logΓ(α)−αlogβ。
- Beta:η=[α,β]T,T(x)=[logx,log(1−x)]T,A(η)=logB(α,β)。
- Dirichlet:多项Beta推广→K类概率单纯形→充分统计量[logx1,…,logxK]。
- 负二项(失败次数固定):η=log(1−p),T(x)=x。
核心理论性质
矩生成与累积量:A(η)为累积量生成函数(CGF)→一阶导∇A(η)=Eη[T(X)](均值映射),二阶导∇2A(η)=Covη(T(X))→更高阶导给出高阶累积量→A严格凸(除非T(X)几乎处处常数)→Fisher信息矩阵I(η)=∇2A(η)必然正定→对数似然ℓ(η)为严格凹函数→MLE唯一全局最优。
MLE极简性:i.i.d.样本{xi}i=1n下→对数似然ℓ(η)=ηT∑iT(xi)−nA(η)+∑ilogh(xi)→梯度方程∇ℓ=∑iT(xi)−n∇A(η)=0→MLE满足∇A(η^)=n1∑iT(xi)→即矩匹配:充分统计量的模型期望=样本均值。MLE仅依赖n1∑iT(xi)→与分布具体形式无关→对所有指数族成员统一适用。若自然参数空间H为开集且n1∑iT(xi)∈M∘(均值参数空间内部)→MLE存在唯一→Newton-Raphson或Fisher Scoring快速收敛。
共轭先验系统论:指数族自然共轭先验形式为p(η∣τ,ν)∝exp(τTη−νA(η))→超参数(τ,ν):τ为"伪充分统计量"、ν为"伪样本量"。后验:p(η∣x1:n)∝exp((τ+∑T(xi))Tη−(ν+n)A(η))→超参数直接相加→贝叶斯更新仅需O(d)的代数运算。经典配对:Beta-Bernoulli(τ=伪成功数)、Normal-Normal(均值推断)、Gamma-Poisson(强度推断)、Dirichlet-Multinomial(概率向量推断)、Normal-InverseGamma(联合均值-方差推断)。
最大熵原理:在所有满足矩约束E[T(X)]=μ的分布中→指数族是唯一最大化Shannon熵H(p)=−∫p(x)logp(x)dx的分布→证明:拉格朗日乘子法→η为矩约束的对偶变量→A(η)为配分函数的对数→指数族是"给定矩信息下最少额外假设"的分布→信息论哲学基础:Jaynes最大熵原理。
KL散度与投影:任意概率密度q(⋅)到指数族pη的KL散度:KL(q∥pη)=∫qlog(q/pη)=−H(q)−ηTEq[T(X)]+A(η)→固定q对η求极小→一阶条件∇A(η)=Eq[T(X)]→最优η∗使模型矩匹配q的矩→即矩投影(moment projection/M-projection)。另一方向KL(pη∥q)→信息投影(I-projection)。该几何结构是变分推断与期望传播(EP)的核心。
充分性与完备性:T(X)不仅充分(Neyman-Fisher因子分解→似然仅通过T(x)依赖数据)且在温和条件下完备→Lehmann-Scheffé定理→T(X)的无偏估计函数唯一→UMVUE可由T(X)构造→参数推断最优性保证。
广义线性模型 (GLM)
GLM将指数族推向回归分析核心→三要素:①响应Y∣X服从分散指数族(dispersion exponential family):p(y∣η,ϕ)=exp(a(ϕ)yη−b(η)+c(y,ϕ))→其中ϕ为散度参数(如正态σ2、泊松ϕ=1、Gamma形状)→a(ϕ)通常取ϕ/w(w已知权重);②系统成分η=βTX线性预测;③链接函数g(⋅)连接均值与线性预测:g(μ)=η。
正则链接(canonical link):取g=b′−1→使η=βTX直接为自然参数→充分统计量∑iXiYi→对数似然简洁→Fisher Scoring与Newton-Raphson等价→理论优雅。经典GLM速查:
- 线性回归:正态+恒等链接g(μ)=μ→β^=(XTX)−1XTY闭式。
- Logistic回归:伯努利+logit链接g(μ)=log1−μμ→二分类基准。
- Poisson回归:泊松+log链接g(μ)=logμ→计数数据→过度分散时扩展为负二项回归。
- Gamma回归:Gamma+倒数链接g(μ)=1/μ→正连续响应(保险赔付、生存时间)。
- 多项Logit:多项分布+广义logit→多分类基准。
估计与推断:IRLS(迭代重加权最小二乘)统一求解→每步解加权最小二乘β^(t+1)=(XTW(t)X)−1XTW(t)z(t)→权重W=diag((g′(μi))−2Var(Yi)−1)→调整响应zi=ηi+(yi−μi)g′(μi)→收敛迅速。准似然(quasi-likelihood):仅需均值-方差关系Var(Y)=a(ϕ)V(μ)→无需完整分布→拟GLM→GEE(广义估计方程)处理纵向数据相关结构。
信息几何视角
指数族定义统计流形(statistical manifold)→两点坐标系统:自然参数η为e-仿射坐标(指数连接)、均值参数μ为m-仿射坐标(混合连接)→Fisher信息矩阵I(η)为该流形的黎曼度量。Amari α-连接统一二者:α=1为e-连接、α=−1为m-连接→两者关于Fisher度量互为对偶。应用:EM算法的E步为m-投影到观测数据流形→M步为e-投影到模型流形→收敛性由Pythagorean定理(广义)保证。自然梯度:∇~f=I(η)−1∇f→参数空间黎曼梯度→在变分推断和深度学习中加速收敛。
变分推断与贝叶斯计算
平均场变分推断(MFVI):假设后验近似q(θ)=∏jqj(θj)→各因子取指数族形式→坐标上升更新:logqj∗(θj)=E−j[logp(x,θ)]+const→若模型条件共轭(完整条件属于同指数族)→更新为闭式超参数加减→CAVI(坐标上升VI)高效。随机变分推断(SVI):用随机梯度处理大规模数据→自然梯度+指数族→更新规则极简→变分自编码器(VAE)重参数化技巧即此框架。期望传播(EP):用指数族近似因子→I-投影逐因子匹配矩→幂EP插值于VI与EP之间。
局限与扩展
非指数族分布:均匀分布(支撑依赖参数)、Student-t(自由度参数非自然参数形式)、混合模型(隐变量使完整数据属指数族但观测数据不属)→EM算法桥接两者。截断分布/删失数据:支撑集与参数相关→指数族条件破坏。厚尾/多峰/异方差场景→非参数方法/半参数方法补充。
现代扩展:指数族PCA(将PCA推广至非高斯数据→伯努利PCA、泊松PCA);指数族图模型(Ising模型为伯努利+成对交互→高斯图模型为正态+精度矩阵稀疏→LASSO加ℓ1罚估计稀疏图结构);指数族矩阵分解(推荐系统中的泊松矩阵分解);神经指数族(用神经网络参数化η(x)→深度充分统计量→连接深度学习与经典推断)。