ARTICLE

exponential family

指数族分布 (Exponential Family) 指数族是统计学中覆盖最广的参数分布族→正态分布/伯努利分布/泊松分布/Gamma分布/Beta分布/多项分布/Dirichlet分布/负二项分布等数十种常用分布皆其特例。核心价值:用统一数学形式处理所有成员→MLE/GLM/变分推断/贝叶斯更新均可纳入同一代数框架→充分统计量维数固定+累积量生成函数闭式+

浏览 0 更新 2025-12-20

指数族分布 (Exponential Family)

指数族统计学中覆盖最广的参数分布族→正态分布/伯努利分布/泊松分布/Gamma分布/Beta分布/多项分布/Dirichlet分布/负二项分布等数十种常用分布皆其特例。核心价值:用统一数学形式处理所有成员→MLE/GLM/变分推断/贝叶斯更新均可纳入同一代数框架→充分统计量维数固定+累积量生成函数闭式+共轭先验系统构造→理论与应用中枢。

标准形式与三种参数化

自然参数形式(canonical form):

p(xη)=h(x)exp(ηTT(x)A(η))p(x \mid \eta) = h(x) \exp\left(\eta^\mathsf{T} T(x) - A(\eta)\right)

四大组件:①自然参数ηRd\eta\in\mathbb{R}^d→指数族内积权重;②充分统计量T(x)T(x)→数据通过T()T(\cdot)压缩为d维→Neyman-Fisher分解保证信息不损失→维数不随样本量nn增长→此乃指数族定义性特征;③对数配分函数A(η)=logh(x)eηTT(x)dxA(\eta)=\log\int h(x)e^{\eta^\mathsf{T}T(x)}dx→归一化保证积分为1→严格凸→其二阶导为Fisher信息;④底测度h(x)0h(x)\ge0→与参数无关→仅依赖数据空间结构。

均值参数化:自然参数空间H={η:A(η)<}\mathcal{H}=\{\eta:A(\eta)<\infty\}凸集→梯度映射μ(η)=A(η)=Eη[T(X)]\mu(\eta)=\nabla A(\eta)=E_\eta[T(X)]将自然参数双射至均值参数μ\mu→落在充分统计量期望值的可行集M\mathcal{M}内→对偶关系:η=A(μ)\eta=\nabla A^*(\mu),其中A(μ)=supη(ηTμA(η))A^*(\mu)=\sup_\eta(\eta^\mathsf{T}\mu-A(\eta))AA凸共轭(Legendre-Fenchel变换)。均值参数化在矩匹配变分推断中尤便。

经典参数化:引入原参数θ\theta(如伯努利成功概率pp、泊松强度λ\lambda)→令η=η(θ)\eta=\eta(\theta)p(xθ)=h(x)exp(η(θ)TT(x)A(η(θ)))p(x|\theta)=h(x)\exp(\eta(\theta)^\mathsf{T}T(x)-A(\eta(\theta)))→称标准指数族。若η(θ)=θ\eta(\theta)=\theta(恒等映射)则已是自然形式→否则称曲指数族(curved exponential family)→参数空间维度<自然参数维度→非线性约束→渐近理论更复杂。

成员速查

  • 伯努利η=logp1p\eta=\log\frac{p}{1-p}(logit),T(x)=x{0,1}T(x)=x\in\{0,1\}A(η)=log(1+eη)A(\eta)=\log(1+e^\eta)h(x)=1h(x)=1→Logistic回归基础。
  • 正态(方差已知σ2\sigma^2):η=μ/σ2\eta=\mu/\sigma^2T(x)=xT(x)=xA(η)=σ2η2/2A(\eta)=\sigma^2\eta^2/2h(x)=12πσ2ex2/(2σ2)h(x)=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-x^2/(2\sigma^2)}
  • 正态(均值方差均未知):η=[μ/σ2,  1/(2σ2)]T\eta=[\mu/\sigma^2,\;-1/(2\sigma^2)]^\mathsf{T}T(x)=[x,  x2]TT(x)=[x,\;x^2]^\mathsf{T}→二维自然参数→二维充分统计量。
  • 泊松η=logλ\eta=\log\lambdaT(x)=xT(x)=xA(η)=eηA(\eta)=e^\etah(x)=1/x!h(x)=1/x!
  • Gammaη=[α1,  β]T\eta=[\alpha-1,\;-\beta]^\mathsf{T}或自然参数化为形状-速率,T(x)=[logx,  x]TT(x)=[\log x,\;x]^\mathsf{T}A(η)=logΓ(α)αlogβA(\eta)=\log\Gamma(\alpha)-\alpha\log\beta
  • Betaη=[α,  β]T\eta=[\alpha,\;\beta]^\mathsf{T}T(x)=[logx,  log(1x)]TT(x)=[\log x,\;\log(1-x)]^\mathsf{T}A(η)=logB(α,β)A(\eta)=\log B(\alpha,\beta)
  • Dirichlet:多项Beta推广→KK类概率单纯形→充分统计量[logx1,,logxK][\log x_1,\ldots,\log x_K]
  • 负二项(失败次数固定):η=log(1p)\eta=\log(1-p)T(x)=xT(x)=x

核心理论性质

矩生成与累积量A(η)A(\eta)累积量生成函数(CGF)→一阶导A(η)=Eη[T(X)]\nabla A(\eta)=E_\eta[T(X)](均值映射),二阶导2A(η)=Covη(T(X))\nabla^2 A(\eta)=\operatorname{Cov}_\eta(T(X))→更高阶导给出高阶累积量→AA严格凸(除非T(X)T(X)几乎处处常数)→Fisher信息矩阵I(η)=2A(η)I(\eta)=\nabla^2 A(\eta)必然正定→对数似然(η)\ell(\eta)为严格凹函数→MLE唯一全局最优。

MLE极简性:i.i.d.样本{xi}i=1n\{x_i\}_{i=1}^n下→对数似然(η)=ηTiT(xi)nA(η)+ilogh(xi)\ell(\eta)=\eta^\mathsf{T}\sum_i T(x_i)-nA(\eta)+\sum_i\log h(x_i)→梯度方程=iT(xi)nA(η)=0\nabla\ell=\sum_i T(x_i)-n\nabla A(\eta)=0→MLE满足A(η^)=1niT(xi)\nabla A(\hat{\eta})=\frac{1}{n}\sum_i T(x_i)→即矩匹配:充分统计量的模型期望=样本均值。MLE仅依赖1niT(xi)\frac{1}{n}\sum_i T(x_i)→与分布具体形式无关→对所有指数族成员统一适用。若自然参数空间H\mathcal{H}为开集且1niT(xi)M\frac{1}{n}\sum_i T(x_i)\in\mathcal{M}^\circ(均值参数空间内部)→MLE存在唯一→Newton-RaphsonFisher Scoring快速收敛。

共轭先验系统论:指数族自然共轭先验形式为p(ητ,ν)exp(τTηνA(η))p(\eta\mid\tau,\nu)\propto\exp(\tau^\mathsf{T}\eta-\nu A(\eta))→超参数(τ,ν)(\tau,\nu)τ\tau为"伪充分统计量"、ν\nu为"伪样本量"。后验:p(ηx1:n)exp((τ+T(xi))Tη(ν+n)A(η))p(\eta\mid x_{1:n})\propto\exp((\tau+\sum T(x_i))^\mathsf{T}\eta-(\nu+n)A(\eta))→超参数直接相加→贝叶斯更新仅需O(d)O(d)的代数运算。经典配对:Beta-Bernoulliτ\tau=伪成功数)、Normal-Normal(均值推断)、Gamma-Poisson(强度推断)、Dirichlet-Multinomial(概率向量推断)、Normal-InverseGamma(联合均值-方差推断)。

最大熵原理:在所有满足矩约束E[T(X)]=μE[T(X)]=\mu的分布中→指数族是唯一最大化Shannon熵H(p)=p(x)logp(x)dxH(p)=-\int p(x)\log p(x)dx的分布→证明:拉格朗日乘子法η\eta为矩约束的对偶变量→A(η)A(\eta)为配分函数的对数→指数族是"给定矩信息下最少额外假设"的分布→信息论哲学基础:Jaynes最大熵原理

KL散度与投影:任意概率密度q()q(\cdot)到指数族pηp_\etaKL散度KL(qpη)=qlog(q/pη)=H(q)ηTEq[T(X)]+A(η)\mathrm{KL}(q\|p_\eta)=\int q\log(q/p_\eta)=-H(q)-\eta^\mathsf{T}E_q[T(X)]+A(\eta)→固定qqη\eta求极小→一阶条件A(η)=Eq[T(X)]\nabla A(\eta)=E_q[T(X)]→最优η\eta^*使模型矩匹配qq的矩→即矩投影(moment projection/M-projection)。另一方向KL(pηq)\mathrm{KL}(p_\eta\|q)信息投影(I-projection)。该几何结构是变分推断期望传播(EP)的核心。

充分性与完备性T(X)T(X)不仅充分(Neyman-Fisher因子分解→似然仅通过T(x)T(x)依赖数据)且在温和条件下完备Lehmann-Scheffé定理T(X)T(X)的无偏估计函数唯一→UMVUE可由T(X)T(X)构造→参数推断最优性保证。

广义线性模型 (GLM)

GLM将指数族推向回归分析核心→三要素:①响应YXY|X服从分散指数族(dispersion exponential family):p(yη,ϕ)=exp(yηb(η)a(ϕ)+c(y,ϕ))p(y|\eta,\phi)=\exp\left(\frac{y\eta-b(\eta)}{a(\phi)}+c(y,\phi)\right)→其中ϕ\phi散度参数(如正态σ2\sigma^2、泊松ϕ=1\phi=1、Gamma形状)→a(ϕ)a(\phi)通常取ϕ/w\phi/www已知权重);②系统成分η=βTX\eta=\beta^\mathsf{T}X线性预测;③链接函数g()g(\cdot)连接均值与线性预测:g(μ)=ηg(\mu)=\eta

正则链接(canonical link):取g=b1g=b'^{-1}→使η=βTX\eta=\beta^\mathsf{T}X直接为自然参数→充分统计量iXiYi\sum_i X_i Y_i→对数似然简洁→Fisher ScoringNewton-Raphson等价→理论优雅。经典GLM速查:

  • 线性回归:正态+恒等链接g(μ)=μg(\mu)=\muβ^=(XTX)1XTY\hat{\beta}=(X^\mathsf{T}X)^{-1}X^\mathsf{T}Y闭式。
  • Logistic回归:伯努利+logit链接g(μ)=logμ1μg(\mu)=\log\frac{\mu}{1-\mu}→二分类基准。
  • Poisson回归:泊松+log链接g(μ)=logμg(\mu)=\log\mu→计数数据→过度分散时扩展为负二项回归
  • Gamma回归:Gamma+倒数链接g(μ)=1/μg(\mu)=1/\mu→正连续响应(保险赔付、生存时间)。
  • 多项Logit:多项分布+广义logit→多分类基准。

估计与推断IRLS(迭代重加权最小二乘)统一求解→每步解加权最小二乘β^(t+1)=(XTW(t)X)1XTW(t)z(t)\hat{\beta}^{(t+1)}=(X^\mathsf{T}W^{(t)}X)^{-1}X^\mathsf{T}W^{(t)}z^{(t)}→权重W=diag((g(μi))2Var(Yi)1)W=\operatorname{diag}((g'(\mu_i))^{-2}\operatorname{Var}(Y_i)^{-1})→调整响应zi=ηi+(yiμi)g(μi)z_i=\eta_i+(y_i-\mu_i)g'(\mu_i)→收敛迅速。准似然(quasi-likelihood):仅需均值-方差关系Var(Y)=a(ϕ)V(μ)\operatorname{Var}(Y)=a(\phi)V(\mu)→无需完整分布→拟GLMGEE(广义估计方程)处理纵向数据相关结构。

信息几何视角

指数族定义统计流形(statistical manifold)→两点坐标系统:自然参数η\etae-仿射坐标(指数连接)、均值参数μ\mum-仿射坐标(混合连接)→Fisher信息矩阵I(η)I(\eta)为该流形的黎曼度量Amari α\alpha-连接统一二者:α=1\alpha=1为e-连接、α=1\alpha=-1为m-连接→两者关于Fisher度量互为对偶。应用EM算法的E步为m-投影到观测数据流形→M步为e-投影到模型流形→收敛性由Pythagorean定理(广义)保证。自然梯度~f=I(η)1f\tilde{\nabla}f=I(\eta)^{-1}\nabla f→参数空间黎曼梯度→在变分推断深度学习中加速收敛。

变分推断与贝叶斯计算

平均场变分推断(MFVI):假设后验近似q(θ)=jqj(θj)q(\theta)=\prod_j q_j(\theta_j)→各因子取指数族形式→坐标上升更新:logqj(θj)=Ej[logp(x,θ)]+const\log q_j^*(\theta_j)=E_{-j}[\log p(x,\theta)]+\text{const}→若模型条件共轭(完整条件属于同指数族)→更新为闭式超参数加减→CAVI(坐标上升VI)高效。随机变分推断(SVI):用随机梯度处理大规模数据→自然梯度+指数族→更新规则极简→变分自编码器(VAE)重参数化技巧即此框架。期望传播(EP):用指数族近似因子→I-投影逐因子匹配矩→幂EP插值于VI与EP之间。

局限与扩展

非指数族分布:均匀分布(支撑依赖参数)、Student-t(自由度参数非自然参数形式)、混合模型(隐变量使完整数据属指数族但观测数据不属)→EM算法桥接两者。截断分布/删失数据:支撑集与参数相关→指数族条件破坏。厚尾/多峰/异方差场景→非参数方法/半参数方法补充。

现代扩展指数族PCA(将PCA推广至非高斯数据→伯努利PCA、泊松PCA);指数族图模型Ising模型为伯努利+成对交互→高斯图模型为正态+精度矩阵稀疏→LASSO1\ell_1罚估计稀疏图结构);指数族矩阵分解(推荐系统中的泊松矩阵分解);神经指数族(用神经网络参数化η(x)\eta(x)→深度充分统计量→连接深度学习与经典推断)。