狄利克雷分布 (Dirichlet Distribution)
狄利克雷分布 (Dirichlet distribution) 是贝塔分布 (Beta distribution) 向多维情形的推广,定义在单纯形 (simplex) 上的一族连续多元概率分布。它是贝叶斯统计中极为重要的共轭先验分布,广泛应用于自然语言处理、机器学习等领域。
定义
设 α=(α1,…,αK),αi>0。随机向量 X=(X1,…,XK) 服从 Dir(α),若其概率密度函数为:
f(x;α)=B(α)1i=1∏Kxiαi−1
支撑集为 K 维单纯形 ΔK={x∈RK∣xi≥0,∑xi=1}。归一化常数 B(α)=∏Γ(αi)/Γ(∑αi) 为多元贝塔函数,K=2 时退化为贝塔分布。
基本性质
边缘分布:Xi∼Beta(αi,α0−αi),其中 α0=∑αj。
均值与方差:
E[Xi]=α0αi,Var(Xi)=α02(α0+1)αi(α0−αi)
协方差为负:Cov(Xi,Xj)=−αiαj/[α02(α0+1)]。
对称情形:当所有 αi 相等时分布对称。α=1 时为均匀分布;α<1 时质量趋向顶点(稀疏解);α>1 时质量趋向中心。
聚集性质:若 X∼Dir(α),对任意划分 {S1,…,Sm},有 (∑j∈S1Xj,…)∼Dir(∑j∈S1αj,…)。
共轭性与贝叶斯推断
狄利克雷分布是多项分布参数的共轭先验。设先验 π∼Dir(α),数据 y∼Mult(n,π),则后验为:
π∣y∼Dir(α1+y1,…,αK+yK)
后验预测概率 P(ynew=i∣y)=(αi+yi)/(α0+n)。
抽样方法
最常用的方法:独立抽取 Yi∼Gamma(αi,1),归一化得:
(X1,…,XK)=(∑YjY1,…,∑YjYK)∼Dir(α)
与狄利克雷过程的关系
狄利克雷过程 (Dirichlet process) 是狄利克雷分布的非参数推广。其有限维边缘分布为狄利克雷分布:(G(A1),…)∼Dir(αG0(A1),…)。
应用
潜狄利克雷分配 (LDA):文本主题模型的经典方法,使用狄利克雷先验建模文档-主题和主题-词语分布。
遗传学:用于建模等位基因频率,如 STRUCTURE 软件中的群体结构推断。
不确定性量化:在风险建模和机器学习分类任务中,用狄利克雷分布表达对概率估计的信心程度。
参数估计:给定观测数据,可通过最大似然估计或矩估计求解参数,通常需借助数值优化方法。