ARTICLE

狄利克雷分布

狄利克雷分布 (Dirichlet Distribution) 狄利克雷分布 (Dirichlet distribution) 是贝塔分布 (Beta distribution) 向多维情形的推广,定义在单纯形 (simplex) 上的一族连续多元概率分布。它是贝叶斯统计中极为重要的共轭先验分布,广泛应用于自然语言处理、机器学习等领域。 定义 设 = ( _

浏览 7 更新 2026-05-25

狄利克雷分布 (Dirichlet Distribution)

狄利克雷分布 (Dirichlet distribution) 是贝塔分布 (Beta distribution) 向多维情形的推广,定义在单纯形 (simplex) 上的一族连续多元概率分布。它是贝叶斯统计中极为重要的共轭先验分布,广泛应用于自然语言处理机器学习等领域。

定义

α=(α1,,αK)\boldsymbol{\alpha} = (\alpha_1, \ldots, \alpha_K)αi>0\alpha_i > 0。随机向量 X=(X1,,XK)\boldsymbol{X} = (X_1, \ldots, X_K) 服从 Dir(α)\operatorname{Dir}(\boldsymbol{\alpha}),若其概率密度函数为:

f(x;α)=1B(α)i=1Kxiαi1f(\boldsymbol{x}; \boldsymbol{\alpha}) = \frac{1}{B(\boldsymbol{\alpha})} \prod_{i=1}^{K} x_i^{\alpha_i - 1}

支撑集为 KK 维单纯形 ΔK={xRKxi0,  xi=1}\Delta_K = \{\boldsymbol{x} \in \mathbb{R}^K \mid x_i \geq 0,\; \sum x_i = 1\}。归一化常数 B(α)=Γ(αi)/Γ(αi)B(\boldsymbol{\alpha}) = \prod \Gamma(\alpha_i) / \Gamma(\sum \alpha_i) 为多元贝塔函数,K=2K = 2 时退化为贝塔分布。

基本性质

边缘分布:XiBeta(αi,α0αi)X_i \sim \operatorname{Beta}(\alpha_i, \alpha_0 - \alpha_i),其中 α0=αj\alpha_0 = \sum \alpha_j

均值与方差:

E[Xi]=αiα0,Var(Xi)=αi(α0αi)α02(α0+1)\mathbb{E}[X_i] = \frac{\alpha_i}{\alpha_0}, \quad \operatorname{Var}(X_i) = \frac{\alpha_i (\alpha_0 - \alpha_i)}{\alpha_0^2 (\alpha_0 + 1)}

协方差为负:Cov(Xi,Xj)=αiαj/[α02(α0+1)]\operatorname{Cov}(X_i, X_j) = -\alpha_i \alpha_j / [\alpha_0^2 (\alpha_0 + 1)]

对称情形:当所有 αi\alpha_i 相等时分布对称。α=1\alpha = 1 时为均匀分布;α<1\alpha < 1 时质量趋向顶点(稀疏解);α>1\alpha > 1 时质量趋向中心。

聚集性质:若 XDir(α)\boldsymbol{X} \sim \operatorname{Dir}(\boldsymbol{\alpha}),对任意划分 {S1,,Sm}\{S_1, \ldots, S_m\},有 (jS1Xj,)Dir(jS1αj,)(\sum_{j \in S_1} X_j, \ldots) \sim \operatorname{Dir}(\sum_{j \in S_1} \alpha_j, \ldots)

共轭性与贝叶斯推断

狄利克雷分布是多项分布参数的共轭先验。设先验 πDir(α)\boldsymbol{\pi} \sim \operatorname{Dir}(\boldsymbol{\alpha}),数据 yMult(n,π)\boldsymbol{y} \sim \operatorname{Mult}(n, \boldsymbol{\pi}),则后验为:

πyDir(α1+y1,,αK+yK)\boldsymbol{\pi} \mid \boldsymbol{y} \sim \operatorname{Dir}(\alpha_1 + y_1, \ldots, \alpha_K + y_K)

后验预测概率 P(ynew=iy)=(αi+yi)/(α0+n)P(y_{\text{new}} = i \mid \boldsymbol{y}) = (\alpha_i + y_i) / (\alpha_0 + n)

抽样方法

最常用的方法:独立抽取 YiGamma(αi,1)Y_i \sim \operatorname{Gamma}(\alpha_i, 1),归一化得:

(X1,,XK)=(Y1Yj,,YKYj)Dir(α)(X_1, \ldots, X_K) = \left(\frac{Y_1}{\sum Y_j}, \ldots, \frac{Y_K}{\sum Y_j}\right) \sim \operatorname{Dir}(\boldsymbol{\alpha})

与狄利克雷过程的关系

狄利克雷过程 (Dirichlet process) 是狄利克雷分布的非参数推广。其有限维边缘分布为狄利克雷分布:(G(A1),)Dir(αG0(A1),)(G(A_1), \ldots) \sim \operatorname{Dir}(\alpha G_0(A_1), \ldots)

应用

潜狄利克雷分配 (LDA):文本主题模型的经典方法,使用狄利克雷先验建模文档-主题和主题-词语分布。

遗传学:用于建模等位基因频率,如 STRUCTURE 软件中的群体结构推断。

不确定性量化:在风险建模和机器学习分类任务中,用狄利克雷分布表达对概率估计的信心程度。

参数估计:给定观测数据,可通过最大似然估计或矩估计求解参数,通常需借助数值优化方法。