ARTICLE

狄利克雷分布

狄利克雷分布 (Dirichlet Distribution) 狄利克雷分布 (Dirichlet distribution) 是贝塔分布 (Beta distribution) 向多维情形的推广，定义在单纯形 (simplex) 上的一族连续多元概率分布。它是贝叶斯统计中极为重要的共轭先验分布，广泛应用于自然语言处理、机器学习等领域。定义设 = ( _

浏览 7 更新 2026-05-25

狄利克雷分布 (Dirichlet Distribution)

狄利克雷分布 (Dirichlet distribution) 是贝塔分布 (Beta distribution) 向多维情形的推广，定义在单纯形 (simplex) 上的一族连续多元概率分布。它是贝叶斯统计中极为重要的共轭先验分布，广泛应用于自然语言处理、机器学习等领域。

定义

设 $\boldsymbol{\alpha} = (\alpha_1, \ldots, \alpha_K)$ ， $\alpha_i > 0$ 。随机向量 $\boldsymbol{X} = (X_1, \ldots, X_K)$ 服从 $\operatorname{Dir}(\boldsymbol{\alpha})$ ，若其概率密度函数为：

f(\boldsymbol{x}; \boldsymbol{\alpha}) = \frac{1}{B(\boldsymbol{\alpha})} \prod_{i=1}^{K} x_i^{\alpha_i - 1}

支撑集为 $K$ 维单纯形 $\Delta_K = \{\boldsymbol{x} \in \mathbb{R}^K \mid x_i \geq 0,\; \sum x_i = 1\}$ 。归一化常数 $B(\boldsymbol{\alpha}) = \prod \Gamma(\alpha_i) / \Gamma(\sum \alpha_i)$ 为多元贝塔函数， $K = 2$ 时退化为贝塔分布。

基本性质

边缘分布： $X_i \sim \operatorname{Beta}(\alpha_i, \alpha_0 - \alpha_i)$ ，其中 $\alpha_0 = \sum \alpha_j$ 。

均值与方差：

\mathbb{E}[X_i] = \frac{\alpha_i}{\alpha_0}, \quad \operatorname{Var}(X_i) = \frac{\alpha_i (\alpha_0 - \alpha_i)}{\alpha_0^2 (\alpha_0 + 1)}

协方差为负： $\operatorname{Cov}(X_i, X_j) = -\alpha_i \alpha_j / [\alpha_0^2 (\alpha_0 + 1)]$ 。

对称情形：当所有 $\alpha_i$ 相等时分布对称。 $\alpha = 1$ 时为均匀分布； $\alpha < 1$ 时质量趋向顶点（稀疏解）； $\alpha > 1$ 时质量趋向中心。

聚集性质：若 $\boldsymbol{X} \sim \operatorname{Dir}(\boldsymbol{\alpha})$ ，对任意划分 $\{S_1, \ldots, S_m\}$ ，有 $(\sum_{j \in S_1} X_j, \ldots) \sim \operatorname{Dir}(\sum_{j \in S_1} \alpha_j, \ldots)$ 。

共轭性与贝叶斯推断

狄利克雷分布是多项分布参数的共轭先验。设先验 $\boldsymbol{\pi} \sim \operatorname{Dir}(\boldsymbol{\alpha})$ ，数据 $\boldsymbol{y} \sim \operatorname{Mult}(n, \boldsymbol{\pi})$ ，则后验为：

\boldsymbol{\pi} \mid \boldsymbol{y} \sim \operatorname{Dir}(\alpha_1 + y_1, \ldots, \alpha_K + y_K)

后验预测概率 $P(y_{\text{new}} = i \mid \boldsymbol{y}) = (\alpha_i + y_i) / (\alpha_0 + n)$ 。

抽样方法

最常用的方法：独立抽取 $Y_i \sim \operatorname{Gamma}(\alpha_i, 1)$ ，归一化得：

(X_1, \ldots, X_K) = \left(\frac{Y_1}{\sum Y_j}, \ldots, \frac{Y_K}{\sum Y_j}\right) \sim \operatorname{Dir}(\boldsymbol{\alpha})

与狄利克雷过程的关系

狄利克雷过程 (Dirichlet process) 是狄利克雷分布的非参数推广。其有限维边缘分布为狄利克雷分布： $(G(A_1), \ldots) \sim \operatorname{Dir}(\alpha G_0(A_1), \ldots)$ 。

应用

潜狄利克雷分配 (LDA)：文本主题模型的经典方法，使用狄利克雷先验建模文档-主题和主题-词语分布。

遗传学：用于建模等位基因频率，如 STRUCTURE 软件中的群体结构推断。

不确定性量化：在风险建模和机器学习分类任务中，用狄利克雷分布表达对概率估计的信心程度。

参数估计：给定观测数据，可通过最大似然估计或矩估计求解参数，通常需借助数值优化方法。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。