ARTICLE

Beta Distribution

Beta 分布 (Beta Distribution) Beta 分布是一族定义在区间公式上的连续概率分布，由两个正形状参数公式和公式完全刻画。它在贝叶斯统计中占有核心地位，是二项分布、伯努利分布和几何分布的共轭先验，广泛应用于概率建模、A/B 测试、机器学习和可靠性工程等领域。定义与概率密度函数若随机变量公式服从参数为公式和公式

浏览 0 更新 2026-05-25

Beta 分布 (Beta Distribution)

Beta 分布是一族定义在区间 $[0,1]$ 上的连续概率分布，由两个正形状参数 $\alpha > 0$ 和 $\beta > 0$ 完全刻画。它在贝叶斯统计中占有核心地位，是二项分布、伯努利分布和几何分布的共轭先验，广泛应用于概率建模、A/B 测试、机器学习和可靠性工程等领域。

定义与概率密度函数

若随机变量 $X$ 服从参数为 $\alpha$ 和 $\beta$ 的 Beta 分布，记作 $X \sim \text{Beta}(\alpha, \beta)$ ，其概率密度函数 (PDF) 为：

f(x; \alpha, \beta) = \frac{x^{\alpha-1}(1-x)^{\beta-1}}{B(\alpha, \beta)}, \quad x \in [0,1]

其中 $B(\alpha, \beta)$ 是 Beta 函数，定义为：

B(\alpha, \beta) = \int_0^1 t^{\alpha-1}(1-t)^{\beta-1}\,dt = \frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)}

$\Gamma(\cdot)$ 是伽马函数。Beta 函数充当归一化常数，确保 PDF 在 $[0,1]$ 上积分为 1。

形状参数的直观含义

两个参数 $\alpha$ 和 $\beta$ 分别控制分布向 1 和向 0 的"拉力"，可以直观地理解为"伪观测计数"：

$\alpha - 1$ 可视为先验的"成功"次数。
$\beta - 1$ 可视为先验的"失败"次数。

当 $\alpha = \beta = 1$ 时，Beta 分布退化为 $[0,1]$ 上的均匀分布 $\text{Uniform}(0,1)$ ，表达完全无知。 $\alpha > \beta$ 时密度向右偏斜（概率靠近 1）； $\beta > \alpha$ 时密度向左偏斜（概率靠近 0）。 $\alpha$ 和 $\beta$ 同时增大时，分布集中在其均值附近，反映更大的确定性。

重要特例

$\text{Beta}(1, 1)$ ：均匀分布。每个 $x$ 等可能，对应无信息先验。
$\text{Beta}(\frac{1}{2}, \frac{1}{2})$ ：反正弦分布，即 Jeffreys 先验。密度在 0 和 1 两端极高，是二项比例问题中的无信息先验。密度函数 $f(x) = \frac{1}{\pi\sqrt{x(1-x)}}$ 。
$\text{Beta}(1, \beta)$ 或 $\text{Beta}(\alpha, 1)$ ：幂函数分布，密度单调递增或递减。
$\text{Beta}(\alpha, \alpha)$ 当 $\alpha \to \infty$ 时近似于正态分布，集中于 $x = 0.5$ 。

矩与统计性质

均值： $\mathbb{E}[X] = \frac{\alpha}{\alpha + \beta}$ 。直观上，当观测到 $\alpha-1$ 次成功和 $\beta-1$ 次失败后，成功概率的期望估计。
方差： $\text{Var}(X) = \frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)}$ 。 $\alpha+\beta$ 越大，方差越小。
众数：当 $\alpha > 1, \beta > 1$ 时，众数为 $\frac{\alpha-1}{\alpha+\beta-2}$ ；当 $\alpha < 1, \beta < 1$ 时，分布在两端呈 U 形反众数；边界情况下众数在 0 或 1。
偏度： $\frac{2(\beta-\alpha)\sqrt{\alpha+\beta+1}}{(\alpha+\beta+2)\sqrt{\alpha\beta}}$ ，符号由 $\beta - \alpha$ 决定。

此外，Beta 分布具有自相似性：若 $X \sim \text{Beta}(\alpha, \beta)$ ，则 $1 - X \sim \text{Beta}(\beta, \alpha)$ ，这是对称性的体现。

共轭性与贝叶斯推断

Beta 分布在贝叶斯统计中的核心地位源于其共轭性。给定二项似然函数：

\text{Likelihood: } p(k \mid \theta) \propto \theta^k (1-\theta)^{n-k}

若先验为 $\theta \sim \text{Beta}(\alpha, \beta)$ ，则后验为：

p(\theta \mid k) \propto \theta^{\alpha + k - 1} (1-\theta)^{\beta + n - k - 1}

即 $\theta \mid k \sim \text{Beta}(\alpha + k, \beta + n - k)$ 。这种解析可处理的更新规则——简单地将观测计数加到先验参数上——使得 Beta-Binomial 共轭对成为贝叶斯推断中最优雅和实用的工具之一。

这一特性在A/B 测试中尤为突出：若 A 组和 B 组各有一个 Beta 分布描述其转化率的不确定性，可以通过蒙特卡洛抽样或解析近似直接计算 "B 优于 A" 的后验概率，而无需依赖频率主义的 $p$ 值。

与 Gamma 和 Dirichlet 分布的关系

Beta 分布与Gamma 分布存在紧密的结构联系。若 $Y_1 \sim \text{Gamma}(\alpha, \theta)$ 和 $Y_2 \sim \text{Gamma}(\beta, \theta)$ 是独立的 Gamma 随机变量（共享尺度参数 $\theta$ ），则比值：

X = \frac{Y_1}{Y_1 + Y_2} \sim \text{Beta}(\alpha, \beta)

这一关系提供了 Beta 分布生成的重要算法，也将其与泊松过程关联：在一个两类型 Poisson 过程中，给定总到达数，各类型的比例服从 Beta 分布。

Beta 分布在多维情况下的自然推广是Dirichlet 分布，它将概率向量约束在 $K$ 维单纯形 $\{\boldsymbol{\theta} : \theta_i \ge 0, \sum_i \theta_i = 1\}$ 上。Dirichlet 是多项分布的共轭先验，在主题模型（如 LDA）和混合模型中广泛应用。

应用场景

转化率建模：电商点击率、广告转化率、邮件打开率等 $[0,1]$ 比例数据。Beta-Binomial 框架提供完整的不确定性量化。
贝叶斯 A/B 测试：为每个变体维护一个 Beta 后验分布，通过后验概率直接比较变体，避免了传统频率主义方法中多重比较和 $p$ -值误用的困扰。
可靠性分析：产品的可靠性（存活率）介于 $[0,1]$ ，Beta 分布可作为先验，结合失效时间数据更新信念。
订单簿建模：在市场微观结构中，限价订单的成交概率可用 Beta 分布刻画，因为它是概率的自然表达。
遗传学：Hardy-Weinberg 平衡中基因频率的估计，Beta 先验配合等位基因计数形成后验推断。
经验贝叶斯：在大规模并行推断中（如棒球击球率、基因差异表达），用数据估计先验超参数 $\alpha, \beta$ ，然后对每个单元做贝叶斯收缩，即 Beta-Binomial 经验贝叶斯方法。

与其它分布的转换

Beta 分布与若干常见分布互通。除了前述 Gamma 比值构造外，若 $X \sim \text{Beta}(\alpha, \beta)$ ，则 $\frac{\beta X}{\alpha(1-X)} \sim F(2\alpha, 2\beta)$ ，即 $F$ 分布的变换。此外，Kumaraswamy 分布是 Beta 分布的一种计算上更易处理的近似，特别适合无需正规化常数的模拟场景。

总结：Beta 分布是 $[0,1]$ 区间上最灵活的连续分布族，以共轭性为贝叶斯推断提供了解析上的巨大便利。从无信息均匀分布到高度集中的钟形密度，仅两个参数即可覆盖极宽的信念形态，使其在理论和实践中都不可或缺。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。