ARTICLE

Beta Distribution

Beta 分布 (Beta Distribution) Beta 分布是一族定义在区间 [0,1] 上的连续概率分布,由两个正形状参数 > 0 和 > 0 完全刻画。它在贝叶斯统计中占有核心地位,是二项分布、伯努利分布和几何分布的共轭先验,广泛应用于概率建模、A/B 测试、机器学习和可靠性工程等领域。 定义与概率密度函数 若随机变量 X 服从参数为 和 的

浏览 0 更新 2026-05-25

Beta 分布 (Beta Distribution)

Beta 分布是一族定义在区间 [0,1] [0,1] 上的连续概率分布,由两个正形状参数 α>0 \alpha > 0 β>0 \beta > 0 完全刻画。它在贝叶斯统计中占有核心地位,是二项分布、伯努利分布和几何分布的共轭先验,广泛应用于概率建模、A/B 测试、机器学习和可靠性工程等领域。

定义与概率密度函数

若随机变量 X X 服从参数为 α \alpha β \beta 的 Beta 分布,记作 XBeta(α,β) X \sim \text{Beta}(\alpha, \beta) ,其概率密度函数 (PDF) 为:

f(x;α,β)=xα1(1x)β1B(α,β),x[0,1]f(x; \alpha, \beta) = \frac{x^{\alpha-1}(1-x)^{\beta-1}}{B(\alpha, \beta)}, \quad x \in [0,1]

其中 B(α,β) B(\alpha, \beta) 是 Beta 函数,定义为:

B(α,β)=01tα1(1t)β1dt=Γ(α)Γ(β)Γ(α+β)B(\alpha, \beta) = \int_0^1 t^{\alpha-1}(1-t)^{\beta-1}\,dt = \frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)}

Γ() \Gamma(\cdot) 伽马函数。Beta 函数充当归一化常数,确保 PDF 在 [0,1] [0,1] 上积分为 1。

形状参数的直观含义

两个参数 α \alpha β \beta 分别控制分布向 1 和向 0 的"拉力",可以直观地理解为"伪观测计数":

  • α1 \alpha - 1 可视为先验的"成功"次数。
  • β1 \beta - 1 可视为先验的"失败"次数。

α=β=1 \alpha = \beta = 1 时,Beta 分布退化为 [0,1] [0,1] 上的均匀分布 Uniform(0,1) \text{Uniform}(0,1) ,表达完全无知。α>β \alpha > \beta 时密度向右偏斜(概率靠近 1);β>α \beta > \alpha 时密度向左偏斜(概率靠近 0)。α \alpha β \beta 同时增大时,分布集中在其均值附近,反映更大的确定性。

重要特例

  • Beta(1,1) \text{Beta}(1, 1) 均匀分布。每个 x x 等可能,对应无信息先验。
  • Beta(12,12) \text{Beta}(\frac{1}{2}, \frac{1}{2}) 反正弦分布,即 Jeffreys 先验。密度在 0 和 1 两端极高,是二项比例问题中的无信息先验。密度函数 f(x)=1πx(1x) f(x) = \frac{1}{\pi\sqrt{x(1-x)}}
  • Beta(1,β) \text{Beta}(1, \beta) Beta(α,1) \text{Beta}(\alpha, 1) 幂函数分布,密度单调递增或递减。
  • Beta(α,α) \text{Beta}(\alpha, \alpha) α \alpha \to \infty 时近似于正态分布,集中于 x=0.5 x = 0.5

矩与统计性质

  • 均值E[X]=αα+β \mathbb{E}[X] = \frac{\alpha}{\alpha + \beta} 。直观上,当观测到 α1 \alpha-1 次成功和 β1 \beta-1 次失败后,成功概率的期望估计。
  • 方差Var(X)=αβ(α+β)2(α+β+1) \text{Var}(X) = \frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)} α+β \alpha+\beta 越大,方差越小。
  • 众数:当 α>1,β>1 \alpha > 1, \beta > 1 时,众数为 α1α+β2 \frac{\alpha-1}{\alpha+\beta-2} ;当 α<1,β<1 \alpha < 1, \beta < 1 时,分布在两端呈 U 形反众数;边界情况下众数在 0 或 1。
  • 偏度2(βα)α+β+1(α+β+2)αβ \frac{2(\beta-\alpha)\sqrt{\alpha+\beta+1}}{(\alpha+\beta+2)\sqrt{\alpha\beta}} ,符号由 βα \beta - \alpha 决定。

此外,Beta 分布具有自相似性:若 XBeta(α,β) X \sim \text{Beta}(\alpha, \beta) ,则 1XBeta(β,α) 1 - X \sim \text{Beta}(\beta, \alpha) ,这是对称性的体现。

共轭性与贝叶斯推断

Beta 分布在贝叶斯统计中的核心地位源于其共轭性。给定二项似然函数:

Likelihood: p(kθ)θk(1θ)nk\text{Likelihood: } p(k \mid \theta) \propto \theta^k (1-\theta)^{n-k}

若先验为 θBeta(α,β) \theta \sim \text{Beta}(\alpha, \beta) ,则后验为:

p(θk)θα+k1(1θ)β+nk1p(\theta \mid k) \propto \theta^{\alpha + k - 1} (1-\theta)^{\beta + n - k - 1}

θkBeta(α+k,β+nk) \theta \mid k \sim \text{Beta}(\alpha + k, \beta + n - k) 。这种解析可处理的更新规则——简单地将观测计数加到先验参数上——使得 Beta-Binomial 共轭对成为贝叶斯推断中最优雅和实用的工具之一。

这一特性在A/B 测试中尤为突出:若 A 组和 B 组各有一个 Beta 分布描述其转化率的不确定性,可以通过蒙特卡洛抽样或解析近似直接计算 "B 优于 A" 的后验概率,而无需依赖频率主义的 p p 值。

与 Gamma 和 Dirichlet 分布的关系

Beta 分布与Gamma 分布存在紧密的结构联系。若 Y1Gamma(α,θ) Y_1 \sim \text{Gamma}(\alpha, \theta) Y2Gamma(β,θ) Y_2 \sim \text{Gamma}(\beta, \theta) 是独立的 Gamma 随机变量(共享尺度参数 θ \theta ),则比值:

X=Y1Y1+Y2Beta(α,β)X = \frac{Y_1}{Y_1 + Y_2} \sim \text{Beta}(\alpha, \beta)

这一关系提供了 Beta 分布生成的重要算法,也将其与泊松过程关联:在一个两类型 Poisson 过程中,给定总到达数,各类型的比例服从 Beta 分布。

Beta 分布在多维情况下的自然推广是Dirichlet 分布,它将概率向量约束在 K K 维单纯形 {θ:θi0,iθi=1} \{\boldsymbol{\theta} : \theta_i \ge 0, \sum_i \theta_i = 1\} 上。Dirichlet 是多项分布的共轭先验,在主题模型(如 LDA)和混合模型中广泛应用。

应用场景

  1. 转化率建模:电商点击率、广告转化率、邮件打开率等 [0,1] [0,1] 比例数据。Beta-Binomial 框架提供完整的不确定性量化。
  2. 贝叶斯 A/B 测试:为每个变体维护一个 Beta 后验分布,通过后验概率直接比较变体,避免了传统频率主义方法中多重比较和 p p -值误用的困扰。
  3. 可靠性分析:产品的可靠性(存活率)介于 [0,1] [0,1] ,Beta 分布可作为先验,结合失效时间数据更新信念。
  4. 订单簿建模:在市场微观结构中,限价订单的成交概率可用 Beta 分布刻画,因为它是概率的自然表达。
  5. 遗传学Hardy-Weinberg 平衡中基因频率的估计,Beta 先验配合等位基因计数形成后验推断。
  6. 经验贝叶斯:在大规模并行推断中(如棒球击球率、基因差异表达),用数据估计先验超参数 α,β \alpha, \beta ,然后对每个单元做贝叶斯收缩,即 Beta-Binomial 经验贝叶斯方法。

与其它分布的转换

Beta 分布与若干常见分布互通。除了前述 Gamma 比值构造外,若 XBeta(α,β) X \sim \text{Beta}(\alpha, \beta) ,则 βXα(1X)F(2α,2β) \frac{\beta X}{\alpha(1-X)} \sim F(2\alpha, 2\beta) ,即 F F 分布的变换。此外,Kumaraswamy 分布是 Beta 分布的一种计算上更易处理的近似,特别适合无需正规化常数的模拟场景。

总结:Beta 分布是 [0,1] [0,1] 区间上最灵活的连续分布族,以共轭性为贝叶斯推断提供了解析上的巨大便利。从无信息均匀分布到高度集中的钟形密度,仅两个参数即可覆盖极宽的信念形态,使其在理论和实践中都不可或缺。