Beta 分布 (Beta Distribution)
Beta 分布是一族定义在区间 [0,1] 上的连续概率分布,由两个正形状参数 α>0 和 β>0 完全刻画。它在贝叶斯统计中占有核心地位,是二项分布、伯努利分布和几何分布的共轭先验,广泛应用于概率建模、A/B 测试、机器学习和可靠性工程等领域。
定义与概率密度函数
若随机变量 X 服从参数为 α 和 β 的 Beta 分布,记作 X∼Beta(α,β),其概率密度函数 (PDF) 为:
f(x;α,β)=B(α,β)xα−1(1−x)β−1,x∈[0,1]
其中 B(α,β) 是 Beta 函数,定义为:
B(α,β)=∫01tα−1(1−t)β−1dt=Γ(α+β)Γ(α)Γ(β)
Γ(⋅) 是伽马函数。Beta 函数充当归一化常数,确保 PDF 在 [0,1] 上积分为 1。
形状参数的直观含义
两个参数 α 和 β 分别控制分布向 1 和向 0 的"拉力",可以直观地理解为"伪观测计数":
- α−1 可视为先验的"成功"次数。
- β−1 可视为先验的"失败"次数。
当 α=β=1 时,Beta 分布退化为 [0,1] 上的均匀分布 Uniform(0,1),表达完全无知。α>β 时密度向右偏斜(概率靠近 1);β>α 时密度向左偏斜(概率靠近 0)。α 和 β 同时增大时,分布集中在其均值附近,反映更大的确定性。
重要特例
- Beta(1,1):均匀分布。每个 x 等可能,对应无信息先验。
- Beta(21,21):反正弦分布,即 Jeffreys 先验。密度在 0 和 1 两端极高,是二项比例问题中的无信息先验。密度函数 f(x)=πx(1−x)1。
- Beta(1,β) 或 Beta(α,1):幂函数分布,密度单调递增或递减。
- Beta(α,α) 当 α→∞ 时近似于正态分布,集中于 x=0.5。
矩与统计性质
- 均值:E[X]=α+βα。直观上,当观测到 α−1 次成功和 β−1 次失败后,成功概率的期望估计。
- 方差:Var(X)=(α+β)2(α+β+1)αβ。α+β 越大,方差越小。
- 众数:当 α>1,β>1 时,众数为 α+β−2α−1;当 α<1,β<1 时,分布在两端呈 U 形反众数;边界情况下众数在 0 或 1。
- 偏度:(α+β+2)αβ2(β−α)α+β+1,符号由 β−α 决定。
此外,Beta 分布具有自相似性:若 X∼Beta(α,β),则 1−X∼Beta(β,α),这是对称性的体现。
共轭性与贝叶斯推断
Beta 分布在贝叶斯统计中的核心地位源于其共轭性。给定二项似然函数:
Likelihood: p(k∣θ)∝θk(1−θ)n−k
若先验为 θ∼Beta(α,β),则后验为:
p(θ∣k)∝θα+k−1(1−θ)β+n−k−1
即 θ∣k∼Beta(α+k,β+n−k)。这种解析可处理的更新规则——简单地将观测计数加到先验参数上——使得 Beta-Binomial 共轭对成为贝叶斯推断中最优雅和实用的工具之一。
这一特性在A/B 测试中尤为突出:若 A 组和 B 组各有一个 Beta 分布描述其转化率的不确定性,可以通过蒙特卡洛抽样或解析近似直接计算 "B 优于 A" 的后验概率,而无需依赖频率主义的 p 值。
与 Gamma 和 Dirichlet 分布的关系
Beta 分布与Gamma 分布存在紧密的结构联系。若 Y1∼Gamma(α,θ) 和 Y2∼Gamma(β,θ) 是独立的 Gamma 随机变量(共享尺度参数 θ),则比值:
X=Y1+Y2Y1∼Beta(α,β)
这一关系提供了 Beta 分布生成的重要算法,也将其与泊松过程关联:在一个两类型 Poisson 过程中,给定总到达数,各类型的比例服从 Beta 分布。
Beta 分布在多维情况下的自然推广是Dirichlet 分布,它将概率向量约束在 K 维单纯形 {θ:θi≥0,∑iθi=1} 上。Dirichlet 是多项分布的共轭先验,在主题模型(如 LDA)和混合模型中广泛应用。
应用场景
- 转化率建模:电商点击率、广告转化率、邮件打开率等 [0,1] 比例数据。Beta-Binomial 框架提供完整的不确定性量化。
- 贝叶斯 A/B 测试:为每个变体维护一个 Beta 后验分布,通过后验概率直接比较变体,避免了传统频率主义方法中多重比较和 p-值误用的困扰。
- 可靠性分析:产品的可靠性(存活率)介于 [0,1],Beta 分布可作为先验,结合失效时间数据更新信念。
- 订单簿建模:在市场微观结构中,限价订单的成交概率可用 Beta 分布刻画,因为它是概率的自然表达。
- 遗传学:Hardy-Weinberg 平衡中基因频率的估计,Beta 先验配合等位基因计数形成后验推断。
- 经验贝叶斯:在大规模并行推断中(如棒球击球率、基因差异表达),用数据估计先验超参数 α,β,然后对每个单元做贝叶斯收缩,即 Beta-Binomial 经验贝叶斯方法。
与其它分布的转换
Beta 分布与若干常见分布互通。除了前述 Gamma 比值构造外,若 X∼Beta(α,β),则 α(1−X)βX∼F(2α,2β),即 F 分布的变换。此外,Kumaraswamy 分布是 Beta 分布的一种计算上更易处理的近似,特别适合无需正规化常数的模拟场景。
总结:Beta 分布是 [0,1] 区间上最灵活的连续分布族,以共轭性为贝叶斯推断提供了解析上的巨大便利。从无信息均匀分布到高度集中的钟形密度,仅两个参数即可覆盖极宽的信念形态,使其在理论和实践中都不可或缺。