贝塔(Beta)分布的推导
贝塔分布(Beta Distribution)是概率论与统计学中一个极为重要的连续概率分布族。它定义在区间 [0,1] 上,由两个正值参数 α 和 β(称为形状参数)所决定。由于其取值范围的特性,贝塔分布常被用来为各种比例或百分比数据建模。
在贝叶斯统计中,贝塔分布扮演着核心角色,它是伯努利分布、二项分布、负二项分布以及几何分布的共轭先验。本讲义通过几种不同的方法推导贝塔分布的概率密度函数(PDF),其标准形式为:
f(x;α,β)=B(α,β)xα−1(1−x)β−1
其中 0≤x≤1,α>0,β>0。B(α,β) 是贝塔函数,作为归一化常数,B(α,β)=∫01tα−1(1−t)β−1dt=Γ(α+β)Γ(α)Γ(β),而 Γ(⋅) 是伽玛函数。
从均匀分布的顺序统计量推导
假设我们有 n 个相互独立的随机变量 U1,U2,…,Un,均服从 [0,1] 上的均匀分布。将这些随机变量排序得到顺序统计量 U(1)≤U(2)≤…≤U(n)。我们将证明第 k 个顺序统计量 U(k) 服从贝塔分布。
方法一:通过累积分布函数 (CDF) 严格推导
- 理解事件:事件“U(k)≤x”意味着在 n 个样本中,至少有 k 个的值不大于 x。
- 构建二项实验:定义“成功”为 Ui≤x,概率为 p=x。有 n 次独立伯努利试验,成功次数 Y∼Bin(n,x)。因此: \[ F_{U_{(k)}}(x) = P(Y \ge k) = \sum_{j=k}^{n} \binom{n}{j} x^j (1-x)^{n-j} \]
- 求导得到PDF:对求和式逐项求导产生伸缩求和 (Telescoping Sum),大量项抵消后只剩下 j=k 的正数部分。最终得到: \[ f_{U_{(k)}}(x) = \frac{n!}{(k-1)!(n-k)!} x^{k-1}(1-x)^{n-k} \]
- 与贝塔分布对比:令 α=k,β=n−k+1。归一化常数 (k−1)!(n−k)!n!=B(k,n−k+1)1。因此 U(k)∼Beta(k,n−k+1)。
结论:来自 U(0,1) 的大小为 n 的样本的第 k 个顺序统计量,服从形状参数为 α=k 和 β=n−k+1 的贝塔分布。
方法二:通过无穷小分析直观推导
考虑事件“U(k) 恰好落在 (x,x+dx) 内”。根据PDF定义,需满足:
- 有 1 个样本点落入 (x,x+dx)(概率 dx,(1n)=n 种选择)
- 有 k−1 个样本点落入 [0,x)(概率 xk−1,(k−1n−1) 种选择)
- 剩下 n−k 个样本点落入 (x+dx,1](概率 (1−x)n−k)
组合得到:
fU(k)(x)=(k−1)!(n−k)!n!xk−1(1−x)n−k
再次证明 U(k)∼Beta(k,n−k+1)。
从伽玛 (Gamma) 分布推导
定理:设 X∼Gamma(α,θ) 和 Y∼Gamma(β,θ) 独立。则 Z=X+YX∼Beta(α,β)。
- 联合PDF: \[ f_{X,Y}(x,y) = \frac{1}{\Gamma(\alpha)\Gamma(\beta)\theta^{\alpha+\beta}} x^{\alpha-1} y^{\beta-1} e^{-(x+y)/\theta} \]
- 变量变换:定义 Z=X+YX,W=X+Y。反函数:X=ZW,Y=W(1−Z)。取值范围:w>0,0<z<1。
- 雅可比行列式:∣J∣=w。
- 联合PDF变换: \[ f_{Z,W}(z,w) = \frac{z^{\alpha-1}(1-z)^{\beta-1}}{\Gamma(\alpha)\Gamma(\beta)\theta^{\alpha+\beta}} \cdot w^{\alpha+\beta-1} e^{-w/\theta} \]
- 求 Z 的边际PDF:对 w 积分: \[ f_Z(z) = \frac{z^{\alpha-1}(1-z)^{\beta-1}}{\Gamma(\alpha)\Gamma(\beta)\theta^{\alpha+\beta}} \int_{0}^{\infty} w^{\alpha+\beta-1} e^{-w/\theta} dw \] 积分等于 Γ(α+β)θα+β,代入得: \[ f_Z(z) = \frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)} z^{\alpha-1}(1-z)^{\beta-1} = \frac{1}{B(\alpha, \beta)} z^{\alpha-1}(1-z)^{\beta-1} \]
这正是 Beta(α,β) 分布的PDF。尺度参数 θ 在最终结果中被消去了。
总结与意义
本讲义展示了贝塔分布的两种核心推导方式:
- 从顺序统计量推导:将贝塔分布解释为均匀分布样本中某个位次的值的分布。当参数为整数时,α=k 代表“成功”的排序位置,β=n−k+1 与“失败”的排序位置相关。
- 从伽玛分布推导:将贝塔分布视为两个独立伽玛变量之和的比率。揭示了贝塔分布与伽玛分布的深刻代数关系,在贝叶斯等级模型等高等统计应用中至关重要。
这两种推导都从不同角度阐明了为什么贝塔分布的形式 xα−1(1−x)β−1 在统计建模中如此自然和普遍。