Beta分布 (Beta Distribution)
Beta分布(Beta Distribution)是概率论与统计学中一类定义在区间(0,1)上的连续概率分布族。它由两个正值参数α和β决定,这两个参数控制了分布的形状。由于定义域限定在(0,1)之间,Beta分布常被用于模拟概率或比例的随机变量。在贝叶斯统计中Beta分布占据核心地位,因为它是二项分布和伯努利分布的共轭先验——如果先验分布是Beta分布且似然函数是二项分布,那么后验分布仍然是Beta分布。
统计特征与分布形态
Beta分布的概率密度函数(PDF)为f(x;α,β)=xα−1(1−x)β−1/B(α,β),其中B(α,β)=Γ(α)Γ(β)/Γ(α+β)为Beta函数,作为归一化常数确保PDF积分为1。累积分布函数通过正则化不完全Beta函数表示:F(x;α,β)=Ix(α,β)。
期望值由两参数比率决定——E[X]=α/(α+β)。直观理解为:若α代表"成功"的虚拟计数、β代表"失败"的虚拟计数,则期望值即为成功比例。方差为Var(X)=αβ/[(α+β)2(α+β+1)],当α+β很大时方差趋近于0——表示大量证据下对概率的估计会非常确定。当α>1且β>1时分布呈单峰形,众数为(α−1)/(α+β−2)。
分布形态随参数变化:α=β时对称且关于0.5对称;α=β=1时退化为均匀分布;α>β时左偏(概率集中在高值区);α<β时右偏。α,β同时增大使分布更集中(方差减小)。
贝叶斯应用与推导
Beta分布在贝叶斯推断中的核心优势在于共轭性质。考虑先验X∼Beta(α,β),观测到n次试验中s次成功和f次失败,似然为∝xs(1−x)f。后验分布为Beta(α+s,β+f)——这一极其简便的更新规则使Beta分布成为比例模型的不二之选。从参数的角度看,初始先验的α和β可理解为"先验伪计数"——在贝叶斯分析开始前我们认为已经观察到了α−1次成功和β−1次失败。每观察到一次成功就将α加1,观察到一次失败就将β加1。后验期望为E[X∣s,f]=(α+s)/(α+β+n),是最大似然估计s/n和先验期望α/(α+β)的加权平均——权重分别由样本量n和先验强度α+β决定。Beta分布在A/B测试、质量控制和机器学习中的汤普森抽样等领域有广泛应用。