伯努利分布 (Bernoulli Distribution)
伯努利分布是概率论中最基础的离散概率分布,以瑞士数学家雅各布·伯努利(Jakob Bernoulli, 1654--1705)命名。他于遗著《猜度术》(Ars Conjectandi, 1713 年出版)中首次以严格的数学框架处理了二元随机试验的规律,为后世概率论的发展奠定了基石。伯努利分布刻画了一次只有两种互斥结果的随机试验:通常称为"成功"(取值为 1)与"失败"(取值为 0)。尽管结构极为简单,它却是所有二值随机变量最根本的概率模型,也是构建二项分布、几何分布、负二项分布等更复杂分布不可再分的逻辑原子。
若随机变量 X 服从参数为 p 的伯努利分布,记作:
X∼Bernoulli(p),p∈[0,1]
其中 p 表示单次试验中成功的概率。令 q=1−p 表示失败概率。
概率质量函数
伯努利随机变量的概率质量函数可紧凑地写为单一表达式:
P(X=k)=pk(1−p)1−k,k∈{0,1}
展开即:
P(X=1)=p,P(X=0)=1−p=q
将 PMF 写为 pk(1−p)1−k 的指数形式并非故弄玄虚,而是为了极大似然估计中似然函数连乘积的表达便利。该分布仅由一个参数 p 完全确定,是整个概率分布族中自由度最低的成员:给定 p,分布的一切性质便被彻底锁定。
数字特征
由于伯努利变量只取 0 和 1,其各阶矩的计算均不涉及积分或无穷级数,具有极简的闭式解。
期望:
E[X]=1⋅p+0⋅q=p
期望值恰好等于成功概率本身——依据大数定律,无限次独立重复试验的样本均值以概率 1 收敛于 p。
方差:
Var(X)=E[X2]−(E[X])2=p−p2=p(1−p)=pq
这里利用了 E[X2]=12⋅p+02⋅q=p,即伯努利变量平方后不变。方差作为 p 的函数是开口向下的抛物线,在 p=0.5 时达到最大值 0.25,在 p→0 或 p→1 时趋于零:当结果几乎确定时随机性消失,当两种结果等可能时不确定性最大。
矩母函数:
MX(t)=E[etX]=et⋅1p+et⋅0q=q+pet
由于 MGF 在 R 上处处有限,伯努利分布的所有阶矩均存在,且可通过 t=0 处的逐阶导数求出。
特征函数:
φX(t)=E[eitX]=q+peit
特征函数在推导伯努利和到二项分布的过程中尤为便利——独立随机变量之和的特征函数等于各自特征函数的乘积,由此即得二项分布的特征函数 φSn(t)=(q+peit)n。
熵(以 nats 为单位):
H(X)=−plnp−qlnq
此即信息论中二元熵函数 Hb(p) 的定义。它在 p=0 或 1 处为 0(结果确定,不携带信息),在 p=0.5 处达最大值 ln2≈0.693 nats(即 1 bit)。二元熵函数在决策树的分裂准则、信道容量分析和KL 散度计算中频繁出现。
偏度与峰度:
Skew(X)=pqq−p=p(1−p)1−2p,Kurt(X)=pq1−3=pq1−6pq
当 p<0.5 时右偏,p>0.5 时左偏,p=0.5 时对称。超额峰度恒正(除非 p∈{0,1} 退化为常数),表明伯努利分布相对正态分布始终为尖峰厚尾。
指数族表示
伯努利分布属于指数族,其 PMF 可重新参数化为指数族的自然形式:
P(X=k)=exp{k⋅ln1−pp+ln(1−p)}
由此读出自然参数 η=ln1−pp(对数几率,即 logit 函数),充分统计量 T(k)=k,对数配分函数 A(η)=ln(1+eη)。指数族结构直接保证了以下性质:E[T(X)]=A′(η)=p,Var(T(X))=A′′(η)=p(1−p),无需重新计算。这一结构也是广义线性模型(GLM)中逻辑回归作为伯努利响应加 logit 链接的理论基础。
与其他分布的关系
伯努利分布是整个离散分布网络中的枢纽节点:
- 二项分布:n 个独立同分布 Bernoulli(p) 之和服从 Binomial(n,p)。伯努利分布即 n=1 时的二项分布。反过来,二项分布的一切性质(期望 np、方差 npq、可加性)均可从伯努利变量的和出发直接导出。
- 几何分布:独立伯努利序列中首次成功所需试验次数服从 Geometric(p),PMF 为 P(Y=k)=qk−1p。无记忆性根源于各次试验之间的独立性。
- 负二项分布:等待第 r 次成功所需次数服从 NB(r,p),可视作 r 个独立几何变量之和。
- 范畴分布:伯努利分布是范畴分布在类别数 K=2 时的退化情形。范畴分布的参数向量在 (K−1)-维单纯形上,当 K=2 时单纯形退化为 [0,1] 区间。
- Rademacher 分布:Y=2X−1 将取值映射到 {−1,+1},常用于机器学习中的 Rademacher 复杂度和随机梯度分析。
- 泊松极限:当 n→∞、p→0 且 np→λ 时,Binomial(n,p)→Poisson(λ)。此稀有事件极限的微观基础正是伯努利试验。
充分统计量与似然理论
伯努利模型是展示充分统计量概念的经典范例。给定独立观测 x=(x1,…,xn),似然函数为:
L(p∣x)=i=1∏npxi(1−p)1−xi=pk(1−p)n−k
其中 k=∑i=1nxi。由Fisher-Neyman因子分解定理,k 是关于参数 p 的充分统计量——它包含了样本中关于 p 的全部信息,单个观测的顺序和模式不提供任何额外信息。对数似然:
ℓ(p)=klnp+(n−k)ln(1−p)
一阶条件给出 MLE:
p^MLE=nk=xˉ
二阶导数给出观测 Fisher 信息:
−dp2d2ℓ=p2k+(1−p)2n−k
取期望即得期望 Fisher 信息:
I(p)=p(1−p)n=pqn
因此 MLE 的渐近方差为 Var(p^)≈np(1−p)——这正是基础统计教科书中样本比例方差公式的理论来源,也是构造 Wald 置信区间和假设检验的基石。
贝叶斯推断与共轭先验
在贝叶斯统计中,伯努利似然最重要的性质是其简洁的共轭先验结构。取先验:
p∼Beta(α,β),π(p)∝pα−1(1−p)β−1
则在观测到 k 次成功和 n−k 次失败后,后验分布维持 Beta 形式:
p∣data∼Beta(α+k,β+n−k)
这一更新规则揭示了贝叶斯学习的本质:先验超参数 (α,β) 等价于"伪观测"(α−1 次先验成功和 β−1 次先验失败),真实数据以线性加法的方式并入,形成后验信念。后验均值:
E[p∣data]=α+β+nα+k
可在先验均值 α+βα 和样本均值 nk 之间取加权折衷,权重由样本量 n 和先验精度 α+β 的相对大小决定。当样本量趋于无穷时,后验收缩至 MLE,先验影响消失殆尽——这体现了贝叶斯方法的渐近客观性。Beta-Bernoulli 共轭对因其代数简洁性和直观解释力,历来是贝叶斯统计教学中最先引入的案例。
应用场景
伯努利分布虽简单,却遍布统计应用的核心:
- 分类模型:逻辑回归直接对条件伯努利参数 p=P(Y=1∣x) 建模,logit 链接 ln1−pp=β⊤x 将线性预测映射到概率尺度。深度学习中二元分类的交叉熵损失函数本质上就是负伯努利对数似然。
- A/B 测试:用户点击、转化、留存——每个用户的一次行为均视为伯努利观测。实验组与控制组的比例差异检验(双样本 z 检验、Fisher 精确检验)完全建立在伯努利-二项框架之上。
- 质量控制:生产线单件产品合格与否是伯努利试验,不合格品率 p 的控制图(p-图、np-图)用于实时监测过程漂移。
- 医学诊断与流行病学:检测阳性/阴性、患病/健康、治疗有效/无效——灵敏度与特异度的估计本质上是对条件伯努利概率的推断。
- 随机图与网络:Erdős--Rényi 随机图 G(n,p) 中,每对节点间连边的存在是独立的 Bernoulli(p) 试验。网络的连通性、巨分支涌现阈值 pc=1/n 等相变现象均由这单一的 p 决定。
- 蒙特卡洛模拟:伯努利随机数是离散事件模拟的原子——从随机游走到分支过程,从渗透模型到马尔可夫链蒙特卡洛的接受-拒绝步骤,均以伯努利变量为基本构造单元。
历史注记
雅各布·伯努利在《猜度术》第四部分中提出了后世称颂的伯努利大数定律——独立重复试验中成功频率依概率收敛于 p。他将此定理命名为"黄金定理"(aureum theorema),并视其为一生最重要的数学贡献。耐人寻味的是,伯努利本人未曾使用"伯努利分布"这一名称;该术语是十九至二十世纪统计学渐趋成熟的过程中逐渐固定下来的命名惯例,用以纪念他首次将二元随机现象纳入严格的数学分析框架。从《猜度术》付梓至今逾三百年,伯努利分布依然岿然矗立于概率论与统计学的入口处:它简单到仅凭一个参数即可穷尽所有可能,却又深刻到足以支撑频率学派的最大似然理论、贝叶斯学派的共轭推断,乃至现代机器学习的分类损失函数。它是通往概率思维的第一道门,也是每个统计学者永远无法绕开的起点。