ARTICLE

Bernoulli distribution

伯努利分布 (Bernoulli Distribution) 伯努利分布是概率论与统计学中最基础的离散概率分布之一,以瑞士数学家雅各布·伯努利(Jakob Bernoulli,1654--1705)命名。他在遗著《猜度术》(Ars Conjectandi,1713 年出版)中首次系统研究了独立重复试验的规律,为后世概率论的发展奠定了根基。伯努利分布描述了一次

浏览 0 更新 2026-06-30

伯努利分布 (Bernoulli Distribution)

伯努利分布概率论统计学中最基础的离散概率分布之一,以瑞士数学家雅各布·伯努利(Jakob Bernoulli,1654--1705)命名。他在遗著《猜度术》(Ars Conjectandi,1713 年出版)中首次系统研究了独立重复试验的规律,为后世概率论的发展奠定了根基。伯努利分布描述了一次只有两种可能结果的随机试验——通常称为"成功"(取值 11)和"失败"(取值 00)。尽管结构极为简单,它却是所有二值随机变量最根本的概率模型,也是构建许多更复杂分布(如二项分布几何分布负二项分布)的不可再分的逻辑原子。

若一个随机变量 XX 服从参数为 pp 的伯努利分布,记作:

XBernoulli(p),p[0,1]X \sim \text{Bernoulli}(p), \quad p \in [0, 1]

其中 pp 表示单次试验中"成功"(X=1X = 1)发生的概率。

概率质量函数

伯努利随机变量 XX 的概率质量函数(Probability Mass Function, PMF)可以紧凑地合并为单一表达式:

P(X=k)=pk(1p)1k,k{0,1}P(X = k) = p^k (1-p)^{1-k}, \quad k \in \{0, 1\}

展开来看,它只是两个点的概率分配:

P(X=1)=p,P(X=0)=1pqP(X = 1) = p, \qquad P(X = 0) = 1 - p \triangleq q

其中 q=1pq = 1 - p 常用来表示失败的概率。这个公式之所以写成 pk(1p)1kp^k (1-p)^{1-k} 的统一形式,是为了数学推导上的便利——读者在推导最大似然估计或计算似然函数时会发现,指数形式的乘积表达式比分支写法简洁得多。该分布完全由单一参数 pp 确定,是整个概率分布家族中自由度最低的成员:给定 pp,分布的一切性质随之锁定。

数字特征

伯努利分布的各阶矩和相关信息量均有极简的闭式解。由于随机变量仅取 0 和 1,计算不涉及任何积分或无穷级数。

期望:直接由定义出发:

E[X]=1p+0(1p)=p\mathbb{E}[X] = 1 \cdot p + 0 \cdot (1-p) = p

期望值恰好等于成功概率本身——这一直观结果意味着,若我们重复无穷次独立的伯努利试验,样本均值将以概率 1 收敛到 pp(这是大数定律的直接推论)。

方差:利用 E[X2]=12p+02(1p)=p\mathbb{E}[X^2] = 1^2 \cdot p + 0^2 \cdot (1-p) = p(伯努利变量在平方下不变,因 02=00^2 = 0, 12=11^2 = 1):

Var(X)=E[X2](E[X])2=pp2=p(1p)=pq\operatorname{Var}(X) = \mathbb{E}[X^2] - (\mathbb{E}[X])^2 = p - p^2 = p(1-p) = pq

方差关于 pp 是一个开口向下的二次函数,在 p=0.5p = 0.5 时达到最大值 0.250.25,而在 p0p \to 0p1p \to 1 时趋近于 0。这与直觉高度吻合:当结果几乎确定时(pp 接近边界),随机性消失;当两种结果等可能时,不确定性最大。

矩母函数(Moment Generating Function, MGF):

MX(t)=E[etX]=et1p+et0(1p)=1p+petM_X(t) = \mathbb{E}[e^{tX}] = e^{t \cdot 1} \cdot p + e^{t \cdot 0} \cdot (1-p) = 1 - p + p e^t

MX(t)M_X(t)t=0t=0 处求 kk 阶导数即得 kk 阶原点矩。由于 MGF 在全体实数上有定义且有限,伯努利分布的所有阶矩均存在。

(以 nats 为单位):

H(X)=k{0,1}P(X=k)lnP(X=k)=plnp(1p)ln(1p)H(X) = -\sum_{k \in \{0,1\}} P(X=k) \ln P(X=k) = -p \ln p - (1-p) \ln(1-p)

这正是信息论二元熵函数 Hb(p)H_b(p) 的定义。它在 p=0p = 0p=1p = 1 处为 0(完全确定,无信息量),在 p=0.5p = 0.5 处达到最大值 ln20.693\ln 2 \approx 0.693 nats(即 1 bit)。这一函数在决策树的分裂准则和信道容量分析中频繁出现。

偏度峰度也可解析计算:

Skewness(X)=12pp(1p),Kurtosis(X)=1p(1p)3\operatorname{Skewness}(X) = \frac{1 - 2p}{\sqrt{p(1-p)}}, \qquad \operatorname{Kurtosis}(X) = \frac{1}{p(1-p)} - 3

p<0.5p < 0.5 时分布右偏(多数失败),p>0.5p > 0.5 时左偏(多数成功),p=0.5p = 0.5 时对称。

与其他分布的关系

伯努利分布是概率分布网络中的一个枢纽节点,许多常用分布可以通过对伯努利变量的组合和变换得到:

  • 二项分布(Binomial Distribution): 设有 nn 个独立同分布的 Bernoulli(p)\text{Bernoulli}(p) 随机变量 X1,,XnX_1, \dots, X_n,其和 Sn=i=1nXiS_n = \sum_{i=1}^n X_i 服从 Binomial(n,p)\text{Binomial}(n, p)。换言之,二项分布是伯努利试验的 nn 次独立重复的计数结果。反过来,伯努利分布正是二项分布在 n=1n = 1 时的退化情形。这一递进关系是概率论教学中从简单到复杂的标准路径。
  • 几何分布(Geometric Distribution): 在一串独立伯努利试验序列中,记 YY 为首次出现成功所需的试验次数,则 YY 服从几何分布 Geometric(p)\text{Geometric}(p),其 PMF 为 P(Y=k)=(1p)k1pP(Y = k) = (1-p)^{k-1} p。几何分布刻画了"等待时间"的最简情形,其无记忆性直接来源于伯努利试验之间的独立性。
  • 负二项分布(Negative Binomial Distribution): 推广几何分布:等待第 rr 次成功所需的试验次数服从负二项分布 NB(r,p)\text{NB}(r, p),可表示为 rr 个独立几何随机变量之和。当 r=1r = 1 时还原为几何分布。
  • 范畴分布(Categorical Distribution): 伯努利分布是范畴分布在类别数 K=2K = 2 时的特例。范畴分布处理一次试验有 KK 个互斥结果的情形,参数向量位于 (K1)(K-1)-维单纯形上;当 K=2K=2 时单纯形退化为 [0,1][0,1] 区间,恰好对应于伯努利的 pp
  • Rademacher 分布: 通过线性变换 Y=2X1Y = 2X - 1,可将伯努利变量转化为取值于 {1,+1}\{-1, +1\} 的 Rademacher 变量。该分布在机器学习的随机梯度下降分析、Rademacher 复杂度(泛化理论)和集成方法中均有重要应用。
  • 泊松分布的联系:nn 很大而 pp 很小时(稀有事件),Binomial(n,p)\text{Binomial}(n, p) 可由泊松分布 Poisson(np)\text{Poisson}(np) 近似。这一极限过程(泊松极限定理)的起点正是伯努利试验的稀有事件设定。

似然理论与参数估计

给定 nn 个独立同分布的观测值 x1,x2,,xn{0,1}x_1, x_2, \dots, x_n \in \{0, 1\},似然函数为各观测值概率的乘积:

L(p)=i=1npxi(1p)1xi=pxi(1p)nxi=pk(1p)nkL(p) = \prod_{i=1}^{n} p^{x_i} (1-p)^{1-x_i} = p^{\sum x_i} (1-p)^{n - \sum x_i} = p^k (1-p)^{n-k}

其中 k=i=1nxik = \sum_{i=1}^n x_i 表示 nn 次试验中的成功总次数。取自然对数得到对数似然函数:

(p)=lnL(p)=klnp+(nk)ln(1p)\ell(p) = \ln L(p) = k \ln p + (n-k) \ln(1-p)

这是一个关于 pp 的严格凹函数(当 0<k<n0 < k < n 时),保证了极值点的唯一性。对 pp 求导并令其为零:

ddp=kpnk1p=0p^MLE=kn=xˉ\frac{d\ell}{dp} = \frac{k}{p} - \frac{n-k}{1-p} = 0 \quad \Longrightarrow \quad \hat{p}_{\text{MLE}} = \frac{k}{n} = \bar{x}

最大似然估计量恰为样本均值——在伯努利模型中,"比例即均值"这一事实使得估计具有天然的直观解释。由Fisher 信息量可导出该估计量的渐近方差:

I(p)=E[d2dp2]=np(1p),Var(p^MLE)p(1p)nI(p) = -\mathbb{E}\left[\frac{d^2\ell}{dp^2}\right] = \frac{n}{p(1-p)}, \qquad \operatorname{Var}(\hat{p}_{\text{MLE}}) \approx \frac{p(1-p)}{n}

这正是在入门统计课上反复出现的"样本比例的方差"公式的理论来源。

贝叶斯视角与共轭先验

贝叶斯统计框架下,伯努利似然的最重要性质之一是它拥有简洁的共轭先验:Beta 分布。若先验取为:

pBeta(α,β),π(p)pα1(1p)β1p \sim \text{Beta}(\alpha, \beta), \quad \pi(p) \propto p^{\alpha-1} (1-p)^{\beta-1}

则在观测到 kk 次成功和 nkn-k 次失败后,后验分布具有相同的形式:

pdataBeta(α+k,β+nk)p \mid \text{data} \sim \text{Beta}(\alpha + k, \beta + n - k)

这一更新规则的美感在于:先验的超参数 (α,β)(\alpha, \beta) 可以直观地解释为"伪观测"——α1\alpha-1 次先验成功和 β1\beta-1 次先验失败——与真实数据无缝叠加,形成新的超参数。Beta-Bernoulli 共轭对是贝叶斯统计教学中最经典的入门案例,深刻展示了从先验不确定性到后验确定性的学习过程:随着 nn 增大,后验分布越来越集中在真实频率周围,而先验的影响逐渐消退。

应用与意义

伯努利分布虽简单,却无处不在。任何可归结为"是/否"、"成功/失败"、"阳性/阴性"的二元观测,在概率建模的第一层逻辑中都回归为伯努利试验:

  1. 分类模型: 逻辑回归 (Logistic Regression) 直接对伯努利参数 p=P(Y=1x)p = P(Y=1 \mid \mathbf{x}) 建模,通过逻辑函数将线性预测 βTx\boldsymbol{\beta}^T \mathbf{x} 映射到 (0,1)(0,1) 区间。支持向量机和二分类神经网络中,输出层的二元交叉熵损失同样基于伯努利似然推导而来。
  2. A/B 测试: 用户点击与否、转化与否、留存与否——每一个用户的二元响应均视为一次伯努利试验,实验组和对照组的差异检验(如两样本比例 zz 检验)完全建立在伯努利-二项框架之上。
  3. 质量控制: 生产线上单个产品合格与否是伯努利观测;整批产品的不合格品数服从二项分布,而控制图(如 pp-图)用于监控伯努利参数 pp 的漂移。
  4. 医学与流行病学: 患者对治疗是否有反应、个体是否患病、诊断结果是否为阳性,均可用伯努利模型描述。灵敏度和特异度的估计本质上是对条件伯努利概率的推断。
  5. 随机图与网络: Erdős--Rényi 随机图模型 G(n,p)G(n, p) 中,每一对节点之间连边的存在与否是独立的 Bernoulli(p)\text{Bernoulli}(p) 试验。整个网络的结构性质(连通性、巨分支涌现等)均由这 pp 决定。
  6. 蒙特卡洛模拟: 伯努利随机数是构建任何离散事件模拟的原子操作——从随机游走到分支过程,从渗透模型到马尔可夫链蒙特卡洛 (MCMC) 的接受-拒绝步骤。

历史注记

雅各布·伯努利在《猜度术》第四部分中提出了后世所称的伯努利大数定律——即独立重复试验中,成功频率依概率收敛于真实概率 pp。他称此定理为"黄金定理"(aureum theorema),并视其为毕生最重要的数学成就之一。值得玩味的是,伯努利本人未曾使用"伯努利分布"这一名称;该术语是后世统计学发展过程中逐渐固定下来的命名惯例,用以纪念他首次将二元随机试验纳入严格的数学分析框架之中。从《猜度术》出版至今三百余年,伯努利分布仍然是连接初等概率直觉与高等统计理论的桥梁——它简单到可以被一个参数完全刻画,却又深刻到足以支撑从频率学派到贝叶斯学派的全部推理范式。