伯努利分布 (Bernoulli Distribution)
伯努利分布 是概率论 与统计学 中最基础的离散概率分布之一,以瑞士数学家雅各布·伯努利 (Jakob Bernoulli,1654--1705)命名。他在遗著《猜度术》(Ars Conjectandi ,1713 年出版)中首次系统研究了独立重复试验的规律,为后世概率论的发展奠定了根基。伯努利分布描述了一次只有两种可能结果的随机试验——通常称为"成功"(取值 1 1 1 )和"失败"(取值 0 0 0 )。尽管结构极为简单,它却是所有二值随机变量最根本的概率模型,也是构建许多更复杂分布(如二项分布 、几何分布 、负二项分布 )的不可再分的逻辑原子。
若一个随机变量 X X X 服从参数为 p p p 的伯努利分布,记作:
X ∼ Bernoulli ( p ) , p ∈ [ 0 , 1 ] X \sim \text{Bernoulli}(p), \quad p \in [0, 1] X ∼ Bernoulli ( p ) , p ∈ [ 0 , 1 ]
其中 p p p 表示单次试验中"成功"(X = 1 X = 1 X = 1 )发生的概率。
概率质量函数
伯努利随机变量 X X X 的概率质量函数(Probability Mass Function, PMF)可以紧凑地合并为单一表达式:
P ( X = k ) = p k ( 1 − p ) 1 − k , k ∈ { 0 , 1 } P(X = k) = p^k (1-p)^{1-k}, \quad k \in \{0, 1\} P ( X = k ) = p k ( 1 − p ) 1 − k , k ∈ { 0 , 1 }
展开来看,它只是两个点的概率分配:
P ( X = 1 ) = p , P ( X = 0 ) = 1 − p ≜ q P(X = 1) = p, \qquad P(X = 0) = 1 - p \triangleq q P ( X = 1 ) = p , P ( X = 0 ) = 1 − p ≜ q
其中 q = 1 − p q = 1 - p q = 1 − p 常用来表示失败的概率。这个公式之所以写成 p k ( 1 − p ) 1 − k p^k (1-p)^{1-k} p k ( 1 − p ) 1 − k 的统一形式,是为了数学推导上的便利——读者在推导最大似然估计 或计算似然函数时会发现,指数形式的乘积表达式比分支写法简洁得多。该分布完全由单一参数 p p p 确定,是整个概率分布家族中自由度最低的成员:给定 p p p ,分布的一切性质随之锁定。
数字特征
伯努利分布的各阶矩和相关信息量均有极简的闭式解。由于随机变量仅取 0 和 1,计算不涉及任何积分或无穷级数。
期望 :直接由定义出发:
E [ X ] = 1 ⋅ p + 0 ⋅ ( 1 − p ) = p \mathbb{E}[X] = 1 \cdot p + 0 \cdot (1-p) = p E [ X ] = 1 ⋅ p + 0 ⋅ ( 1 − p ) = p
期望值恰好等于成功概率本身——这一直观结果意味着,若我们重复无穷次独立的伯努利试验,样本均值将以概率 1 收敛到 p p p (这是大数定律 的直接推论)。
方差 :利用 E [ X 2 ] = 1 2 ⋅ p + 0 2 ⋅ ( 1 − p ) = p \mathbb{E}[X^2] = 1^2 \cdot p + 0^2 \cdot (1-p) = p E [ X 2 ] = 1 2 ⋅ p + 0 2 ⋅ ( 1 − p ) = p (伯努利变量在平方下不变,因 0 2 = 0 0^2 = 0 0 2 = 0 , 1 2 = 1 1^2 = 1 1 2 = 1 ):
Var ( X ) = E [ X 2 ] − ( E [ X ] ) 2 = p − p 2 = p ( 1 − p ) = p q \operatorname{Var}(X) = \mathbb{E}[X^2] - (\mathbb{E}[X])^2 = p - p^2 = p(1-p) = pq Var ( X ) = E [ X 2 ] − ( E [ X ] ) 2 = p − p 2 = p ( 1 − p ) = pq
方差关于 p p p 是一个开口向下的二次函数,在 p = 0.5 p = 0.5 p = 0.5 时达到最大值 0.25 0.25 0.25 ,而在 p → 0 p \to 0 p → 0 或 p → 1 p \to 1 p → 1 时趋近于 0。这与直觉高度吻合:当结果几乎确定时(p p p 接近边界),随机性消失;当两种结果等可能时,不确定性最大。
矩母函数 (Moment Generating Function, MGF):
M X ( t ) = E [ e t X ] = e t ⋅ 1 ⋅ p + e t ⋅ 0 ⋅ ( 1 − p ) = 1 − p + p e t M_X(t) = \mathbb{E}[e^{tX}] = e^{t \cdot 1} \cdot p + e^{t \cdot 0} \cdot (1-p) = 1 - p + p e^t M X ( t ) = E [ e tX ] = e t ⋅ 1 ⋅ p + e t ⋅ 0 ⋅ ( 1 − p ) = 1 − p + p e t
对 M X ( t ) M_X(t) M X ( t ) 在 t = 0 t=0 t = 0 处求 k k k 阶导数即得 k k k 阶原点矩。由于 MGF 在全体实数上有定义且有限,伯努利分布的所有阶矩均存在。
熵 (以 nats 为单位):
H ( X ) = − ∑ k ∈ { 0 , 1 } P ( X = k ) ln P ( X = k ) = − p ln p − ( 1 − p ) ln ( 1 − p ) H(X) = -\sum_{k \in \{0,1\}} P(X=k) \ln P(X=k) = -p \ln p - (1-p) \ln(1-p) H ( X ) = − k ∈ { 0 , 1 } ∑ P ( X = k ) ln P ( X = k ) = − p ln p − ( 1 − p ) ln ( 1 − p )
这正是信息论 中二元熵函数 H b ( p ) H_b(p) H b ( p ) 的定义。它在 p = 0 p = 0 p = 0 和 p = 1 p = 1 p = 1 处为 0(完全确定,无信息量),在 p = 0.5 p = 0.5 p = 0.5 处达到最大值 ln 2 ≈ 0.693 \ln 2 \approx 0.693 ln 2 ≈ 0.693 nats(即 1 bit)。这一函数在决策树 的分裂准则和信道容量 分析中频繁出现。
偏度 和峰度 也可解析计算:
Skewness ( X ) = 1 − 2 p p ( 1 − p ) , Kurtosis ( X ) = 1 p ( 1 − p ) − 3 \operatorname{Skewness}(X) = \frac{1 - 2p}{\sqrt{p(1-p)}}, \qquad
\operatorname{Kurtosis}(X) = \frac{1}{p(1-p)} - 3 Skewness ( X ) = p ( 1 − p ) 1 − 2 p , Kurtosis ( X ) = p ( 1 − p ) 1 − 3
当 p < 0.5 p < 0.5 p < 0.5 时分布右偏(多数失败),p > 0.5 p > 0.5 p > 0.5 时左偏(多数成功),p = 0.5 p = 0.5 p = 0.5 时对称。
与其他分布的关系
伯努利分布是概率分布网络中的一个枢纽节点,许多常用分布可以通过对伯努利变量的组合和变换得到:
二项分布(Binomial Distribution): 设有 n n n 个独立同分布的 Bernoulli ( p ) \text{Bernoulli}(p) Bernoulli ( p ) 随机变量 X 1 , … , X n X_1, \dots, X_n X 1 , … , X n ,其和 S n = ∑ i = 1 n X i S_n = \sum_{i=1}^n X_i S n = ∑ i = 1 n X i 服从 Binomial ( n , p ) \text{Binomial}(n, p) Binomial ( n , p ) 。换言之,二项分布 是伯努利试验的 n n n 次独立重复的计数结果。反过来,伯努利分布正是二项分布在 n = 1 n = 1 n = 1 时的退化情形。这一递进关系是概率论教学中从简单到复杂的标准路径。几何分布(Geometric Distribution): 在一串独立伯努利试验序列中,记 Y Y Y 为首次出现成功所需的试验次数,则 Y Y Y 服从几何分布 Geometric ( p ) \text{Geometric}(p) Geometric ( p ) ,其 PMF 为 P ( Y = k ) = ( 1 − p ) k − 1 p P(Y = k) = (1-p)^{k-1} p P ( Y = k ) = ( 1 − p ) k − 1 p 。几何分布刻画了"等待时间"的最简情形,其无记忆性直接来源于伯努利试验之间的独立性。负二项分布(Negative Binomial Distribution): 推广几何分布:等待第 r r r 次成功所需的试验次数服从负二项分布 NB ( r , p ) \text{NB}(r, p) NB ( r , p ) ,可表示为 r r r 个独立几何随机变量之和。当 r = 1 r = 1 r = 1 时还原为几何分布。范畴分布(Categorical Distribution): 伯努利分布是范畴分布 在类别数 K = 2 K = 2 K = 2 时的特例。范畴分布处理一次试验有 K K K 个互斥结果的情形,参数向量位于 ( K − 1 ) (K-1) ( K − 1 ) -维单纯形上;当 K = 2 K=2 K = 2 时单纯形退化为 [ 0 , 1 ] [0,1] [ 0 , 1 ] 区间,恰好对应于伯努利的 p p p 。Rademacher 分布: 通过线性变换 Y = 2 X − 1 Y = 2X - 1 Y = 2 X − 1 ,可将伯努利变量转化为取值于 { − 1 , + 1 } \{-1, +1\} { − 1 , + 1 } 的 Rademacher 变量。该分布在机器学习 的随机梯度下降分析、Rademacher 复杂度(泛化理论)和集成方法中均有重要应用。泊松分布的联系: 当 n n n 很大而 p p p 很小时(稀有事件),Binomial ( n , p ) \text{Binomial}(n, p) Binomial ( n , p ) 可由泊松分布 Poisson ( n p ) \text{Poisson}(np) Poisson ( n p ) 近似。这一极限过程(泊松极限定理)的起点正是伯努利试验的稀有事件设定。
似然理论与参数估计
给定 n n n 个独立同分布的观测值 x 1 , x 2 , … , x n ∈ { 0 , 1 } x_1, x_2, \dots, x_n \in \{0, 1\} x 1 , x 2 , … , x n ∈ { 0 , 1 } ,似然函数为各观测值概率的乘积:
L ( p ) = ∏ i = 1 n p x i ( 1 − p ) 1 − x i = p ∑ x i ( 1 − p ) n − ∑ x i = p k ( 1 − p ) n − k L(p) = \prod_{i=1}^{n} p^{x_i} (1-p)^{1-x_i} = p^{\sum x_i} (1-p)^{n - \sum x_i} = p^k (1-p)^{n-k} L ( p ) = i = 1 ∏ n p x i ( 1 − p ) 1 − x i = p ∑ x i ( 1 − p ) n − ∑ x i = p k ( 1 − p ) n − k
其中 k = ∑ i = 1 n x i k = \sum_{i=1}^n x_i k = ∑ i = 1 n x i 表示 n n n 次试验中的成功总次数。取自然对数得到对数似然函数:
ℓ ( p ) = ln L ( p ) = k ln p + ( n − k ) ln ( 1 − p ) \ell(p) = \ln L(p) = k \ln p + (n-k) \ln(1-p) ℓ ( p ) = ln L ( p ) = k ln p + ( n − k ) ln ( 1 − p )
这是一个关于 p p p 的严格凹函数(当 0 < k < n 0 < k < n 0 < k < n 时),保证了极值点的唯一性。对 p p p 求导并令其为零:
d ℓ d p = k p − n − k 1 − p = 0 ⟹ p ^ MLE = k n = x ˉ \frac{d\ell}{dp} = \frac{k}{p} - \frac{n-k}{1-p} = 0 \quad \Longrightarrow \quad \hat{p}_{\text{MLE}} = \frac{k}{n} = \bar{x} d p d ℓ = p k − 1 − p n − k = 0 ⟹ p ^ MLE = n k = x ˉ
最大似然估计量恰为样本均值——在伯努利模型中,"比例即均值"这一事实使得估计具有天然的直观解释。由Fisher 信息量 可导出该估计量的渐近方差:
I ( p ) = − E [ d 2 ℓ d p 2 ] = n p ( 1 − p ) , Var ( p ^ MLE ) ≈ p ( 1 − p ) n I(p) = -\mathbb{E}\left[\frac{d^2\ell}{dp^2}\right] = \frac{n}{p(1-p)}, \qquad
\operatorname{Var}(\hat{p}_{\text{MLE}}) \approx \frac{p(1-p)}{n} I ( p ) = − E [ d p 2 d 2 ℓ ] = p ( 1 − p ) n , Var ( p ^ MLE ) ≈ n p ( 1 − p )
这正是在入门统计课上反复出现的"样本比例的方差"公式的理论来源。
贝叶斯视角与共轭先验
在贝叶斯统计 框架下,伯努利似然的最重要性质之一是它拥有简洁的共轭先验:Beta 分布 。若先验取为:
p ∼ Beta ( α , β ) , π ( p ) ∝ p α − 1 ( 1 − p ) β − 1 p \sim \text{Beta}(\alpha, \beta), \quad \pi(p) \propto p^{\alpha-1} (1-p)^{\beta-1} p ∼ Beta ( α , β ) , π ( p ) ∝ p α − 1 ( 1 − p ) β − 1
则在观测到 k k k 次成功和 n − k n-k n − k 次失败后,后验分布具有相同的形式:
p ∣ data ∼ Beta ( α + k , β + n − k ) p \mid \text{data} \sim \text{Beta}(\alpha + k, \beta + n - k) p ∣ data ∼ Beta ( α + k , β + n − k )
这一更新规则的美感在于:先验的超参数 ( α , β ) (\alpha, \beta) ( α , β ) 可以直观地解释为"伪观测"——α − 1 \alpha-1 α − 1 次先验成功和 β − 1 \beta-1 β − 1 次先验失败——与真实数据无缝叠加,形成新的超参数。Beta-Bernoulli 共轭对是贝叶斯统计教学中最经典的入门案例,深刻展示了从先验不确定性到后验确定性的学习过程:随着 n n n 增大,后验分布越来越集中在真实频率周围,而先验的影响逐渐消退。
应用与意义
伯努利分布虽简单,却无处不在。任何可归结为"是/否"、"成功/失败"、"阳性/阴性"的二元观测,在概率建模的第一层逻辑中都回归为伯努利试验:
分类模型: 逻辑回归 (Logistic Regression) 直接对伯努利参数 p = P ( Y = 1 ∣ x ) p = P(Y=1 \mid \mathbf{x}) p = P ( Y = 1 ∣ x ) 建模,通过逻辑函数 将线性预测 β T x \boldsymbol{\beta}^T \mathbf{x} β T x 映射到 ( 0 , 1 ) (0,1) ( 0 , 1 ) 区间。支持向量机 和二分类神经网络中,输出层的二元交叉熵损失同样基于伯努利似然推导而来。A/B 测试: 用户点击与否、转化与否、留存与否——每一个用户的二元响应均视为一次伯努利试验,实验组和对照组的差异检验(如两样本比例 z z z 检验)完全建立在伯努利-二项框架之上。质量控制: 生产线上单个产品合格与否是伯努利观测;整批产品的不合格品数服从二项分布,而控制图(如 p p p -图)用于监控伯努利参数 p p p 的漂移。医学与流行病学: 患者对治疗是否有反应、个体是否患病、诊断结果是否为阳性,均可用伯努利模型描述。灵敏度和特异度的估计本质上是对条件伯努利概率的推断。随机图与网络: Erdős--Rényi 随机图模型 G ( n , p ) G(n, p) G ( n , p ) 中,每一对节点之间连边的存在与否是独立的 Bernoulli ( p ) \text{Bernoulli}(p) Bernoulli ( p ) 试验。整个网络的结构性质(连通性、巨分支涌现等)均由这 p p p 决定。蒙特卡洛模拟: 伯努利随机数是构建任何离散事件模拟的原子操作——从随机游走到分支过程,从渗透模型到马尔可夫链蒙特卡洛 (MCMC) 的接受-拒绝步骤。
历史注记
雅各布·伯努利在《猜度术》第四部分中提出了后世所称的伯努利大数定律 ——即独立重复试验中,成功频率依概率收敛于真实概率 p p p 。他称此定理为"黄金定理"(aureum theorema ),并视其为毕生最重要的数学成就之一。值得玩味的是,伯努利本人未曾使用"伯努利分布"这一名称;该术语是后世统计学发展过程中逐渐固定下来的命名惯例,用以纪念他首次将二元随机试验纳入严格的数学分析框架之中。从《猜度术》出版至今三百余年,伯努利分布仍然是连接初等概率直觉与高等统计理论的桥梁——它简单到可以被一个参数完全刻画,却又深刻到足以支撑从频率学派到贝叶斯学派的全部推理范式。
关于知经 KNOWECON
知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌,长期面向北京大学、清华大学、中国人民大学等顶尖院校,提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考,并成功进入理想院校。
知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业,获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者,长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。
我们相信,好的考研辅导不只是押题和陪跑,更是把复杂知识讲清楚、把复习路径设计清楚,并用技术让学习过程更可追踪、更可反馈、更可坚持。