ARTICLE

伯努利分布

伯努利分布 (Bernoulli Distribution) 伯努利分布 (Bernoulli Distribution) 是概率论和统计学中最基础的离散概率分布之一。它描述了一个只有两种可能结果的单次随机试验,这种试验在文献中被称为伯努利试验 (Bernoulli Trial)。伯努利分布看似简单,却是许多更复杂概率分布的基石,尤其是二项分布、几何分布和负

浏览 49 更新 2025-10-25

伯努利分布 (Bernoulli Distribution)

伯努利分布 (Bernoulli Distribution) 是概率论统计学中最基础的离散概率分布之一。它描述了一个只有两种可能结果的单次随机试验,这种试验在文献中被称为伯努利试验 (Bernoulli Trial)。伯努利分布看似简单,却是许多更复杂概率分布的基石,尤其是二项分布几何分布负二项分布等。它的命名是为了纪念17世纪瑞士数学家[[雅各布·伯努利]],他对概率论的发展做出了奠基性的贡献。

伯努利分布是概率论体系中第一个在实际应用中被广泛使用的离散分布,它与二项分布共同构成了统计推断中比例估计和假设检验的基础。由于形式简单且计算方便,伯努利分布常常作为数据科学入门课程中第一个学习的概率分布模型。此外,伯努利分布也是最大似然估计和贝叶斯统计中最重要的案例之一,其共轭先验分布为 Beta 分布,这为序贯学习和在线更新提供了极大的便利。

核心概念:伯努利试验

一个伯努利试验是指一个具有以下三个关键特征的随机事件:

  1. 两种互斥结果:试验只有两种可能的结果。按照惯例,这两种结果被称为"成功" (Success) 和"失败" (Failure),但这只是数学上的标签,不具有任何价值判断。
  2. 概率恒定:每次试验中,"成功"的概率是固定的,用参数 p p 表示,且 0p1 0 \le p \le 1 。相应地,"失败"的概率就是 1p 1-p
  3. 独立性:每次试验的结果不受其他试验结果的影响。

在具体应用中,伯努利试验可以代表各种二元结果事件:

  • 抛掷一枚硬币,结果为"正面"或"反面"(假设硬币均匀,则 p=0.5 p=0.5 )。
  • 一次产品质量检测,结果为"合格"或"不合格"。
  • 一个新生儿的性别,结果为"男"或"女"。
  • 一次信贷申请,结果为"违约"或"不违约"。
  • 一次网络请求,结果为"成功"或"超时"。

数学定义

伯努利分布由单个参数 p p (0p1 0 \le p \le 1 ) 完全定义,该参数表示"成功"事件发生的概率。通常,我们使用一个随机变量 X X 来表示伯努利试验的结果。为了便于数学处理,我们将"成功"编码为 1,将"失败"编码为 0:

X={1代表"成功"0代表"失败"X = \begin{cases} 1 & \text{代表"成功"} \\ 0 & \text{代表"失败"} \end{cases}

概率质量函数 (PMF)

一个服从参数为 p p 的伯努利分布的随机变量 X X 概率质量函数 (Probability Mass Function, PMF) 可以表示为:

P(X=k)={p如果 k=11p如果 k=0P(X=k) = \begin{cases} p & \text{如果 } k=1 \\ 1-p & \text{如果 } k=0 \end{cases}

这个分段函数可以更简洁地写成一个封闭形式:

P(X=k)=pk(1p)1k其中 k{0,1}P(X=k) = p^k (1-p)^{1-k} \quad \text{其中 } k \in \{0, 1\}

我们可以验证这个公式的有效性:

  • k=1 k=1 (成功) 时,P(X=1)=p1(1p)11=p(1p)0=p P(X=1) = p^1(1-p)^{1-1} = p \cdot (1-p)^0 = p
  • k=0 k=0 (失败) 时,P(X=0)=p0(1p)10=1(1p)1=1p P(X=0) = p^0(1-p)^{1-0} = 1 \cdot (1-p)^1 = 1-p

如果一个随机变量 X X 服从伯努利分布,我们通常记为 XBernoulli(p) X \sim \text{Bernoulli}(p)

主要性质

期望 (Expected Value)

伯努利分布的期望(或均值)是成功的概率 p p

E[X]=pE[X] = p

推导过程:根据期望的定义,对于离散随机变量,期望是所有可能取值与其对应概率的乘积之和:

E[X]=k{0,1}kP(X=k)=(1×P(X=1))+(0×P(X=0))=(1×p)+(0×(1p))=pE[X] = \sum_{k \in \{0,1\}} k \cdot P(X=k) = (1 \times P(X=1)) + (0 \times P(X=0)) = (1 \times p) + (0 \times (1-p)) = p

这个结果非常直观:如果我们进行大量的伯努利试验,结果的平均值将趋近于成功的概率 p p 。例如,抛掷一枚均匀硬币(p=0.5 p=0.5 )一万次,正面的比例将非常接近 0.5。

方差 (Variance)

伯努利分布的方差描述了数据围绕其均值的离散程度:

Var(X)=p(1p)\text{Var}(X) = p(1-p)

推导过程:方差的标准计算公式是 Var(X)=E[X2](E[X])2 \text{Var}(X) = E[X^2] - (E[X])^2

  1. 首先,计算 E[X2] E[X^2]
E[X2]=k{0,1}k2P(X=k)=(12×p)+(02×(1p))=p E[X^2] = \sum_{k \in \{0,1\}} k^2 \cdot P(X=k) = (1^2 \times p) + (0^2 \times (1-p)) = p
  1. 然后,代入方差公式:
Var(X)=E[X2](E[X])2=pp2=p(1p) \text{Var}(X) = E[X^2] - (E[X])^2 = p - p^2 = p(1-p)

方差在 p=0.5 p=0.5 时取得最大值 0.25 0.25 。这符合直觉:当成功和失败的概率相等时,试验结果的不确定性最大。当 p p 接近 0 或 1 时,结果几乎是确定的,因此方差趋近于 0。标准差则为 p(1p) \sqrt{p(1-p)}

其他矩与性质

  • 偏度 (Skewness)12pp(1p) \frac{1-2p}{\sqrt{p(1-p)}} 。当 p=0.5 p=0.5 时,分布是对称的,偏度为 0;当 p<0.5 p < 0.5 时,分布呈右偏;当 p>0.5 p > 0.5 时,分布呈左偏。
  • 峰度 (Kurtosis)16p+6p2p(1p) \frac{1-6p+6p^2}{p(1-p)} 。伯努利分布通常具有较高的峰度,即尾部较厚。
  • 矩生成函数 (Moment-Generating Function, MGF)
MX(t)=E[etX]=pet1+(1p)et0=pet+1p M_X(t) = E[e^{tX}] = p \cdot e^{t \cdot 1} + (1-p) \cdot e^{t \cdot 0} = pe^t + 1-p
ϕX(t)=E[eitX]=peit+1p \phi_X(t) = E[e^{itX}] = pe^{it} + 1-p

特征函数在中心极限定理等理论推导中有重要应用。

应用实例

伯努利分布在现实世界中有广泛的应用,作为对任何二元结果事件的建模工具:

  • 医学研究:在临床试验中,单个患者对治疗是否产生积极反应(是/否)可以被建模为一个伯努利变量。多个患者的反应则构成二项分布。
  • 质量控制:从生产线上抽取的单个产品是否为次品(是/否)。制造商通过伯努利模型来监控产品合格率。
  • 金融学:在信用风险模型中,单一贷款在未来一年内是否发生违约(违约/不违约),是信用评分模型的核心假设。
  • 机器学习逻辑回归 (Logistic Regression) 模型的输出本质上是对伯努利分布参数 p p 的估计,用于二分类问题。
  • 市场营销:一个潜在客户在看到广告后是否会点击链接(点击/未点击),用于点击率 (CTR) 预测。

与其他分布的关系

伯努利分布是构建其他更重要分布的基础单元:

  • 二项分布 (Binomial Distribution):这是与伯努利分布最直接相关的分布。二项分布描述了在 n n 独立同分布 (i.i.d.) 的伯努利试验中,"成功"的总次数。如果 X1,X2,,Xn X_1, X_2, \ldots, X_n n n 个独立的、服从同一参数 p p 的伯努利分布的随机变量,那么它们的和 Y=i=1nXi Y = \sum_{i=1}^n X_i 就服从一个参数为 (n,p) (n, p) 的二项分布,记为 YB(n,p) Y \sim \text{B}(n, p) 。因此,伯努利分布可以看作是二项分布在 n=1 n=1 时的特例,即 Bernoulli(p)B(1,p) \text{Bernoulli}(p) \equiv \text{B}(1, p)
  • 几何分布 (Geometric Distribution):几何分布描述了为了获得第一次成功,需要进行的独立伯努利试验的次数。例如,抛掷一枚硬币直到出现正面所需的抛掷次数服从几何分布。
  • 负二项分布 (Negative Binomial Distribution):负二项分布是几何分布的推广,它描述了为了获得 r r 次成功,需要进行的独立伯努利试验的总次数。
  • 退化分布 (Degenerate Distribution):当 p=0 p=0 p=1 p=1 时,伯努利分布成为一个退化分布,即结果是完全确定的,随机性消失。
  • 泊松分布 (Poisson Distribution):当伯努利试验的成功概率 p p 很小而试验次数 n n 很大时,二项分布(由伯努利试验累加而成)可以近似为泊松分布,这是泊松分布作为稀有事件模型的来源。