ARTICLE

Binomial distribution

二项分布 (Binomial Distribution) 二项分布(Binomial Distribution)是概率论与数理统计中最重要的离散概率分布之一,它描述了在 n 次独立重复的伯努利试验中恰好获得 k 次"成功"的概率。二项分布的名称来源于二项式定理,因为其概率质量函数恰好是二项式 (p + (1-p))^n 展开中的各项。该分布最早由瑞士数学家雅

浏览 0 更新 2025-10-26

二项分布 (Binomial Distribution)

二项分布(Binomial Distribution)是概率论数理统计中最重要的离散概率分布之一,它描述了在 n n 次独立重复的伯努利试验中恰好获得 k k 次"成功"的概率。二项分布的名称来源于二项式定理,因为其概率质量函数恰好是二项式 (p+(1p))n (p + (1-p))^n 展开中的各项。该分布最早由瑞士数学家雅各布·伯努利(Jakob Bernoulli,1654--1705)在其开创性著作《猜度术》(Ars Conjectandi,1713 年出版)中系统研究,并由此奠定了大数定律的雏形。如今,二项分布广泛应用于质量控制、临床医学、社会调查、机器学习分类评估以及金融风险管理等众多领域。

定义

若进行 n n 次独立的伯努利试验,每次试验的成功概率均为 p p ,令随机变量 X X 表示 n n 次试验中成功的总次数,则称 X X 服从参数为 n n p p 的二项分布,记为:

XBinomial(n,p),nN+,  p[0,1]X \sim \text{Binomial}(n, p), \quad n \in \mathbb{N}^+,\; p \in [0, 1]

概率质量函数

二项分布的概率质量函数(Probability Mass Function, PMF)给出恰好 k k 次成功的概率:

P(X=k)=(nk)pk(1p)nk,k=0,1,2,,nP(X = k) = \binom{n}{k} \, p^k \, (1-p)^{n-k}, \quad k = 0, 1, 2, \dots, n

其中二项式系数 (nk)=n!k!(nk)! \binom{n}{k} = \frac{n!}{k!\,(n-k)!} 表示从 n n 次试验中选出 k k 次"成功"的方式总数。该公式的推导直观:任何一条恰好 k k 次成功、nk n-k 次失败的特定序列的概率为 pk(1p)nk p^k(1-p)^{n-k} ,而这样的序列共有 (nk) \binom{n}{k} 条,且互不相交。

基本性质

期望与方差

二项分布的期望方差具有简洁的封闭形式:

E[X]=np,Var(X)=np(1p)\mathbb{E}[X] = np, \qquad \text{Var}(X) = np(1-p)

期望的推导可利用线性性质:将 X X 分解为 n n 个独立伯努利变量之和 X=i=1nXi X = \sum_{i=1}^n X_i ,其中 XiBernoulli(p) X_i \sim \text{Bernoulli}(p) ,则 E[X]=E[Xi]=np \mathbb{E}[X] = \sum \mathbb{E}[X_i] = np 。方差的推导类似:由于各 Xi X_i 独立,Var(X)=Var(Xi)=np(1p) \text{Var}(X) = \sum \text{Var}(X_i) = np(1-p)

矩生成函数与累积生成函数

二项分布的矩生成函数(Moment Generating Function, MGF)为:

MX(t)=E[etX]=(1p+pet)nM_X(t) = \mathbb{E}[e^{tX}] = (1-p + p e^{t})^n

由此可方便地导出各阶矩,例如 E[X2]=MX(0)=np(1p)+n2p2 \mathbb{E}[X^2] = M''_X(0) = np(1-p) + n^2p^2 。其累积生成函数ψ(t)=nln(1p+pet) \psi(t) = n \ln(1-p + p e^{t})

偏度与峰度

二项分布的偏度(Skewness)和峰度(Kurtosis)分别为:

γ1=12pnp(1p),γ2=3+16p(1p)np(1p)\gamma_1 = \frac{1-2p}{\sqrt{np(1-p)}}, \qquad \gamma_2 = 3 + \frac{1-6p(1-p)}{np(1-p)}

p=0.5 p = 0.5 时,分布对称,偏度为零;当 p<0.5 p < 0.5 时分布右偏,p>0.5 p > 0.5 时左偏。随着 n n 增大,偏度和超值峰度均趋于零,分布逐渐逼近正态分布。

分布形态

二项分布的形态随参数 n n p p 的变化而呈现丰富的多样性。

对称性:p=0.5 p = 0.5 时,概率质量函数关于 k=n/2 k = n/2 完全对称;当 p0.5 p \neq 0.5 时分布呈现偏态,p p 越偏离 0.5,偏斜程度越大。

多众数性: 二项分布可能有一个或两个众数(最可能取值)。众数 m m 满足:

(n+1)p1m(n+1)p(n+1)p - 1 \leq m \leq (n+1)p

(n+1)p (n+1)p 为整数,则 m=(n+1)p1 m = (n+1)p - 1 m=(n+1)p m = (n+1)p 均为众数,此时分布呈双峰状;否则存在唯一的整数众数 m=(n+1)p m = \lfloor (n+1)p \rfloor

单调性: 概率质量函数先从 k=0 k = 0 单调递增至众数,再单调递减至 k=n k = n ,呈单峰形态(p=0 p = 0 p=1 p = 1 的退化情形除外)。

重要定理与极限性质

棣莫弗--拉普拉斯定理

棣莫弗--拉普拉斯定理(De Moivre--Laplace Theorem)是中心极限定理在二项分布上的特例。该定理表明,当 n n 充分大时,标准化的二项随机变量近似服从标准正态分布:

Xnpnp(1p)dN(0,1),n\frac{X - np}{\sqrt{np(1-p)}} \xrightarrow{d} \mathcal{N}(0, 1), \quad n \to \infty

这一定理最早由亚伯拉罕·棣莫弗(Abraham de Moivre)在 1733 年发现,后由皮埃尔-西蒙·拉普拉斯(Pierre-Simon Laplace)推广,为统计推断中广泛使用的正态近似提供了理论基础。实践中,当 np5 np \geq 5 n(1p)5 n(1-p) \geq 5 时,正态近似通常已足够精确。

泊松近似

当试验次数 n n 很大而成功概率 p p 很小时(即 np=λ np = \lambda 为常数),二项分布收敛于参数为 λ \lambda 泊松分布

(nk)pk(1p)nkeλλkk!,n,  p0\binom{n}{k} p^k (1-p)^{n-k} \approx \frac{e^{-\lambda} \lambda^k}{k!}, \quad n \to \infty,\; p \to 0

这称为泊松极限定理(Poisson Limit Theorem)或"小数定律",是稀有事件建模的重要依据。该近似在 n100 n \geq 100 p0.01 p \leq 0.01 np20 np \leq 20 时效果尤佳。

与其它分布的关系

二项分布构成了概率分布网络中的枢纽节点,与众多分布之间存在深刻联系。

伯努利分布:n=1 n = 1 时,Binomial(1,p) \text{Binomial}(1, p) 即退化为 Bernoulli(p) \text{Bernoulli}(p)

多项分布: 多项分布(Multinomial Distribution)是二项分布从二元结果向多元结果的直接推广,描述 n n 次独立试验中 m m 个类别的计数分布。

负二项分布: 负二项分布(Negative Binomial Distribution)描述达到固定成功次数所需的失败次数,与二项分布构成对偶关系。

超几何分布: 当从有限总体中无放回抽样时,成功次数的分布为超几何分布(Hypergeometric Distribution)。当总体容量 N N \to \infty 时,超几何分布趋近于二项分布。

贝塔分布:贝叶斯统计中,贝塔分布是二项分布似然函数的共轭先验。若 XBinomial(n,p) X \sim \text{Binomial}(n, p) 且先验 pBeta(α,β) p \sim \text{Beta}(\alpha, \beta) ,则后验分布为 pXBeta(α+X,β+nX) p \mid X \sim \text{Beta}(\alpha + X, \beta + n - X)

参数估计

点估计

对于二项分布参数 p p ,最常用的估计量是极大似然估计(MLE):

p^MLE=Xn\hat{p}_{\text{MLE}} = \frac{X}{n}

其中 X X 为观测到的成功次数。该估计量是无偏的(E[p^]=p \mathbb{E}[\hat{p}] = p ),方差为 Var(p^)=p(1p)/n \text{Var}(\hat{p}) = p(1-p)/n 。在贝叶斯框架下,若采用 Beta(α,β) \text{Beta}(\alpha, \beta) 先验,后验均值估计为 p^Bayes=(X+α)/(n+α+β) \hat{p}_{\text{Bayes}} = (X + \alpha)/(n + \alpha + \beta)

区间估计

二项分布的比例(p p )的置信区间构造有多种方法。Wald 区间(Wald Interval)是最基础的近似方法:

p^±zα/2p^(1p^)n\hat{p} \pm z_{\alpha/2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}

但其覆盖率在 p p 接近 0 或 1 时严重不足。更稳健的替代方案包括Wilson 区间(Wilson Interval)、Agresti-Coull 区间以及Clopper-Pearson 精确区间(基于F 分布构造),后者虽保守但保证了名义置信水平。

应用场景

二项分布的应用横跨自然科学与社会科学诸领域。

质量控制: 在制造业中,从一批产品中随机抽取 n n 件进行检验,记录不合格品数量。利用二项分布可构造控制图p p -chart)并实施验收抽样方案。

临床试验: 在药物有效性评价中,将 n n 名患者随机分为治疗组和对照组,记录治疗成功的例数。二项分布用于计算统计功效和样本量,以及进行有效性假设检验。

流行病学: 疾病发病率、感染率的估计与比较常基于二项分布模型。例如估计某地区某种疾病的患病率,或比较两种干预措施的感染率差异。

机器学习: 在分类问题中,准确率精确率召回率等评估指标均可用二项分布建模,用于计算评估指标的置信区间和进行模型比较的假设检验。

金融风险管理: 信用风险建模中,违约事件可视为伯努利试验,一定时期内(如一年)的违约次数服从二项分布,是信用风险度量模型(如 CreditRisk+)的基础。

生态学与野生动物管理: 在捕获-再捕获(Capture-Recapture)方法中,标记个体在二次捕获样本中的出现次数服从超几何分布,在大样本下可用二项分布近似。

民意调查与选举预测: 政党支持率、政策赞成率等民意指标的估计均基于二项分布模型。调查的误差范围(Margin of Error)直接源于二项分布的标准差公式 p(1p)/n \sqrt{p(1-p)/n}

计算与数值问题

现代统计计算中,二项分布概率的计算通常借助内置函数(如 R 的 \texttt{dbinom()}、Python SciPy 的 \texttt{scipy.stats.binom.pmf()}),这些实现采用对数伽玛函数等数值稳定的算法。当 n n 极大(如 n>106 n > 10^6 )时,直接计算二项式系数可能导致数值溢出,此时宜使用正态近似或泊松近似,或采用对数尺度计算。

累计分布函数(CDF)的计算需要求和概率质量函数或利用不完全贝塔函数的正则化形式:

P(Xk)=I1p(nk,k+1)P(X \leq k) = I_{1-p}(n-k, k+1)

其中 Ix(a,b) I_x(a,b) 为正则化不完全贝塔函数。这一关系将二项分布的累计概率计算转化为连续分布的计算,数值更为稳定。

模拟与重采样

蒙特卡洛模拟中,生成二项分布随机数的一种高效方法是先产生 n n Bernoulli(p) \text{Bernoulli}(p) 变量再求和。当 n n 很大时,可利用二项分布的正态近似或逆变换法(Inverse Transform Method)生成。在Bootstrap重采样中,二项分布权重法(Bayesian Bootstrap)通过 Dirichlet 权重替代传统的多项式权重,其先验可视为 Dirichlet 分布,与二项分布似然形成共轭关系。

历史注记

二项分布的历史可追溯至 17 世纪。布莱兹·帕斯卡(Blaise Pascal)和皮埃尔·德·费马(Pierre de Fermat)在 1654 年的书信往来中讨论了点问题(Problem of Points),其中隐含了二项分布的思想。雅各布·伯努利在《猜度术》中正式奠定了二项分布的理论基础,并证明了大数定律的一个早期版本:随着试验次数 n n 的增加,观测到的成功频率 p^ \hat{p} 趋近于真实概率 p p 。18 世纪,棣莫弗进一步发展了正态近似,发现了如今称为棣莫弗--拉普拉斯定理的结果。19 世纪,弗朗西斯·高尔顿(Francis Galton)和卡尔·皮尔逊(Karl Pearson)将二项分布引入生物统计学和优生学,推动了推断统计学的发展。进入 20 世纪,二项分布成为假设检验和置信区间理论的基石,并在工业革命后的质量控制运动中发挥关键作用。

二项分布以其简洁的定义、丰富的数学性质和广泛的应用场景,不仅是概率论课程的核心内容,更是在各学科数据分析实践中不可或缺的工具。从抛硬币到基因遗传,从产品质量检验到人工智能模型评估,二项分布始终是连接理论与实践的桥梁。