ARTICLE

二项随机变量

二项随机变量 (Binomial Random Variable) 二项随机变量是概率论中最重要的离散随机变量之一,它刻画了 n 次独立重复的伯努利试验中成功总次数的概率规律。若以瑞士数学家雅各布·伯努利命名的伯努利分布是概率大厦的一块砖石,则二项分布便是由这些砖石砌成的一道承重墙:它将单次二元试验的不确定性系统地推广到重复试验的累积效应,从而构成了统计推断

浏览 0 更新 2025-10-26

二项随机变量 (Binomial Random Variable)

二项随机变量概率论中最重要的离散随机变量之一,它刻画了 nn 次独立重复的伯努利试验中成功总次数的概率规律。若以瑞士数学家雅各布·伯努利命名的伯努利分布是概率大厦的一块砖石,则二项分布便是由这些砖石砌成的一道承重墙:它将单次二元试验的不确定性系统地推广到重复试验的累积效应,从而构成了统计推断中比例估计、假设检验和抽样调查的理论根基。

若随机变量 XX 表示 nn 次独立伯努利试验中成功的总次数,且每次试验的成功概率均为 p[0,1]p \in [0, 1],则称 XX 服从参数为 nnpp 的二项分布,记作:

XBinomial(n,p)X \sim \mathrm{Binomial}(n, p)

n=1n = 1 时,二项分布退化为 Bernoulli(p)\mathrm{Bernoulli}(p)。因此,伯努利分布是二项分布在 n=1n=1 时的特例,而二项分布是 nn 个独立同分布伯努利变量之和的分布。

概率质量函数

XBinomial(n,p)X \sim \mathrm{Binomial}(n, p),则其概率质量函数为:

P(X=k)=(nk)pk(1p)nk,k=0,1,2,,nP(X = k) = \binom{n}{k} p^k (1-p)^{n-k}, \quad k = 0, 1, 2, \ldots, n

其中 (nk)=n!k!(nk)!\binom{n}{k} = \frac{n!}{k!(n-k)!} 为二项式系数,表示在 nn 次试验中恰好出现 kk 次成功的不同序列数目。令 q=1pq = 1-p,PMF 的三个乘因子的含义可拆解为:

  • (nk)\binom{n}{k}:从 nn 个位置中选出 kk 个作为成功位置的方案数;
  • pkp^kkk 次成功同时发生的联合概率;
  • qnkq^{n-k}:剩余 nkn-k 次失败同时发生的联合概率。

二项分布的名称来源于代数学中的二项式定理

(p+q)n=k=0n(nk)pkqnk(p + q)^n = \sum_{k=0}^n \binom{n}{k} p^k q^{n-k}

因此 PMF 各项之和为 (p+q)n=1(p+q)^n = 1,概率归一性自然成立。这一代数结构不仅保证了分布的良定性,也为矩母函数和特征函数的推导提供了直接路径。

数字特征

由于二项随机变量可表示为独立伯努利变量之和 X=i=1nXiX = \sum_{i=1}^n X_i,其中 XiiidBernoulli(p)X_i \overset{\mathrm{iid}}{\sim} \mathrm{Bernoulli}(p),其数字特征可由伯努利分布的基本结果配合独立性和线性运算直接导出。

期望

E[X]=E[i=1nXi]=i=1nE[Xi]=i=1np=np\mathbb{E}[X] = \mathbb{E}\left[\sum_{i=1}^n X_i\right] = \sum_{i=1}^n \mathbb{E}[X_i] = \sum_{i=1}^n p = np

期望值 npnp 是样本量 nn 与单次成功概率 pp 的乘积——直观上,若掷一枚均匀硬币 100 次,预期正面朝上的次数就是 100×0.5=50100 \times 0.5 = 50

方差

Var(X)=Var(i=1nXi)=i=1nVar(Xi)=i=1np(1p)=npq\operatorname{Var}(X) = \operatorname{Var}\left(\sum_{i=1}^n X_i\right) = \sum_{i=1}^n \operatorname{Var}(X_i) = \sum_{i=1}^n p(1-p) = npq

独立性使协方差项全为零,方差简化为各伯努利方差之和。标准差 npq\sqrt{npq} 衡量了实际成功次数围绕期望 npnp 的波动幅度:绝对波动随 nn 增大而增加(与 n\sqrt{n} 成正比),但相对波动 npqnp1n\frac{\sqrt{npq}}{np} \propto \frac{1}{\sqrt{n}} 随样本量增大而衰减——这正是大数定律的方差视角。

矩母函数

MX(t)=E[etX]=E[exp(ti=1nXi)]=i=1nE[etXi]=(q+pet)nM_X(t) = \mathbb{E}[e^{tX}] = \mathbb{E}\left[\exp\left(t\sum_{i=1}^n X_i\right)\right] = \prod_{i=1}^n \mathbb{E}[e^{tX_i}] = (q + pe^t)^n

MGF 在 R\mathbb{R} 上处处有限,因此二项分布的所有阶矩均存在。MGF 的乘积形式直接揭示了二项分布的可加性(见下文)。

特征函数

φX(t)=E[eitX]=(q+peit)n\varphi_X(t) = \mathbb{E}[e^{itX}] = (q + pe^{it})^n

特征函数是推导中心极限定理(De Moivre--Laplace 定理)的核心工具,也是证明二项分布向泊松分布和正态分布收敛的出发点。

偏度与峰度

Skew(X)=qpnpq=12pnp(1p),Kurt(X)=3+16pqnpq\mathrm{Skew}(X) = \frac{q - p}{\sqrt{npq}} = \frac{1 - 2p}{\sqrt{np(1-p)}}, \qquad \mathrm{Kurt}(X) = 3 + \frac{1 - 6pq}{npq}

p=0.5p = 0.5 时分布对称,偏度为零;当 p<0.5p < 0.5 时右偏(长尾在右侧),p>0.5p > 0.5 时左偏。偏度的绝对值随 nn 增大以 1/n1/\sqrt{n} 的速率衰减——这是中心极限定理在偏度层面的表现:随着 nn 增大,二项分布逐渐对称化。超额峰度 16pqnpq\frac{1-6pq}{npq} 同样以 1/n1/n 的速率趋于零,分布趋于正态的 3 阶峰度。

累积分布函数与分位数

二项分布的累积分布函数无简单闭式解,但可借助不完全 Beta 函数表达:

F(k)=P(Xk)=j=0k(nj)pj(1p)nj=I1p(nk,k+1)F(k) = P(X \le k) = \sum_{j=0}^k \binom{n}{j} p^j (1-p)^{n-j} = I_{1-p}(n-k, k+1)

其中 Ix(a,b)I_x(a, b)正则化不完全 Beta 函数。这一恒等式在计算二项分布的精确置信区间(如 Clopper--Pearson 区间)时至关重要,因为它将离散求和的数值困难转化为连续 Beta 函数的求值问题。

二项分布的分位数通常无封闭形式,需通过数值方法(如 Newton--Raphson)或正态近似求解。在统计软件中,二项分位数的计算是假设检验(如二项检验)和置信区间构造的基础。

与其他分布的关系

二项分布是整个离散分布网络中的关键节点,与多种分布存在深刻的推导关系:

  1. 伯努利分布Binomial(1,p)=Bernoulli(p)\mathrm{Binomial}(1, p) = \mathrm{Bernoulli}(p)。二项分布是 nn 个独立伯努利变量之和,这一构造是理解二项分布一切性质的逻辑起点。
  2. 泊松分布(稀有事件极限):当 nn \to \inftyp0p \to 0npλ>0np \to \lambda > 0 时, Binomial\mathrm{Binomial}(n, p) \xrightarrow{d} Poisson\mathrm{Poisson}(λ\lambda) 此即泊松极限定理,适用范围为 nn 大、pp 小的稀有事件场景(如保险理赔次数、放射性衰变计数)。实际操作中,当 n20n \ge 20p0.05p \le 0.05(或 n100n \ge 100np10np \le 10)时,泊松近似便已足够精确。
  3. 正态分布(De Moivre--Laplace 定理):当 nn \to \inftypp 固定且不趋近于 0 或 1 时, \[ \frac{X - np}{\sqrt{npq}} \xrightarrow{d} \mathcal{N}(0, 1) \] 这是中心极限定理最早的实例(1733 年由棣莫弗提出,1812 年由拉普拉斯推广)。正态近似在实践中极为常用:一般要求 np5np \ge 5nq5nq \ge 5(更保守的标准要求 npq10npq \ge 10)。连续性校正(将 P(Xk)P(X \le k) 近似为 Φ(k+0.5npnpq)\Phi\left(\frac{k+0.5 - np}{\sqrt{npq}}\right))可显著提升近似精度。
  4. 负二项分布:二项分布关注固定试验次数下的成功次数,负二项分布关注固定成功次数下所需的试验总次数。两者共享相同的 pp 参数,但随机变量的定义互补:前者固定 nnXX 随机,后者固定成功次数 rr 而试验次数随机。这一对偶关系使得二项检验和负二项检验在生物统计学中构成假设检验的对称工具。
  5. 超几何分布:当从有限总体中进行不放回抽样时,成功次数服从超几何分布。当总体容量远大于样本量(NnN \gg n)时,超几何分布趋近于二项分布。这一关系是抽样调查中有限总体校正因子的理论基础。
  6. 多项分布:二项分布是多项分布在类别数 K=2K = 2 时的退化情形。多项分布将二元的"成功/失败"推广到多类别(每次试验从 KK 个互斥结果中选择一个),其 PMF 为: \[ P(X_1 = k_1, \ldots, X_K = k_K) = \frac{n!}{k_1! \cdots k_K!} p_1^{k_1} \cdots p_K^{k_K} \]
  7. Beta-Binomial 分布:当成功概率 pp 本身被视为随机变量(服从 Beta 先验)时,边际分布为 Beta-Binomial,即二项分布在贝叶斯框架下的自然推广(见下文贝叶斯推断部分)。

可加性与卷积

二项分布具备优美的可加性:若 XBinomial(n1,p)X \sim \mathrm{Binomial}(n_1, p)YBinomial(n2,p)Y \sim \mathrm{Binomial}(n_2, p) 独立且具有相同的成功概率 pp,则

X+YBinomial(n1+n2,p)X + Y \sim \mathrm{Binomial}(n_1 + n_2, p)

这一性质直接来自 MGF 的乘积形式或伯努利变量的直接求和:XXn1n_1 个伯努利变量之和,YYn2n_2 个之和,两者合并即 n1+n2n_1 + n_2 个伯努利变量之和。该性质在 A/B 测试的样本量合并、多阶段临床试验的数据汇总等场景中频繁应用。

注意:若 pp 不同,则和分布不再为二项分布,需通过离散卷积计算,一般无闭式解,但可用正态近似或数值方法处理。

极大似然估计

给定观测值 kknn 固定),似然函数为:

L(pk,n)=(nk)pk(1p)nkpk(1p)nkL(p \mid k, n) = \binom{n}{k} p^k (1-p)^{n-k} \propto p^k (1-p)^{n-k}

对数似然:

(p)=klnp+(nk)ln(1p)+常数\ell(p) = k \ln p + (n-k) \ln(1-p) + \text{常数}

一阶条件:

ddp=kpnk1p=0\frac{d\ell}{dp} = \frac{k}{p} - \frac{n-k}{1-p} = 0

解得 MLE:

p^MLE=kn\hat{p}_{\mathrm{MLE}} = \frac{k}{n}

即样本成功比例。这是最自然不过的估计量:用实际观测频率去估计真实概率。其方差为:

Var(p^)=p(1p)n\operatorname{Var}(\hat{p}) = \frac{p(1-p)}{n}

估计量的精度以 1/n1/\sqrt{n} 的速率提升——要将估计精度提高一位小数,样本量需扩大一百倍。

Fisher 信息量为:

I(p)=E[d2dp2]=np(1p)I(p) = -\mathbb{E}\left[\frac{d^2\ell}{dp^2}\right] = \frac{n}{p(1-p)}

由此可得 MLE 的渐近方差 Var(p^)1/I(p)=p(1p)n\operatorname{Var}(\hat{p}) \approx 1/I(p) = \frac{p(1-p)}{n},即 Cramér--Rao 下界在本模型中是可以达到的。

假设检验与置信区间

二项分布是单样本比例检验和二样本比例比较的理论基础。

单样本比例检验:检验 H0:p=p0H_0: p = p_0 时,可基于精确二项分布计算 pp 值(二项检验),或在大样本下使用 Wald 统计量:

z=p^p0p0(1p0)/ndN(0,1)z = \frac{\hat{p} - p_0}{\sqrt{p_0(1-p_0)/n}} \xrightarrow{d} \mathcal{N}(0, 1)

得分检验(Score test)以其优于 Wald 检验的小样本性质 —— 在样本量较小时仍能维持第一类错误率接近名义水平 —— 而受到推荐,其统计量为 p^p0p0(1p0)/n\frac{\hat{p} - p_0}{\sqrt{p_0(1-p_0)/n}},但分母中的标准误始终使用原假设下的 p0p_0 而非估计值 p^\hat{p}

置信区间:二项比例的置信区间构造是一个看似简单实则微妙的问题:

  • Wald 区间p^±zα/2p^(1p^)/n\hat{p} \pm z_{\alpha/2} \sqrt{\hat{p}(1-\hat{p})/n},最为常见,但在 pp 接近 0 或 1 时覆盖概率严重偏离名义水平,且可能越出 [0,1][0, 1] 区间。
  • Wilson 得分区间:通过求解得分检验的反演获得,在绝大多数场景下覆盖概率优于 Wald 区间,且自动约束在 [0,1][0,1] 内。
  • Clopper--Pearson 精确区间:基于二项分布的精确分位数,保证覆盖概率至少为 1α1-\alpha(保守性导致区间偏宽)。
  • Agresti--Coull 区间:在 Wald 区间的基础上添加两个伪观测(一个成功、一个失败),计算简单且小样本性能良好。

贝叶斯推断与共轭先验

贝叶斯统计中,二项似然与 Beta 先验构成共轭对。取先验:

pBeta(α,β),π(p)pα1(1p)β1p \sim \mathrm{Beta}(\alpha, \beta), \quad \pi(p) \propto p^{\alpha-1} (1-p)^{\beta-1}

则在观测到 kk 次成功(nn 次试验)后,后验分布维持 Beta 形式:

pdataBeta(α+k, β+nk)p \mid \text{data} \sim \mathrm{Beta}(\alpha + k, \ \beta + n - k)

后验均值:

E[pdata]=α+kα+β+n\mathbb{E}[p \mid \text{data}] = \frac{\alpha + k}{\alpha + \beta + n}

这一公式优雅地揭示了贝叶斯推断的"折衷"本质:后验均值是先验均值 αα+β\frac{\alpha}{\alpha+\beta} 与样本均值 kn\frac{k}{n} 的加权平均,权重分别正比于先验精度 α+β\alpha+\beta 和样本量 nn。当 nn \to \infty 时,后验收缩至 MLE,先验影响消失,贝叶斯推断渐近地与频率学派推断一致。

无信息先验的常见选取包括:拉普拉斯先验 Beta(1,1)\mathrm{Beta}(1,1)(即均匀分布)、Jeffreys 先验 Beta(0.5,0.5)\mathrm{Beta}(0.5, 0.5)(由 Fisher 信息的平方根导出),以及 Haldane 先验 Beta(0,0)\mathrm{Beta}(0, 0)(不当先验,后验仅在 k1k \ge 1nk1n-k \ge 1 时良定)。

条件分布与充分统计量

给定 nn 次试验的总成功次数 X=sX = s,各次试验的结果并非独立——总和的约束引入了负相关性。具体而言,若 X=X1+X2X = X_1 + X_2,其中 X1Binomial(n1,p)X_1 \sim \mathrm{Binomial}(n_1, p)X2Binomial(n2,p)X_2 \sim \mathrm{Binomial}(n_2, p) 独立,则在 X1+X2=sX_1 + X_2 = s 的条件下:

X1(X1+X2=s)Hypergeometric(N=n1+n2,K=s,n=n1)X_1 \mid (X_1 + X_2 = s) \sim \mathrm{Hypergeometric}(N=n_1+n_2, K=s, n=n_1)

这一条件分布不依赖于 pp,因此 X1+X2X_1 + X_2 是关于 pp充分统计量 —— 它从样本中提取了关于 pp 的全部信息,各子组的内部构成不提供额外的参数信息。这一性质是Fisher精确检验的理论基础:通过将两个二项样本的联合分布条件化于边缘和之上,可消去讨厌参数 pp,构造不依赖于未知参数的精确检验。

应用场景

二项分布在统计学、自然科学和社会科学中无处不在:

  1. A/B 测试与转化率优化:每个用户是否点击、注册或购买是一次伯努利试验,实验组与对照组的转化次数分别服从二项分布。双样本比例检验和样本量计算(功效分析)直接建立在二项模型之上。
  2. 质量控制与抽样验收:从一批 NN 件产品中抽取 nn 件,检出的不合格品数近似服从二项分布(当 NnN \gg n 时)。依据可接受质量水平 (AQL) 和批允许不合格品率 (LTPD) 制定抽样方案,是统计过程控制的核心任务。
  3. 医学统计与临床试验:药物响应率、手术成功率、不良事件发生率均以二项模型估计。Simon 两阶段设计(用于 II 期临床试验)通过预设的二项分布拒绝边界,在控制功效的前提下最小化期望样本量。
  4. 选举预测与民意调查:候选人支持率的估计、调查误差边际的计算(±3%\pm 3\% 之类),均基于二项分布的正态近似。分层抽样和后分层校正等技术则是在二项框架上增加方差修正层。
  5. 遗传学:孟德尔遗传定律中,杂交后代特定基因型的分离比(如 3:1 的显隐性比)可通过二项检验验证。Hardy--Weinberg 平衡的检验统计量也建立在多项/二项分布的基础上。
  6. 机器学习:二元分类器的预测准确率评估(在固定测试集上,正确预测数服从二项分布),以及集成方法中的投票分类器——当各基分类器独立且准确率 p>0.5p > 0.5 时,多数投票的准确率随基分类器数量 nn 增加而指数级趋向 1(Condorcet 陪审团定理)。
  7. 金融风险建模信用风险中的违约计数模型——假设 nn 笔独立贷款中每笔的违约概率相同,违约总笔数即服从二项分布。这是 Vasicek 模型和 Basel 监管资本公式的基础构件,尽管实践中相关性(超出独立假设的风险)需通过混合模型(如 Beta-Binomial)进一步刻画。

历史注记

二项分布的历史可追溯至 17 世纪末。雅各布·伯努利在其遗著《猜度术》(Ars Conjectandi,1713 年出版)中不仅研究了单次伯努利试验的性质,更深刻洞察到独立重复试验的经验规律——即后世所称的伯努利大数定律:当试验次数趋于无穷时,成功频率依概率收敛于真实概率 pp。这一成果是概率论从赌博游戏走向严谨数学科学的里程碑。

1733 年,法国数学家棣莫弗(Abraham de Moivre)在研究二项概率的近似计算时,发现了二项分布向正态曲线收敛的规律——这实际上是中心极限定理在数学史上最早的实例。棣莫弗在其 Approximatio ad Summam Terminorum Binomii 一文中,利用 Stirling 公式 对二项式系数 (nk)\binom{n}{k} 进行渐近展开,导出了误差函数的雏形。1812 年,拉普拉斯将这一结论严格化并推广为一般形式,从而奠定了正态近似在统计推断中的核心地位。

从伯努利的大数定律到棣莫弗的正态近似,再到皮尔逊的 χ2\chi^2 检验和 Fisher 的精确检验,二项分布在统计学发展史的每一个关键节点都扮演着不可替代的角色。它简单到只需两个参数即可完整描述,却又深刻到足以承载频率学派的渐近理论、贝叶斯学派的共轭结构和现代数据科学的大规模推断——这正是它历经三个世纪而生命力不衰的根本原因。