ARTICLE

Binomial distribution

二项分布 (Binomial Distribution) 二项分布（Binomial Distribution）是概率论与数理统计中最重要的离散概率分布之一，它描述了在公式次独立重复的伯努利试验中恰好获得公式次"成功"的概率。二项分布的名称来源于二项式定理，因为其概率质量函数恰好是二项式公式展开中的各项。该分布最早由瑞士数学家雅各布·伯努利（Ja

浏览 0 更新 2025-10-26

二项分布 (Binomial Distribution)

二项分布（Binomial Distribution）是概率论与数理统计中最重要的离散概率分布之一，它描述了在 $n$ 次独立重复的伯努利试验中恰好获得 $k$ 次"成功"的概率。二项分布的名称来源于二项式定理，因为其概率质量函数恰好是二项式 $(p + (1-p))^n$ 展开中的各项。该分布最早由瑞士数学家雅各布·伯努利（Jakob Bernoulli，1654--1705）在其开创性著作《猜度术》（Ars Conjectandi，1713 年出版）中系统研究，并由此奠定了大数定律的雏形。如今，二项分布广泛应用于质量控制、临床医学、社会调查、机器学习分类评估以及金融风险管理等众多领域。

定义

若进行 $n$ 次独立的伯努利试验，每次试验的成功概率均为 $p$ ，令随机变量 $X$ 表示 $n$ 次试验中成功的总次数，则称 $X$ 服从参数为 $n$ 和 $p$ 的二项分布，记为：

X \sim \text{Binomial}(n, p), \quad n \in \mathbb{N}^+,\; p \in [0, 1]

概率质量函数

二项分布的概率质量函数（Probability Mass Function, PMF）给出恰好 $k$ 次成功的概率：

P(X = k) = \binom{n}{k} \, p^k \, (1-p)^{n-k}, \quad k = 0, 1, 2, \dots, n

其中二项式系数 $\binom{n}{k} = \frac{n!}{k!\,(n-k)!}$ 表示从 $n$ 次试验中选出 $k$ 次"成功"的方式总数。该公式的推导直观：任何一条恰好 $k$ 次成功、 $n-k$ 次失败的特定序列的概率为 $p^k(1-p)^{n-k}$ ，而这样的序列共有 $\binom{n}{k}$ 条，且互不相交。

基本性质

期望与方差

二项分布的期望和方差具有简洁的封闭形式：

\mathbb{E}[X] = np, \qquad \text{Var}(X) = np(1-p)

期望的推导可利用线性性质：将 $X$ 分解为 $n$ 个独立伯努利变量之和 $X = \sum_{i=1}^n X_i$ ，其中 $X_i \sim \text{Bernoulli}(p)$ ，则 $\mathbb{E}[X] = \sum \mathbb{E}[X_i] = np$ 。方差的推导类似：由于各 $X_i$ 独立， $\text{Var}(X) = \sum \text{Var}(X_i) = np(1-p)$ 。

矩生成函数与累积生成函数

二项分布的矩生成函数（Moment Generating Function, MGF）为：

M_X(t) = \mathbb{E}[e^{tX}] = (1-p + p e^{t})^n

由此可方便地导出各阶矩，例如 $\mathbb{E}[X^2] = M''_X(0) = np(1-p) + n^2p^2$ 。其累积生成函数为 $\psi(t) = n \ln(1-p + p e^{t})$ 。

偏度与峰度

二项分布的偏度（Skewness）和峰度（Kurtosis）分别为：

\gamma_1 = \frac{1-2p}{\sqrt{np(1-p)}}, \qquad \gamma_2 = 3 + \frac{1-6p(1-p)}{np(1-p)}

当 $p = 0.5$ 时，分布对称，偏度为零；当 $p < 0.5$ 时分布右偏， $p > 0.5$ 时左偏。随着 $n$ 增大，偏度和超值峰度均趋于零，分布逐渐逼近正态分布。

分布形态

二项分布的形态随参数 $n$ 和 $p$ 的变化而呈现丰富的多样性。

对称性： 当 $p = 0.5$ 时，概率质量函数关于 $k = n/2$ 完全对称；当 $p \neq 0.5$ 时分布呈现偏态， $p$ 越偏离 0.5，偏斜程度越大。

多众数性： 二项分布可能有一个或两个众数（最可能取值）。众数 $m$ 满足：

(n+1)p - 1 \leq m \leq (n+1)p

若 $(n+1)p$ 为整数，则 $m = (n+1)p - 1$ 和 $m = (n+1)p$ 均为众数，此时分布呈双峰状；否则存在唯一的整数众数 $m = \lfloor (n+1)p \rfloor$ 。

单调性： 概率质量函数先从 $k = 0$ 单调递增至众数，再单调递减至 $k = n$ ，呈单峰形态（ $p = 0$ 或 $p = 1$ 的退化情形除外）。

重要定理与极限性质

棣莫弗--拉普拉斯定理

棣莫弗--拉普拉斯定理（De Moivre--Laplace Theorem）是中心极限定理在二项分布上的特例。该定理表明，当 $n$ 充分大时，标准化的二项随机变量近似服从标准正态分布：

\frac{X - np}{\sqrt{np(1-p)}} \xrightarrow{d} \mathcal{N}(0, 1), \quad n \to \infty

这一定理最早由亚伯拉罕·棣莫弗（Abraham de Moivre）在 1733 年发现，后由皮埃尔-西蒙·拉普拉斯（Pierre-Simon Laplace）推广，为统计推断中广泛使用的正态近似提供了理论基础。实践中，当 $np \geq 5$ 且 $n(1-p) \geq 5$ 时，正态近似通常已足够精确。

泊松近似

当试验次数 $n$ 很大而成功概率 $p$ 很小时（即 $np = \lambda$ 为常数），二项分布收敛于参数为 $\lambda$ 的泊松分布：

\binom{n}{k} p^k (1-p)^{n-k} \approx \frac{e^{-\lambda} \lambda^k}{k!}, \quad n \to \infty,\; p \to 0

这称为泊松极限定理（Poisson Limit Theorem）或"小数定律"，是稀有事件建模的重要依据。该近似在 $n \geq 100$ 、 $p \leq 0.01$ 且 $np \leq 20$ 时效果尤佳。

与其它分布的关系

二项分布构成了概率分布网络中的枢纽节点，与众多分布之间存在深刻联系。

伯努利分布： 当 $n = 1$ 时， $\text{Binomial}(1, p)$ 即退化为 $\text{Bernoulli}(p)$ 。

多项分布： 多项分布（Multinomial Distribution）是二项分布从二元结果向多元结果的直接推广，描述 $n$ 次独立试验中 $m$ 个类别的计数分布。

负二项分布： 负二项分布（Negative Binomial Distribution）描述达到固定成功次数所需的失败次数，与二项分布构成对偶关系。

超几何分布： 当从有限总体中无放回抽样时，成功次数的分布为超几何分布（Hypergeometric Distribution）。当总体容量 $N \to \infty$ 时，超几何分布趋近于二项分布。

贝塔分布： 在贝叶斯统计中，贝塔分布是二项分布似然函数的共轭先验。若 $X \sim \text{Binomial}(n, p)$ 且先验 $p \sim \text{Beta}(\alpha, \beta)$ ，则后验分布为 $p \mid X \sim \text{Beta}(\alpha + X, \beta + n - X)$ 。

参数估计

点估计

对于二项分布参数 $p$ ，最常用的估计量是极大似然估计（MLE）：

\hat{p}_{\text{MLE}} = \frac{X}{n}

其中 $X$ 为观测到的成功次数。该估计量是无偏的（ $\mathbb{E}[\hat{p}] = p$ ），方差为 $\text{Var}(\hat{p}) = p(1-p)/n$ 。在贝叶斯框架下，若采用 $\text{Beta}(\alpha, \beta)$ 先验，后验均值估计为 $\hat{p}_{\text{Bayes}} = (X + \alpha)/(n + \alpha + \beta)$ 。

区间估计

二项分布的比例（ $p$ ）的置信区间构造有多种方法。Wald 区间（Wald Interval）是最基础的近似方法：

\hat{p} \pm z_{\alpha/2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}

但其覆盖率在 $p$ 接近 0 或 1 时严重不足。更稳健的替代方案包括Wilson 区间（Wilson Interval）、Agresti-Coull 区间以及Clopper-Pearson 精确区间（基于F 分布构造），后者虽保守但保证了名义置信水平。

应用场景

二项分布的应用横跨自然科学与社会科学诸领域。

质量控制： 在制造业中，从一批产品中随机抽取 $n$ 件进行检验，记录不合格品数量。利用二项分布可构造控制图（ $p$ -chart）并实施验收抽样方案。

临床试验： 在药物有效性评价中，将 $n$ 名患者随机分为治疗组和对照组，记录治疗成功的例数。二项分布用于计算统计功效和样本量，以及进行有效性假设检验。

流行病学： 疾病发病率、感染率的估计与比较常基于二项分布模型。例如估计某地区某种疾病的患病率，或比较两种干预措施的感染率差异。

机器学习： 在分类问题中，准确率、精确率和召回率等评估指标均可用二项分布建模，用于计算评估指标的置信区间和进行模型比较的假设检验。

金融风险管理： 信用风险建模中，违约事件可视为伯努利试验，一定时期内（如一年）的违约次数服从二项分布，是信用风险度量模型（如 CreditRisk+）的基础。

生态学与野生动物管理： 在捕获-再捕获（Capture-Recapture）方法中，标记个体在二次捕获样本中的出现次数服从超几何分布，在大样本下可用二项分布近似。

民意调查与选举预测： 政党支持率、政策赞成率等民意指标的估计均基于二项分布模型。调查的误差范围（Margin of Error）直接源于二项分布的标准差公式 $\sqrt{p(1-p)/n}$ 。

计算与数值问题

现代统计计算中，二项分布概率的计算通常借助内置函数（如 R 的 \texttt{dbinom()}、Python SciPy 的 \texttt{scipy.stats.binom.pmf()}），这些实现采用对数伽玛函数等数值稳定的算法。当 $n$ 极大（如 $n > 10^6$ ）时，直接计算二项式系数可能导致数值溢出，此时宜使用正态近似或泊松近似，或采用对数尺度计算。

累计分布函数（CDF）的计算需要求和概率质量函数或利用不完全贝塔函数的正则化形式：

P(X \leq k) = I_{1-p}(n-k, k+1)

其中 $I_x(a,b)$ 为正则化不完全贝塔函数。这一关系将二项分布的累计概率计算转化为连续分布的计算，数值更为稳定。

模拟与重采样

在蒙特卡洛模拟中，生成二项分布随机数的一种高效方法是先产生 $n$ 个 $\text{Bernoulli}(p)$ 变量再求和。当 $n$ 很大时，可利用二项分布的正态近似或逆变换法（Inverse Transform Method）生成。在Bootstrap重采样中，二项分布权重法（Bayesian Bootstrap）通过 Dirichlet 权重替代传统的多项式权重，其先验可视为 Dirichlet 分布，与二项分布似然形成共轭关系。

历史注记

二项分布的历史可追溯至 17 世纪。布莱兹·帕斯卡（Blaise Pascal）和皮埃尔·德·费马（Pierre de Fermat）在 1654 年的书信往来中讨论了点问题（Problem of Points），其中隐含了二项分布的思想。雅各布·伯努利在《猜度术》中正式奠定了二项分布的理论基础，并证明了大数定律的一个早期版本：随着试验次数 $n$ 的增加，观测到的成功频率 $\hat{p}$ 趋近于真实概率 $p$ 。18 世纪，棣莫弗进一步发展了正态近似，发现了如今称为棣莫弗--拉普拉斯定理的结果。19 世纪，弗朗西斯·高尔顿（Francis Galton）和卡尔·皮尔逊（Karl Pearson）将二项分布引入生物统计学和优生学，推动了推断统计学的发展。进入 20 世纪，二项分布成为假设检验和置信区间理论的基石，并在工业革命后的质量控制运动中发挥关键作用。

二项分布以其简洁的定义、丰富的数学性质和广泛的应用场景，不仅是概率论课程的核心内容，更是在各学科数据分析实践中不可或缺的工具。从抛硬币到基因遗传，从产品质量检验到人工智能模型评估，二项分布始终是连接理论与实践的桥梁。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。