ARTICLE
Binomial distribution
二项分布 (Binomial Distribution) 二项分布(Binomial Distribution)是概率论与数理统计中最重要的离散概率分布之一,它描述了在 n 次独立重复的伯努利试验中恰好获得 k 次"成功"的概率。二项分布的名称来源于二项式定理,因为其概率质量函数恰好是二项式 (p + (1-p))^n 展开中的各项。该分布最早由瑞士数学家雅
二项分布 (Binomial Distribution)
二项分布(Binomial Distribution)是概率论与数理统计中最重要的离散概率分布之一,它描述了在 次独立重复的伯努利试验中恰好获得 次"成功"的概率。二项分布的名称来源于二项式定理,因为其概率质量函数恰好是二项式 展开中的各项。该分布最早由瑞士数学家雅各布·伯努利(Jakob Bernoulli,1654--1705)在其开创性著作《猜度术》(Ars Conjectandi,1713 年出版)中系统研究,并由此奠定了大数定律的雏形。如今,二项分布广泛应用于质量控制、临床医学、社会调查、机器学习分类评估以及金融风险管理等众多领域。
定义
若进行 次独立的伯努利试验,每次试验的成功概率均为 ,令随机变量 表示 次试验中成功的总次数,则称 服从参数为 和 的二项分布,记为:
概率质量函数
二项分布的概率质量函数(Probability Mass Function, PMF)给出恰好 次成功的概率:
其中二项式系数 表示从 次试验中选出 次"成功"的方式总数。该公式的推导直观:任何一条恰好 次成功、 次失败的特定序列的概率为 ,而这样的序列共有 条,且互不相交。
基本性质
期望与方差
期望的推导可利用线性性质:将 分解为 个独立伯努利变量之和 ,其中 ,则 。方差的推导类似:由于各 独立,。
矩生成函数与累积生成函数
二项分布的矩生成函数(Moment Generating Function, MGF)为:
由此可方便地导出各阶矩,例如 。其累积生成函数为 。
偏度与峰度
二项分布的偏度(Skewness)和峰度(Kurtosis)分别为:
当 时,分布对称,偏度为零;当 时分布右偏, 时左偏。随着 增大,偏度和超值峰度均趋于零,分布逐渐逼近正态分布。
分布形态
二项分布的形态随参数 和 的变化而呈现丰富的多样性。
对称性: 当 时,概率质量函数关于 完全对称;当 时分布呈现偏态, 越偏离 0.5,偏斜程度越大。
多众数性: 二项分布可能有一个或两个众数(最可能取值)。众数 满足:
若 为整数,则 和 均为众数,此时分布呈双峰状;否则存在唯一的整数众数 。
单调性: 概率质量函数先从 单调递增至众数,再单调递减至 ,呈单峰形态( 或 的退化情形除外)。
重要定理与极限性质
棣莫弗--拉普拉斯定理
棣莫弗--拉普拉斯定理(De Moivre--Laplace Theorem)是中心极限定理在二项分布上的特例。该定理表明,当 充分大时,标准化的二项随机变量近似服从标准正态分布:
这一定理最早由亚伯拉罕·棣莫弗(Abraham de Moivre)在 1733 年发现,后由皮埃尔-西蒙·拉普拉斯(Pierre-Simon Laplace)推广,为统计推断中广泛使用的正态近似提供了理论基础。实践中,当 且 时,正态近似通常已足够精确。
泊松近似
当试验次数 很大而成功概率 很小时(即 为常数),二项分布收敛于参数为 的泊松分布:
这称为泊松极限定理(Poisson Limit Theorem)或"小数定律",是稀有事件建模的重要依据。该近似在 、 且 时效果尤佳。
与其它分布的关系
二项分布构成了概率分布网络中的枢纽节点,与众多分布之间存在深刻联系。
伯努利分布: 当 时, 即退化为 。
多项分布: 多项分布(Multinomial Distribution)是二项分布从二元结果向多元结果的直接推广,描述 次独立试验中 个类别的计数分布。
负二项分布: 负二项分布(Negative Binomial Distribution)描述达到固定成功次数所需的失败次数,与二项分布构成对偶关系。
超几何分布: 当从有限总体中无放回抽样时,成功次数的分布为超几何分布(Hypergeometric Distribution)。当总体容量 时,超几何分布趋近于二项分布。
贝塔分布: 在贝叶斯统计中,贝塔分布是二项分布似然函数的共轭先验。若 且先验 ,则后验分布为 。
参数估计
点估计
对于二项分布参数 ,最常用的估计量是极大似然估计(MLE):
其中 为观测到的成功次数。该估计量是无偏的(),方差为 。在贝叶斯框架下,若采用 先验,后验均值估计为 。
区间估计
二项分布的比例()的置信区间构造有多种方法。Wald 区间(Wald Interval)是最基础的近似方法:
但其覆盖率在 接近 0 或 1 时严重不足。更稳健的替代方案包括Wilson 区间(Wilson Interval)、Agresti-Coull 区间以及Clopper-Pearson 精确区间(基于F 分布构造),后者虽保守但保证了名义置信水平。
应用场景
二项分布的应用横跨自然科学与社会科学诸领域。
质量控制: 在制造业中,从一批产品中随机抽取 件进行检验,记录不合格品数量。利用二项分布可构造控制图(-chart)并实施验收抽样方案。
临床试验: 在药物有效性评价中,将 名患者随机分为治疗组和对照组,记录治疗成功的例数。二项分布用于计算统计功效和样本量,以及进行有效性假设检验。
流行病学: 疾病发病率、感染率的估计与比较常基于二项分布模型。例如估计某地区某种疾病的患病率,或比较两种干预措施的感染率差异。
机器学习: 在分类问题中,准确率、精确率和召回率等评估指标均可用二项分布建模,用于计算评估指标的置信区间和进行模型比较的假设检验。
金融风险管理: 信用风险建模中,违约事件可视为伯努利试验,一定时期内(如一年)的违约次数服从二项分布,是信用风险度量模型(如 CreditRisk+)的基础。
生态学与野生动物管理: 在捕获-再捕获(Capture-Recapture)方法中,标记个体在二次捕获样本中的出现次数服从超几何分布,在大样本下可用二项分布近似。
民意调查与选举预测: 政党支持率、政策赞成率等民意指标的估计均基于二项分布模型。调查的误差范围(Margin of Error)直接源于二项分布的标准差公式 。
计算与数值问题
现代统计计算中,二项分布概率的计算通常借助内置函数(如 R 的 \texttt{dbinom()}、Python SciPy 的 \texttt{scipy.stats.binom.pmf()}),这些实现采用对数伽玛函数等数值稳定的算法。当 极大(如 )时,直接计算二项式系数可能导致数值溢出,此时宜使用正态近似或泊松近似,或采用对数尺度计算。
累计分布函数(CDF)的计算需要求和概率质量函数或利用不完全贝塔函数的正则化形式:
其中 为正则化不完全贝塔函数。这一关系将二项分布的累计概率计算转化为连续分布的计算,数值更为稳定。
模拟与重采样
在蒙特卡洛模拟中,生成二项分布随机数的一种高效方法是先产生 个 变量再求和。当 很大时,可利用二项分布的正态近似或逆变换法(Inverse Transform Method)生成。在Bootstrap重采样中,二项分布权重法(Bayesian Bootstrap)通过 Dirichlet 权重替代传统的多项式权重,其先验可视为 Dirichlet 分布,与二项分布似然形成共轭关系。
历史注记
二项分布的历史可追溯至 17 世纪。布莱兹·帕斯卡(Blaise Pascal)和皮埃尔·德·费马(Pierre de Fermat)在 1654 年的书信往来中讨论了点问题(Problem of Points),其中隐含了二项分布的思想。雅各布·伯努利在《猜度术》中正式奠定了二项分布的理论基础,并证明了大数定律的一个早期版本:随着试验次数 的增加,观测到的成功频率 趋近于真实概率 。18 世纪,棣莫弗进一步发展了正态近似,发现了如今称为棣莫弗--拉普拉斯定理的结果。19 世纪,弗朗西斯·高尔顿(Francis Galton)和卡尔·皮尔逊(Karl Pearson)将二项分布引入生物统计学和优生学,推动了推断统计学的发展。进入 20 世纪,二项分布成为假设检验和置信区间理论的基石,并在工业革命后的质量控制运动中发挥关键作用。
二项分布以其简洁的定义、丰富的数学性质和广泛的应用场景,不仅是概率论课程的核心内容,更是在各学科数据分析实践中不可或缺的工具。从抛硬币到基因遗传,从产品质量检验到人工智能模型评估,二项分布始终是连接理论与实践的桥梁。