ARTICLE
二项分布
二项分布 (Binomial Distribution) 二项分布 (Binomial Distribution) 是概率论与统计学中一个基础且重要的离散概率分布。它描述了在一系列固定的、独立的、只有两种可能结果的试验中,"成功"结果出现的次数。 这个分布由两个核心参数定义: n :试验的总次数,它是一个正整数。 p :单次试验中"成功"事件发生的概率,其取
二项分布 (Binomial Distribution)
二项分布 (Binomial Distribution) 是概率论与统计学中一个基础且重要的离散概率分布。它描述了在一系列固定的、独立的、只有两种可能结果的试验中,"成功"结果出现的次数。
这个分布由两个核心参数定义:
- :试验的总次数,它是一个正整数。
- :单次试验中"成功"事件发生的概率,其取值范围为 。
一个服从二项分布的随机变量 通常记为 。
二项分布的条件
一个随机试验的结果若要服从二项分布,必须满足以下四个条件,这些条件共同构成了一个 伯努利过程 (Bernoulli Process):
- 固定次数的试验 (Fixed number of trials):试验被重复了固定的 次。例如,抛掷一枚硬币10次(),或者从生产线上随机抽取20个产品()。
- 结果二分性 (Dichotomous outcomes):每次试验只有两种互斥的可能结果。通常我们将这两种结果标记为"成功"和"失败"。例如,硬币正面(成功)或反面(失败);产品合格(成功)或不合格(失败);患者对治疗有反应(成功)或无反应(失败)。
- 恒定的成功概率 (Constant probability of success):在每次试验中,"成功"的概率 都是相同的。相应地,"失败"的概率 也是恒定的。例如,对于一枚均匀的硬币,每次抛掷得到正面的概率始终是 。
- 试验的独立性 (Independent trials):每次试验的结果都是统计独立的,即一次试验的结果不会影响任何其他试验的结果。例如,本次抛硬币的结果对下一次抛硬币的结果没有影响。
只有当这四个条件都得到满足时,我们才能使用二项分布来建模"成功"的总次数。
概率质量函数 (Probability Mass Function, PMF)
二项分布的概率质量函数 (PMF)给出了在 次试验中,恰好观察到 次成功的概率。其数学公式为:
其中:
- 是成功的次数,它可以是 中的任意整数。
- 是 二项式系数 (Binomial Coefficient),也写作 。它表示从 次试验中选出 次成功的所有可能组合数。其计算公式为: \[ \binom{n}{k} = \frac{n!}{k!(n-k)!} \] 这里 表示 的阶乘 (factorial)。这个系数告诉我们,包含 个成功和 个失败的特定序列可以有多少种不同的排列方式。
- 是在任意一个特定序列中, 次成功发生的概率。由于各次试验是独立的,我们将每次成功的概率 连乘 次。
- 是在同一个特定序列中, 次失败发生的概率。同样,我们将每次失败的概率 连乘 次。
因此,PMF的逻辑是:(出现 次成功的组合方式数) (任意一种特定组合方式发生的概率)。
主要的统计特征
对于一个服从二项分布 的随机变量,其主要的统计量如下:
- 期望值 (Expected Value) 或均值 (Mean):指在大量重复试验中,我们平均期望看到的成功次数。 \[ E[X] = np \] 这个公式非常直观。例如,如果一种药物的治愈率是80\% (),那么在100名患者()中使用该药物,我们期望有 名患者被治愈。
- 方差 (Variance):衡量成功次数的变异程度或分散情况。 \[ Var(X) = np(1-p) \] 方差越大,表示观测到的成功次数可能离期望值越远。当 时,对于给定的 ,方差达到最大值,因为此时结果的不确定性最高。
- 标准差 (Standard Deviation):方差的平方根,与原始数据具有相同的单位。 \[ \sigma_X = \sqrt{np(1-p)} \]
- 众数 (Mode):出现概率最高的成功次数。二项分布的众数是使得 最大的整数 。其值为 。如果 是一个整数,那么 和 都是众数。这里的 是向下取整函数,表示不大于 的最大整数。
示例:产品质量检验
假设一家工厂生产的芯片,其次品率为 5\% ()。现在从一批产品中随机独立地抽取 10 个芯片 () 进行检验。我们令随机变量 为抽出的 10 个芯片中次品的数量。那么 服从二项分布 。
问题1:恰好有 1 个次品的概率是多少?
这里 。根据PMF公式:
所以,恰好发现 1 个次品的概率约为 31.51\%。
问题2:最多有 1 个次品的概率是多少?
这需要计算"没有次品"和"恰好有 1 个次品"的概率之和,即 。
首先计算 :
然后将两者相加:
因此,最多发现 1 个次品的概率约为 91.38\%。这个值被称为累积分布函数 (Cumulative Distribution Function, CDF) 在 处的值。
问题3:期望抽到多少个次品?
使用期望值公式:
平均而言,我们期望在每10个芯片的样本中发现0.5个次品。
与其他分布的关系
- 伯努利分布 (Bernoulli Distribution):伯努利分布是二项分布在 时的特例,记为 。它描述了单次试验的结果。因此,二项分布可以看作是 个独立同分布的伯努利随机变量之和。
- 泊松分布 (Poisson Distribution):当二项分布的试验次数 非常大,而单次成功概率 非常小时,二项分布可以用泊松分布来近似。具体来说,如果 且 ,而它们的乘积 保持为一个有限的常数,则 。这个近似在处理稀有事件(如单位时间内网站的点击次数、放射性物质的衰变次数)时非常有用。
- 正态分布 (Normal Distribution):根据棣莫弗-拉普拉斯定理 (De Moivre-Laplace Theorem),当试验次数 足够大时,二项分布可以用正态分布来近似。一个常用的经验法则是,当 且 同时满足时,近似效果较好。此时, 近似于一个均值为 、方差为 的正态分布 。这种近似是中心极限定理的一个早期版本,也是许多假设检验方法的基础。
小结
二项分布是概率论中最基础的离散分布之一,其核心在于四个前提条件:固定试验次数、结果二分性、恒定成功概率和试验独立性。其概率质量函数 精确描述了 次伯努利试验中恰好发生 次成功的概率。期望 和方差 简洁地刻画了分布的中心位置与离散程度。当 很大时,二项分布可通过泊松分布( 很小)或正态分布( 和 均不太小)进行近似,这使得二项分布成为连接离散与连续概率世界的重要桥梁,在质量控制、医学统计、机器学习等应用领域发挥着不可替代的作用。