知经 KNOWECON · 卓越的经济金融统计数学学习平台

二项分布

# 二项分布 (Binomial Distribution)

二项分布 (Binomial Distribution) 是{{{概率论}}}与{{{统计学}}}中一个基础且重要的{{{离散概率分布}}}。它描述了在一系列固定的、独立的、只有两种可能结果的试验中,“成功”结果出现的次数。

这个分布由两个核心参数定义:

1. $n$:试验的总次数,它是一个正整数。 2. $p$:单次试验中“成功”事件发生的{{{概率}}},其取值范围为 $0 \le p \le 1$。

一个服从二项分布的{{{随机变量}}} $X$ 通常记为 $X \sim B(n, p)$。

## 二项分布的条件

一个随机试验的结果若要服从二项分布,必须满足以下四个条件,这些条件共同构成了一个 {{{伯努利过程}}} (Bernoulli Process)

一. 固定次数的试验 (Fixed number of trials):试验被重复了固定的 $n$ 次。例如,抛掷一枚硬币10次($n=10$),或者从生产线上随机抽取20个产品($n=20$)。

二. 结果二分性 (Dichotomous outcomes):每次试验只有两种互斥的可能结果。通常我们将这两种结果标记为“成功”和“失败”。例如,硬币正面(成功)或反面(失败);产品合格(成功)或不合格(失败);患者对治疗有反应(成功)或无反应(失败)。

三. 恒定的成功概率 (Constant probability of success):在每次试验中,“成功”的概率 $p$ 都是相同的。相应地,“失败”的概率 $q = 1-p$ 也是恒定的。例如,对于一枚均匀的硬币,每次抛掷得到正面的概率始终是 $0.5$。

四. 试验的独立性 (Independent trials):每次试验的结果都是{{{统计独立}}}的,即一次试验的结果不会影响任何其他试验的结果。例如,本次抛硬币的结果对下一次抛硬币的结果没有影响。

只有当这四个条件都得到满足时,我们才能使用二项分布来建模“成功”的总次数。

## 概率质量函数 (Probability Mass Function, PMF)

二项分布的概率质量函数 (PMF)给出了在 $n$ 次试验中,恰好观察到 $k$ 次成功的概率。其数学公式为:

$$ P(X=k) = \binom{n}{k} p^k (1-p)^{n-k} $$

其中: * $k$ 是成功的次数,它可以是 $0, 1, 2, \ldots, n$ 中的任意整数。 * $\binom{n}{k}$ 是 {{{二项式系数}}} (Binomial Coefficient),也写作 $C(n,k)$。它表示从 $n$ 次试验中选出 $k$ 次成功的所有可能{{{组合}}}数。其计算公式为: $$ \binom{n}{k} = \frac{n!}{k!(n-k)!} $$ 这里 $n!$ 表示 $n$ 的{{{阶乘}}} (factorial)。这个系数告诉我们,包含 $k$ 个成功和 $n-k$ 个失败的特定序列可以有多少种不同的排列方式。 * $p^k$ 是在任意一个特定序列中,$k$ 次成功发生的概率。由于各次试验是独立的,我们将每次成功的概率 $p$ 连乘 $k$ 次。 * $(1-p)^{n-k}$ 是在同一个特定序列中,$n-k$ 次失败发生的概率。同样,我们将每次失败的概率 $(1-p)$ 连乘 $n-k$ 次。

因此,PMF的逻辑是:(出现 $k$ 次成功的组合方式数) $\times$ (任意一种特定组合方式发生的概率)。

## 主要的统计特征

对于一个服从二项分布 $X \sim B(n, p)$ 的随机变量,其主要的统计量如下:

* {{{期望值}}} (Expected Value) 或均值 (Mean):指在大量重复试验中,我们平均期望看到的成功次数。 $$ E[X] = np $$ 这个公式非常直观。例如,如果一种药物的治愈率是80% ($p=0.8$),那么在100名患者($n=100$)中使用该药物,我们期望有 $100 \times 0.8 = 80$ 名患者被治愈。

* {{{方差}}} (Variance):衡量成功次数的变异程度或分散情况。 $$ Var(X) = np(1-p) $$ 方差越大,表示观测到的成功次数可能离期望值越远。当 $p=0.5$ 时,对于给定的 $n$,方差达到最大值,因为此时结果的不确定性最高。

* {{{标准差}}} (Standard Deviation):方差的平方根,与原始数据具有相同的单位。 $$ \sigma_X = \sqrt{np(1-p)} $$

* 众数 (Mode):出现概率最高的成功次数。二项分布的众数是使得 $P(X=k)$ 最大的整数 $k$。其值为 $\lfloor(n+1)p\rfloor$。如果 $(n+1)p$ 是一个整数,那么 $ (n+1)p $ 和 $ (n+1)p - 1 $ 都是众数。这里的 $\lfloor x \rfloor$ 是{{{向下取整函数}}},表示不大于 $x$ 的最大整数。

## 示例:产品质量检验

假设一家工厂生产的芯片,其次品率为 5% ($p=0.05$)。现在从一批产品中随机独立地抽取 10 个芯片 ($n=10$) 进行检验。我们令随机变量 $X$ 为抽出的 10 个芯片中次品的数量。那么 $X$ 服从二项分布 $X \sim B(10, 0.05)$。

问题1:恰好有 1 个次品的概率是多少? 这里 $n=10, p=0.05, k=1$。根据PMF公式: $$ P(X=1) = \binom{10}{1} (0.05)^1 (1-0.05)^{10-1} $$ $$ P(X=1) = 10 \times 0.05 \times (0.95)^9 $$ $$ P(X=1) \approx 10 \times 0.05 \times 0.6302 \approx 0.3151 $$ 所以,恰好发现 1 个次品的概率约为 31.51%。

问题2:最多有 1 个次品的概率是多少? 这需要计算“没有次品”和“恰好有 1 个次品”的概率之和,即 $P(X \le 1) = P(X=0) + P(X=1)$。 首先计算 $P(X=0)$: $$ P(X=0) = \binom{10}{0} (0.05)^0 (0.95)^{10} = 1 \times 1 \times (0.95)^{10} \approx 0.5987 $$ 然后将两者相加: $$ P(X \le 1) \approx 0.5987 + 0.3151 = 0.9138 $$ 因此,最多发现 1 个次品的概率约为 91.38%。这个值被称为{{{累积分布函数}}} (Cumulative Distribution Function, CDF) 在 $k=1$ 处的值。

问题3:期望抽到多少个次品? 使用期望值公式: $$ E[X] = np = 10 \times 0.05 = 0.5 $$ 平均而言,我们期望在每10个芯片的样本中发现0.5个次品。

## 与其他分布的关系

* {{{伯努利分布}}} (Bernoulli Distribution):伯努利分布是二项分布在 $n=1$ 时的特例,记为 $B(1, p)$。它描述了单次试验的结果。因此,二项分布可以看作是 $n$ 个独立同分布的伯努利随机变量之和。

* {{{泊松分布}}} (Poisson Distribution):当二项分布的试验次数 $n$ 非常大,而单次成功概率 $p$ 非常小时,二项分布可以用泊松分布来近似。具体来说,如果 $n \to \infty$ 且 $p \to 0$,而它们的乘积 $np = \lambda$ 保持为一个有限的常数,则 $B(n, p) \approx \text{Poisson}(\lambda)$。这个近似在处理稀有事件(如单位时间内网站的点击次数、放射性物质的衰变次数)时非常有用。

* {{{正态分布}}} (Normal Distribution):根据棣莫弗-拉普拉斯定理 (De Moivre-Laplace Theorem),当试验次数 $n$ 足够大时,二项分布可以用正态分布来近似。一个常用的经验法则是,当 $np \ge 5$ 且 $n(1-p) \ge 5$ 同时满足时,近似效果较好。此时,$B(n, p)$ 近似于一个均值为 $\mu = np$、方差为 $\sigma^2 = np(1-p)$ 的正态分布 $N(np, np(1-p))$。这种近似是{{{中心极限定理}}}的一个早期版本,也是许多{{{假设检验}}}方法的基础。