知经 KNOWECON · 卓越的经济金融统计数学学习平台

超几何分布模型常见例题

# 超几何分布模型常见例题 (Common Examples of Hypergeometric Distribution Model)

超几何分布 (Hypergeometric Distribution) 是{{{概率论}}}和{{{统计学}}}中一种重要的{{{离散概率分布}}}。它描述了从一个包含两种类型元素的有限{{{总体}}}中进行 {{{无放回抽样}}} 时,抽取的{{{样本}}}中含有特定类型元素数量的概率。

理解超几何分布的关键在于其抽样方式:无放回。这意味着每抽取一个个体后,总体的构成会发生改变,导致下一次抽取的概率也随之改变。这与{{{二项分布}}}所基于的恒定成功概率(如{{{有放回抽样}}})形成鲜明对比。

## 超几何分布的概率质量函数 (PMF)

一个随机变量 $X$ 服从超几何分布,其概率质量函数 (PMF) 定义为:

$$ P(X=k) = \frac{\binom{K}{k} \binom{N-K}{n-k}}{\binom{N}{n}} $$

其中各项参数的定义如下:

* $N$: 总体容量,即集合中所有元素的总数。 * $K$: 总体中具有某种特征的元素数量 (我们称之为“成功”事件)。 * $n$: 样本容量,即从总体中抽取的元素数量。 * $k$: 样本中具有该特征的元素数量,是随机变量 $X$ 的一个可能取值。

这个公式的背后是{{{组合数学}}}的逻辑: * 分母 $\binom{N}{n}$ 代表从 $N$ 个总元素中抽取 $n$ 个样本的所有可能组合数,这是我们的{{{样本空间}}}大小。 * 分子 $\binom{K}{k} \binom{N-K}{n-k}$ 代表我们关心的事件的发生方式:从 $K$ 个“成功”元素中恰好选出 $k$ 个,同时从剩下的 $N-K$ 个“非成功”元素中恰好选出 $n-k$ 个。根据{{{乘法原理}}},二者相乘即为事件总数。

下面我们通过几个经典例题来掌握超几何分布的应用。

## 例题一:经典的摸球问题

这是理解超几何分布最直接的模型。

问题:一个不透明的口袋里装有10个球,其中6个是白球,4个是黑球。现在从口袋中一次性随机抽取3个球(无放回抽样)。求恰好抽到2个白球的概率。

解题步骤

1. 识别模型:由于球被取出后不再放回,每次抽取的条件都发生变化,这是一个典型的{{{无放回抽样}}}问题,应使用超几何分布模型。

2. 确定参数: * 总体容量 $N = 10$ (口袋里总共有10个球)。 * 总体中"成功"元素数量 $K = 6$ (我们关心的是白球,总共有6个白球)。 * 样本容量 $n = 3$ (我们抽取3个球)。 * 样本中"成功"元素数量 $k = 2$ (我们希望抽到2个白球)。

3. 代入公式: 我们要求解的是 $P(X=2)$。 $$ P(X=2) = \frac{\binom{6}{2} \binom{10-6}{3-2}}{\binom{10}{3}} = \frac{\binom{6}{2} \binom{4}{1}}{\binom{10}{3}} $$

4. 计算组合数: * $\binom{6}{2} = \frac{6 \times 5}{2 \times 1} = 15$ * $\binom{4}{1} = \frac{4}{1} = 4$ * $\binom{10}{3} = \frac{10 \times 9 \times 8}{3 \times 2 \times 1} = 120$

5. 计算最终概率: $$ P(X=2) = \frac{15 \times 4}{120} = \frac{60}{120} = 0.5 $$ 结论:恰好抽到2个白球的概率是 50%。

## 例题二:产品质量检验

超几何分布在工业生产的{{{质量控制}}}中有广泛应用。

问题:一批产品共50件,其中有4件是次品。现从中随机抽取5件进行检验。求下列事件的概率: (a) 抽到的5件产品中恰好有1件次品。 (b) 抽到的5件产品中至少有1件次品。

解题步骤 (a):恰好有1件次品

1. 确定参数: * $N = 50$ (产品总数) * $K = 4$ (次品总数) * $n = 5$ (抽检数量) * $k = 1$ (样本中的次品数)

2. 代入公式: $$ P(X=1) = \frac{\binom{4}{1} \binom{50-4}{5-1}}{\binom{50}{5}} = \frac{\binom{4}{1} \binom{46}{4}}{\binom{50}{5}} $$

3. 计算结果: * $\binom{4}{1} = 4$ * $\binom{46}{4} = \frac{46 \times 45 \times 44 \times 43}{4 \times 3 \times 2 \times 1} = 163,185$ * $\binom{50}{5} = \frac{50 \times 49 \times 48 \times 47 \times 46}{5 \times 4 \times 3 \times 2 \times 1} = 2,118,760$ $$ P(X=1) = \frac{4 \times 163,185}{2,118,760} = \frac{652,740}{2,118,760} \approx 0.3081 $$ 结论 (a):抽检的5件产品中恰好有1件次品的概率约为 30.81%。

解题步骤 (b):至少有1件次品

1. 运用补集思想:"至少有1件次品"的对立事件是"1件次品都没有"(即抽到的全是正品)。计算对立事件的概率通常更简单。 $$ P(X \ge 1) = 1 - P(X=0) $$

2. 计算 $P(X=0)$ 的概率:此时 $k=0$。 $$ P(X=0) = \frac{\binom{4}{0} \binom{46}{5}}{\binom{50}{5}} $$

3. 计算结果: * $\binom{4}{0} = 1$ * $\binom{46}{5} = \frac{46 \times 45 \times 44 \times 43 \times 42}{5 \times 4 \times 3 \times 2 \times 1} = 1,370,754$ $$ P(X=0) = \frac{1 \times 1,370,754}{2,118,760} \approx 0.6470 $$

4. 计算最终概率: $$ P(X \ge 1) = 1 - P(X=0) \approx 1 - 0.6470 = 0.3530 $$ 结论 (b):抽检的5件产品中至少有1件次品的概率约为 35.30%。

## 例题三:纸牌游戏

扑克牌游戏是学习{{{古典概型}}}和组合概率的绝佳场景。

问题:从一副标准的52张扑克牌(其中有4张A)中随机发5张牌。求手牌中恰好有2张A的概率。

解题步骤

1. 确定参数: * $N = 52$ (一副牌的总张数) * $K = 4$ (牌堆中A的总数) * $n = 5$ (手牌的张数) * $k = 2$ (希望得到的A的数量)

2. 代入公式: $$ P(X=2) = \frac{\binom{4}{2} \binom{52-4}{5-2}}{\binom{52}{5}} = \frac{\binom{4}{2} \binom{48}{3}}{\binom{52}{5}} $$

3. 计算结果: * $\binom{4}{2} = 6$ * $\binom{48}{3} = \frac{48 \times 47 \times 46}{3 \times 2 \times 1} = 17,296$ * $\binom{52}{5} = 2,598,960$ $$ P(X=2) = \frac{6 \times 17,296}{2,598,960} = \frac{103,776}{2,598,960} \approx 0.0399 $$ 结论:拿到5张牌,其中恰好有2张A的概率约为 3.99%。

## 与二项分布的联系与区别

学生常常混淆超几何分布和{{{二项分布}}}。

* 核心区别:抽样方式不同。超几何分布是{{{无放回抽样}}},每次抽样后总体改变,各次试验不独立。二项分布是{{{有放回抽样}}}或在无限总体中抽样,每次试验的成功概率恒定,各次试验独立

* 近似关系:当总体容量 $N$ 远大于样本容量 $n$ 时(经验法则是 $n/N \le 0.05$),超几何分布可以由二项分布很好地近似。这是因为当总体极大时,取走少数样本对总体中“成功”元素的比例影响微乎其微,可以近似看作每次抽样的成功概率不变。 * 近似的二项分布参数为:试验次数 $n$,成功概率 $p = K/N$。

例如,在一个有5000件产品、其中200件为次品($K=200$)的大型仓库中抽检20件($n=20$)。此时 $n/N = 20/5000 = 0.004 \le 0.05$。 我们可以用二项分布 $B(20, 200/5000)$ 即 $B(20, 0.04)$ 来近似计算次品数量的概率,这会比计算巨大的组合数要简便得多。

## 期望与方差

超几何分布的{{{期望}}}和{{{方差}}}提供了对其中心趋势和离散程度的度量。

* 期望 (Mean): $$ E[X] = n \frac{K}{N} $$ 期望的直观意义是“样本数”乘以“总体中成功的比例”,这与二项分布的期望 $np$ 形式完全一致。

* 方差 (Variance): $$ Var(X) = n \frac{K}{N} \left(1 - \frac{K}{N}\right) \frac{N-n}{N-1} $$ 这个公式可以看作是二项分布方差 $np(1-p)$ 乘以一个修正因子 $\frac{N-n}{N-1}$。这个因子被称为 有限总体修正系数 (Finite Population Correction, FPC)。 * 由于 $n \ge 1$,FPC总是小于1,这说明无放回抽样的方差要小于有放回抽样。这是因为每次抽样都提供了关于总体的新信息,减少了不确定性。 * 当样本量 $n$ 趋近于总体量 $N$ 时,FPC趋近于0,方差也趋近于0。当 $n=N$ 时,方差为0,因为我们抽样了整个总体,结果是确定的,没有任何随机性。