ARTICLE

超几何分布

超几何分布 (Hypergeometric Distribution) 超几何分布(Hypergeometric Distribution)是一种重要的离散概率分布。它描述了从一个包含两种类型元素的有限总体中,进行无放回抽样时抽到的指定类型元素数量的概率。这与二项分布形成了鲜明对比——后者模拟的是有放回抽样,或总体规模极大时的抽样情况,此时每次抽样的成功概率

浏览 11 更新 2025-11-20

超几何分布 (Hypergeometric Distribution)

超几何分布(Hypergeometric Distribution)是一种重要的离散概率分布。它描述了从一个包含两种类型元素的有限总体中,进行无放回抽样时抽到的指定类型元素数量的概率。这与二项分布形成了鲜明对比——后者模拟的是有放回抽样,或总体规模极大时的抽样情况,此时每次抽样的成功概率可视为恒定。超几何分布的核心特征在于:由于无放回,每次抽样的结果都会改变下一次的概率,因此各次试验之间不是相互独立的。

该分布由三个关键参数定义:NN为总体元素总数,KK为总体中"成功"(感兴趣类型)元素的总数,nn为从总体中抽取的样本数量。随机变量XX表示nn次抽样中抽到成功元素的数量,记为XHypergeometric(N,K,n)X \sim \text{Hypergeometric}(N, K, n)

概率质量函数与主要性质

超几何分布的概率质量函数(PMF)可通过组合推导:从NN个元素中抽取nn个的总组合数为(Nn)\binom{N}{n},有利结果需从KK个成功元素中选出kk个((Kk)\binom{K}{k}),同时从NKN-K个失败元素中选出nkn-k个((NKnk)\binom{N-K}{n-k})。因此:

P(X=k)=(Kk)(NKnk)(Nn)P(X=k) = \frac{\binom{K}{k} \binom{N-K}{n-k}}{\binom{N}{n}}

其中kk的取值范围为max(0,n(NK))kmin(n,K)\max(0, n-(N-K)) \le k \le \min(n, K)

期望E[X]=nK/NE[X] = n \cdot K/N——非常直观,K/NK/N代表总体中成功元素的比例,期望就是抽样次数乘以该比例,与二项分布的期望npnp形式完全相同(其中p=K/Np = K/N)。

方差为:

Var(X)=nKN(1KN)NnN1Var(X) = n \frac{K}{N} \left(1 - \frac{K}{N}\right) \frac{N-n}{N-1}

该公式可分解为两部分:第一部分n(K/N)(1K/N)n(K/N)(1-K/N)与二项分布的方差np(1p)np(1-p)完全一致。第二部分NnN1\frac{N-n}{N-1}称为有限总体修正因子(Finite Population Correction, FPC)——反映无放回抽样的特性:由于每次抽样减少总体规模,后续不确定性降低,方差比有放回抽样小。当NN相对nn很大时FPC趋近于1,超几何方差近似等于二项方差;当n=Nn=N(抽取整个总体)时FPC为0、方差也为0——结果确定(XX必然等于KK),无任何随机性。

与二项分布的关系及应用

超几何分布与二项分布的根本区别在于抽样方式:超几何为无放回抽样、各次试验不独立、每次成功概率随抽样变化;二项为有放回抽样(或近似独立情形)、各次试验独立、成功概率恒定。然而当总体规模NN远大于样本规模nn时——经验法则为n/N<0.1n/N < 0.1——二项分布可作为超几何分布的优良近似,此时FPC1\approx 1。这一近似在实际应用中极大地方便了统计推断的计算。

超几何分布在多个领域有重要应用。在质量控制中,从一批产品中无放回抽检N件、计算不合格品数量的概率即为超几何分布——这也是抽样验收方案设计的理论基础。在列联表分析中,费雪精确检验正是基于超几何分布原理,用于检验两个分类变量之间的独立性——特别是在小样本情况下当卡方检验近似不准确时,费雪精确检验提供了精确的p值计算。在概率论教学中,超几何分布与二项分布共同构成了理解抽样方式对概率模型影响的核心案例。超几何分布以其精确刻画有限总体无放回抽样的能力,在描述统计和统计推断中具有基础地位。