ARTICLE
超几何分布
超几何分布 (Hypergeometric Distribution) 超几何分布(Hypergeometric Distribution)是一种重要的离散概率分布。它描述了从一个包含两种类型元素的有限总体中,进行无放回抽样时抽到的指定类型元素数量的概率。这与二项分布形成了鲜明对比——后者模拟的是有放回抽样,或总体规模极大时的抽样情况,此时每次抽样的成功概率
超几何分布 (Hypergeometric Distribution)
超几何分布(Hypergeometric Distribution)是一种重要的离散概率分布。它描述了从一个包含两种类型元素的有限总体中,进行无放回抽样时抽到的指定类型元素数量的概率。这与二项分布形成了鲜明对比——后者模拟的是有放回抽样,或总体规模极大时的抽样情况,此时每次抽样的成功概率可视为恒定。超几何分布的核心特征在于:由于无放回,每次抽样的结果都会改变下一次的概率,因此各次试验之间不是相互独立的。
该分布由三个关键参数定义:为总体元素总数,为总体中"成功"(感兴趣类型)元素的总数,为从总体中抽取的样本数量。随机变量表示次抽样中抽到成功元素的数量,记为。
概率质量函数与主要性质
超几何分布的概率质量函数(PMF)可通过组合推导:从个元素中抽取个的总组合数为,有利结果需从个成功元素中选出个(),同时从个失败元素中选出个()。因此:
其中的取值范围为。
期望为——非常直观,代表总体中成功元素的比例,期望就是抽样次数乘以该比例,与二项分布的期望形式完全相同(其中)。
方差为:
该公式可分解为两部分:第一部分与二项分布的方差完全一致。第二部分称为有限总体修正因子(Finite Population Correction, FPC)——反映无放回抽样的特性:由于每次抽样减少总体规模,后续不确定性降低,方差比有放回抽样小。当相对很大时FPC趋近于1,超几何方差近似等于二项方差;当(抽取整个总体)时FPC为0、方差也为0——结果确定(必然等于),无任何随机性。
与二项分布的关系及应用
超几何分布与二项分布的根本区别在于抽样方式:超几何为无放回抽样、各次试验不独立、每次成功概率随抽样变化;二项为有放回抽样(或近似独立情形)、各次试验独立、成功概率恒定。然而当总体规模远大于样本规模时——经验法则为——二项分布可作为超几何分布的优良近似,此时FPC。这一近似在实际应用中极大地方便了统计推断的计算。
超几何分布在多个领域有重要应用。在质量控制中,从一批产品中无放回抽检N件、计算不合格品数量的概率即为超几何分布——这也是抽样验收方案设计的理论基础。在列联表分析中,费雪精确检验正是基于超几何分布原理,用于检验两个分类变量之间的独立性——特别是在小样本情况下当卡方检验近似不准确时,费雪精确检验提供了精确的p值计算。在概率论教学中,超几何分布与二项分布共同构成了理解抽样方式对概率模型影响的核心案例。超几何分布以其精确刻画有限总体无放回抽样的能力,在描述统计和统计推断中具有基础地位。