ARTICLE

无放回抽样

无放回抽样(Sampling Without Replacement)是指从有限总体中逐个抽取样本单元时,每个被抽中的单元不再放回总体、后续抽取不会再次被选中的抽样方式。与有放回抽样相对,无放回抽样的根本特征在于各次抽取之间不独立,且总体容量随着抽取过程逐渐减小,从而改变了样本中各类单元出现概率的分布结构。无放回抽样是绝大多数实际调查和实验设计的默认选择——

浏览 7 更新 2025-10-26

无放回抽样(Sampling Without Replacement)是指从有限总体中逐个抽取样本单元时,每个被抽中的单元不再放回总体、后续抽取不会再次被选中的抽样方式。与有放回抽样相对,无放回抽样的根本特征在于各次抽取之间不独立,且总体容量随着抽取过程逐渐减小,从而改变了样本中各类单元出现概率的分布结构。无放回抽样是绝大多数实际调查和实验设计的默认选择——从民意调查中随机拨打电话、从生产线上抽取质量检测样本、从人口普查数据中抽取验证子样本,几乎都采用无放回的方式,因为它避免了同一单元重复入选所造成的信息冗余,在同等样本量下通常具有更高的统计效率。

与有放回抽样的差异

有放回抽样在每次抽取后将单元放回总体,使各次抽取相互独立、总体结构保持不变,样本中同一单元可能被多次选中。与之相反,无放回抽样消除了重复选中的可能性,从而引入了抽取结果之间的负相关关系——若某一单元已被选中,则后续抽取中同类单元被选中的条件概率会发生变化。从信息量的角度审视,无放回抽样在每个新样本单元上带来的边际信息通常高于有放回抽样,因为新单元不与已有样本重复,能够覆盖总体的更多角落。这一差异在样本量占总体比例较大时尤为显著:当抽样比接近100\%时,无放回抽样几乎穷尽了总体的全部信息,而同等规模的有放回抽样仍包含大量冗余。

超几何分布

无放回抽样的概率结构由超几何分布精确刻画。考虑一个包含N个单元的总体,其中K个具有某种特征(如"合格品"或"支持某候选人"),从中无放回地抽取n个单元,则样本中具有该特征的单元数X服从超几何分布:

P(X=k)=(Kk)(NKnk)(Nn),k=0,1,,min(n,K)P(X = k) = \frac{\binom{K}{k}\binom{N-K}{n-k}}{\binom{N}{n}}, \quad k = 0,1,\ldots,\min(n,K)

该公式的直观含义是:分子从K个"成功"单元中选取k个、从N-K个"失败"单元中选取n-k个的所有组合数,分母是从总体中选取n个单元的全部组合数。超几何分布的期望为 E[X]=nKNE[X] = n\frac{K}{N}——与二项分布相同——但方差为 Var(X)=nKN(1KN)NnN1Var(X) = n\frac{K}{N}(1-\frac{K}{N})\frac{N-n}{N-1},其中的因子 NnN1\frac{N-n}{N-1}被称为有限总体校正因子。正是这一因子使超几何分布的方差小于对应的二项分布,体现了无放回抽样信息效率更高的数学本质。

有限总体校正

有限总体校正因子(Finite Population Correction, FPC)是连接无放回与有放回抽样统计推断的关键桥梁。当抽样比 f=n/Nf = n/N 很小时,FPC趋近于1,无放回抽样与有放回抽样的方差差异可以忽略;随着抽样比增大,FPC逐渐减小,方差缩减效应越来越显著。在实际调查中,若抽样比低于5\%,研究人员通常直接忽略FPC而不产生明显偏误;但当抽样比超过10\%时,忽略FPC会导致标准误的高估和置信区间过宽,进而降低统计检验的功效。对于许多全国性调查而言,虽然总体极为庞大、抽样比极小,但在子总体分析(如按省份或年龄段细分)中抽样比可能急剧上升,此时必须审慎考虑FPC的影响。

概率逐次变化

无放回抽样的一个核心特征是抽取过程中条件概率的动态变化。假设总体中有100个球,其中30个红色、70个蓝色。第一次抽取抽到红球的概率为 30/100=0.330/100 = 0.3;如果第一次抽到了红球,第二次再抽到红球的条件概率降为 29/990.29329/99 \approx 0.293;如果第一次抽到的是蓝球,第二次抽到红球的条件概率变为 30/990.30330/99 \approx 0.303。这种概率的非恒定性与有放回抽样中每次恒定不变的0.3形成鲜明对比。条件概率的依赖结构意味着无放回抽样的样本不再满足独立同分布假设,这一事实对后续的统计推断方法选择具有深远影响——经典的中心极限定理和标准误公式需经调整后才能适用。

在调查抽样中的应用

无放回抽样是概率抽样的基石。简单随机抽样、分层抽样、整群抽样和系统抽样等主要抽样设计,若无特别说明,均默认采用无放回操作。在分层抽样中,各层内部独立进行无放回抽样,层间差异通过加权汇总;在整群抽样中,群内单元可能全部被调查(即抽样比为100\%的无放回),也可能再度进行无放回子抽样。实际调查中的不等概率抽样(如按规模大小概率比例抽样)同样在无放回框架下运作,此时抽取概率与辅助变量挂钩,但放回问题的避免与信息效率的提升依然成立。无放回抽样在复杂调查设计中的广泛使用,催生了专门针对非独立观测数据的方差估计方法,如泰勒线性化法、刀切法和自助法,这些方法的核心目标之一就是正确刻画无放回抽样带来的相关结构。

在实验设计与质量控制中的应用

在实验设计中,无放回抽样体现为"不重复使用实验单元"的基本伦理和科学原则——同一受试者不能在同一实验中接受两次相同的处理,否则会产生顺序效应和学习效应,污染处理效果的估计。在配对设计中,无放回的特性表现为:一旦受试者被分配到处理组或对照组,就不能再被分配到另一组。在工业质量控制领域,破坏性检测天然要求无放回抽样——被测试的产品已遭破坏,无法放回批次中再次检测。例如,电子元件的寿命测试、钢筋的抗拉强度测试和食品的口感评定都是典型的无放回破坏性检测场景。此时,抽样方案的设计必须在检测成本和剩余批次的信息价值之间寻求平衡。

抽样方法的效率比较

统计效率的比较为无放回抽样的优势提供了精确的量化表述。在相同样本量下,无放回抽样估计量的方差始终不大于有放回抽样估计量的方差,当且仅当抽样比为零时两者相等。这一性质使无放回抽样成为占优策略——在没有额外成本约束的前提下,它总是更有效率的选择。然而,无放回抽样也带来分析上的复杂性:样本单元之间的相关性使传统独立同分布框架下的标准误公式失效,需要借助更精细的方差估计技术。此外,无放回抽样在极小的总体或极高的抽样比下可能面临"样本耗尽"的问题——当样本量接近总体规模时,后续的抽样空间几乎收敛至确定性,这虽然提升了估计的精确度,但也使基于大样本近似的推断方法可能失去合理性。在实际应用中,研究人员通常根据抽样比的大小、总体的异质性和分析目标,在无放回抽样的效率优势与分析便利性之间做出权衡。