ARTICLE

有限总体修正系数

有限总体修正系数 (Finite Population Correction Factor, FPC) 有限总体修正系数(Finite Population Correction Factor,简称 FPC)是在从有限总体中不放回抽样时,用于修正样本均值的标准误(以及更一般地,各类估计量的方差)的一个乘数因子。其标准形式为: 其中 N 为总体容量,n 为样本

浏览 0 更新 2025-10-26

有限总体修正系数 (Finite Population Correction Factor, FPC)

有限总体修正系数(Finite Population Correction Factor,简称 FPC)是在从有限总体不放回抽样时,用于修正样本均值标准误(以及更一般地,各类估计量的方差)的一个乘数因子。其标准形式为:

FPC=NnN1\text{FPC} = \sqrt{\frac{N - n}{N - 1}}

其中 NN 为总体容量,nn 为样本容量。当抽样比 n/Nn/N 较小时,FPC 趋近于 1,修正几乎可以忽略;但当样本覆盖总体较大比例时,FPC 显著小于 1,反映了不放回抽样带来的精度增益——因为你已经观测到了总体中相当比例的单位,剩余的不确定性自然小于无限总体或放回抽样的情形。值得注意的是,部分教材使用 (Nn)/N\sqrt{(N-n)/N} 作为近似形式(分母 NN 替代 N1N-1),在 NN 较大时两者差异甚微,但 (Nn)/(N1)\sqrt{(N-n)/(N-1)} 是更加精确的定义。

核心动机:不放回抽样为何改变标准误

在经典的简单随机抽样模型中,若抽样是放回的(或总体是无限的),样本均值的方差为:

Var(Xˉ放回)=σ2n\operatorname{Var}(\bar{X}_{\text{放回}}) = \frac{\sigma^2}{n}

其中 σ2\sigma^2 为总体方差。然而,在实际调查、审计和质量控制等场景中,抽样通常是不放回的——同一个体不会被重复抽中。在不放回抽样下,样本均值方差的正确公式为:

Var(Xˉ不放回)=σ2nNnN1\operatorname{Var}(\bar{X}_{\text{不放回}}) = \frac{\sigma^2}{n} \cdot \frac{N - n}{N - 1}

方差的 FPC 因子 NnN1\frac{N-n}{N-1}(即 FPC 的平方)将标准"无限总体"方差向下修正。直观上,不放回抽样排除了重复抽取同一单位的信息浪费,每次抽取都带来了总体的"新"信息;当 nn 接近 NN 时,几乎观测了整个总体,样本均值的方差趋向于零——这是一个自然且合理的性质:若将整个总体作为样本,则样本均值等于总体均值,不存在抽样误差。

数学推导:超几何结构的方差

考虑有限总体 {Y1,Y2,,YN}\{Y_1, Y_2, \ldots, Y_N\},总体均值为 μ=1Ni=1NYi\mu = \frac{1}{N}\sum_{i=1}^{N} Y_i,总体方差为 σ2=1Ni=1N(Yiμ)2\sigma^2 = \frac{1}{N}\sum_{i=1}^{N} (Y_i - \mu)^2(注意此处使用分母 NN 的总体方差定义)。从该总体中以简单随机不放回方式抽取容量为 nn 的样本。

定义指示变量 IiI_i 表示第 ii 个总体单位是否被选入样本(Ii=1I_i = 1 选中,否则 0)。在简单随机不放回抽样下,每个单位被选中的概率为 n/Nn/N,任意两个不同单位同时被选中的联合概率为 n(n1)N(N1)\frac{n(n-1)}{N(N-1)}。因此:

E[Ii]=nN,Var(Ii)=nN(1nN)\mathbb{E}[I_i] = \frac{n}{N}, \quad \operatorname{Var}(I_i) = \frac{n}{N}\left(1 - \frac{n}{N}\right)
Cov(Ii,Ij)=n(n1)N(N1)(nN)2=nN(1nN)1N1,ij\operatorname{Cov}(I_i, I_j) = \frac{n(n-1)}{N(N-1)} - \left(\frac{n}{N}\right)^2 = -\frac{n}{N}\left(1 - \frac{n}{N}\right) \frac{1}{N-1}, \quad i \neq j

样本均值 yˉ=1ni=1NIiYi\bar{y} = \frac{1}{n}\sum_{i=1}^{N} I_i Y_i(此处求和遍历总体所有单位,未入选者以 Ii=0I_i=0 消去)。其方差为:

Var(yˉ)=1n2[i=1NYi2Var(Ii)+ijYiYjCov(Ii,Ij)]=1n2nN(1nN)[i=1NYi21N1ijYiYj]\begin{aligned} \operatorname{Var}(\bar{y}) &= \frac{1}{n^2} \left[ \sum_{i=1}^{N} Y_i^2 \operatorname{Var}(I_i) + \sum_{i \neq j} Y_i Y_j \operatorname{Cov}(I_i, I_j) \right] \\ &= \frac{1}{n^2} \cdot \frac{n}{N}\left(1 - \frac{n}{N}\right) \left[ \sum_{i=1}^{N} Y_i^2 - \frac{1}{N-1} \sum_{i \neq j} Y_i Y_j \right] \end{aligned}

利用代数恒等式 i=1N(Yiμ)2=N1Ni=1NYi21NijYiYj\sum_{i=1}^{N} (Y_i - \mu)^2 = \frac{N-1}{N}\sum_{i=1}^{N} Y_i^2 - \frac{1}{N}\sum_{i \neq j} Y_i Y_jσ2\sigma^2 的定义,最终化简可得:

Var(yˉ)=σ2nNnN1=σ2nFPC2\operatorname{Var}(\bar{y}) = \frac{\sigma^2}{n} \cdot \frac{N - n}{N - 1} = \frac{\sigma^2}{n} \cdot \text{FPC}^2

进而,样本均值的标准误为:

SE(yˉ)=σnNnN1\text{SE}(\bar{y}) = \frac{\sigma}{\sqrt{n}} \cdot \sqrt{\frac{N - n}{N - 1}}

这一推导的核心在于指示变量之间的负相关性——选中一个单位会略微降低另一个单位被选中的概率。这种负相依使得样本均值比独立抽样时更加稳定,方差因此缩小。

何时使用 FPC:5\% 经验法则

在实际应用中,一个被广泛采用的经验法则是:当抽样比 n/N>5%n/N > 5\%(即样本占比超过总体的 5\%)时,应当引入 FPC 进行修正;否则可以安全地忽略它。这一阈值的逻辑如下表所示:

n/NFPC=(Nn)/(N1)1n/N标准误收缩幅度1%0.9950.5%5%0.9752.5%10%0.9495.1%20%0.89410.6%50%0.70729.3%\begin{array}{c|c|c} n/N & \text{FPC} = \sqrt{(N-n)/(N-1)} \approx \sqrt{1 - n/N} & \text{标准误收缩幅度} \\ \hline 1\% & 0.995 & \approx 0.5\% \\ 5\% & 0.975 & \approx 2.5\% \\ 10\% & 0.949 & \approx 5.1\% \\ 20\% & 0.894 & \approx 10.6\% \\ 50\% & 0.707 & \approx 29.3\% \\ \end{array}

n/N=5%n/N = 5\% 时,FPC 约 0.975,标准误缩幅不到 3\%,许多研究者认为这在实践上通常可以接受。然而这仅是一条经验指南——在需要高精度的场景(如临床试验样本量计算、审计抽样中推断总误差金额),即使抽样比低于 5\%,保守起见也可以采纳 FPC。

FPC 的推广形式

FPC 并非仅适用于样本均值。在有限总体不放回抽样的框架下,几乎所有基于独立同分布假定的方差公式都需要通过 FPC(或其平方)进行修正:

  1. 总体比例的置信区间:如果 p^\hat{p} 是从不放回样本中估计的总体比例,其标准误为 \[ \text{SE}(\hat{p}) = \sqrt{\frac{\hat{p}(1-\hat{p})}{n} \cdot \frac{N-n}{N-1}} \] 这与均值的修正方式一致。
  2. 两样本均值差的推断:当两个样本均来自有限总体的不放回抽样时(如分层抽样中的层内比较),各自的标准误均需乘以相应的 FPC。
  3. 样本量规划:在确定所需样本量 nn 时,若预期使用 FPC,样本量公式变为 \[ n = \frac{n_0}{1 + \frac{n_0 - 1}{N}} \] 其中 n0n_0 为基于无限总体假设计算出的初始样本量。当 NN 不大时,此修正可使所需样本量显著缩小——这对成本和可行性评估至关重要。
  4. 分层随机抽样中的汇集:每层内部需使用各自的 FPC:FPCh=(Nhnh)/(Nh1)\text{FPC}_h = \sqrt{(N_h - n_h)/(N_h - 1)},再按层权加权汇聚总体估计的方差。
  5. 回归与模型推断:当样本来自有限总体且抽样比不可忽略时,OLS 估计量的标准误理论上也受 FPC 影响,实践中多通过Bootstrap设计效应来反映。

与放回抽样和 Bootstrap 的对比

理解 FPC 的一个有效方式是将其与放回抽样Bootstrap方法对比。放回抽样下,每次抽取相互独立,样本均值的方差恒为 σ2/n\sigma^2/n,与总体大小 NN 无关。这就解释了为什么多数初级统计教材在引入标准误时无需提及总体容量——它们在暗中假设了"总体充分大"从而 FPC ≈ 1。

Bootstrap(尤其是Efron的Bootstrap)本质上是放回重抽样,因此其自然估计的方差对应的是放回情形下的 σ2/n\sigma^2/n。当数据来自有限总体且抽样比不可忽略时,直接使用 Bootstrap 会高估方差,此时需使用不放回 Bootstrap或显式引入 FPC 修正。

更一般地,在抽样调查理论中,设计效应 (design effect, deff) 定义为复杂抽样设计下估计量方差与简单随机放回抽样下方差之比(通常以等样本量为基础)。FPC 放回抽样→简单随机不放回的 deff 即为 NnN1<1\frac{N-n}{N-1} < 1——它体现了不放回设计的效率增益。

历史背景与概念辨析

有限总体修正系数的思想可以追溯到二十世纪初抽样调查方法的系统化时期。Jerzy Neyman(1934)在其关于分层抽样的开创性工作中明确使用了有限总体修正,R. A. Fisher在讨论实验设计时亦涉及相关概念。FPC 的完整数学形式随Neyman分配有限总体推断框架的成熟而成为抽样理论中的标准配置。

需要特别辨析的是,FPC 与贝塞尔校正(即样本方差分母中的 n1n-1)虽然都在"有限样本"的名义下运作,但性质截然不同:贝塞尔校正解决的是用样本方差估计总体方差时的无偏性问题,核心在于消耗了一个自由度去估计均值;而 FPC 解决的是不放回抽样导致的样本间相依性问题,核心在于有限总体排除了重复抽取的可能性。当两者同时出现时(例如,从有限总体不放回抽样后计算样本方差),各自独立地修正方差公式的不同环节。

核心公式汇总

FPC 因子:FPC=NnN11nN放回抽样下样本均值方差:Var(XˉWR)=σ2n不放回抽样下样本均值方差:Var(XˉWOR)=σ2nNnN1不放回比例标准误:SE(p^)=p^(1p^)nNnN1FPC 修正后的样本量:n=n01+n01N\begin{aligned} \text{FPC 因子:}&\quad \text{FPC} = \sqrt{\frac{N - n}{N - 1}} \approx \sqrt{1 - \frac{n}{N}} \\ \text{放回抽样下样本均值方差:}&\quad \operatorname{Var}(\bar{X}_{\text{WR}}) = \frac{\sigma^2}{n} \\ \text{不放回抽样下样本均值方差:}&\quad \operatorname{Var}(\bar{X}_{\text{WOR}}) = \frac{\sigma^2}{n} \cdot \frac{N - n}{N - 1} \\ \text{不放回比例标准误:}&\quad \text{SE}(\hat{p}) = \sqrt{\frac{\hat{p}(1-\hat{p})}{n} \cdot \frac{N-n}{N-1}} \\ \text{FPC 修正后的样本量:}&\quad n = \frac{n_0}{1 + \frac{n_0 - 1}{N}} \end{aligned}

有限总体修正系数虽然形式简单,却承载着抽样调查理论的核心洞察:当我们从有限的、不可重复的总体中获取信息时,每一次观测既消耗了未知的存量,也贡献了已知的增量。这一平衡——通过一个平方根因子优雅地量化为 (Nn)/(N1)\sqrt{(N-n)/(N-1)}——是现代统计推断从无限总体理想化走向有限总体现实化的关键一步。