知经 KNOWECON · 卓越的经济金融统计数学学习平台

系统抽样

# 系统抽样 (Systematic Sampling)

系统抽样 (Systematic Sampling),又称为 等距抽样机械抽样,是一种{{{概率抽样}}}方法。它的核心思想是按照一个固定的间隔(或步长)从一个有序的{{{总体}}}列表中抽取{{{样本}}}单元。与{{{简单随机抽样}}}相比,系统抽样在操作上通常更为简便、高效,尤其适用于大型总体。

系统抽样首先从总体中随机选择一个起始点,然后每隔 $k$ 个单位选择下一个抽样单元,直到达到预定的{{{样本容量}}}。这里的 $k$ 被称为抽样间隔 (Sampling Interval)

## 系统抽样的步骤

执行系统抽样的过程可以分解为以下几个明确的步骤:

1. 确定总体和样本容量: 明确要研究的{{{总体}}}大小,记为 $N$。 确定所需的{{{样本}}}大小,记为 $n$。 获取一个包含所有总体单元的列表,即{{{抽样框}}} (Sampling Frame)。这个列表必须是完整的,并且没有重复。

2. 计算抽样间隔 (k): 抽样间隔 $k$ 是通过将总体大小 $N$ 除以样本容量 $n$ 来计算的: $$ k = \frac{N}{n} $$ * 如果 $k$ 是整数:这意味着总体可以被完美地划分为 $n$ 个等长的部分,每个部分的长度为 $k$。 * 如果 $k$ 不是整数:在实际操作中,通常会将 $k$ 向下取整,即 $k = \lfloor N/n \rfloor$。这可能会导致最终的样本容量略大于或小于预定的 $n$,但这种差异通常很小,可以接受。另一种处理方法是使用循环系统抽样,以确保样本容量精确为 $n$。

3. 随机选择起始点: 在列表的第 1 个单元到第 $k$ 个单元之间,随机选择一个整数作为起始点,记为 $r$。这个随机选择的起始点是系统抽样中唯一的随机化步骤,它保证了每个单元都有被抽中的机会。 $$ 1 \le r \le k $$

4. 抽取后续样本: 从随机起始点 $r$ 开始,依次加上抽样间隔 $k$ 来确定后续所有被抽中的单元。样本的序号将是: $$ r, \ r+k, \ r+2k, \ r+3k, \ \dots, \ r+(n-1)k $$ 持续这个过程,直到抽取满 $n$ 个样本单元。

### 示例

假设我们要从一所拥有 $N=1000$ 名学生的中学里抽取一个容量为 $n=50$ 的样本,以调查他们的学习习惯。我们已经获取了按学号排列的全校学生名单。

1. 总体和样本容量:$N = 1000$, $n = 50$。 2. 计算抽样间隔:$k = N/n = 1000 / 50 = 20$。 3. 选择随机起始点:在 1 到 20 之间随机选择一个整数。假设我们选中的是 $r=13$。 4. 抽取样本: * 第一个被抽中的学生是名单上的第 13 位。 * 第二个是第 $13 + 20 = 33$ 位。 * 第三个是第 $33 + 20 = 53$ 位。 * 依此类推,直到抽取出第 50 名学生,即第 $13 + (50-1) \times 20 = 13 + 980 = 993$ 位。 * 最终的样本将由名单上序号为 13, 33, 53, 73, $...$, 993 的学生组成。

## 系统抽样的优势

1. 简单易行:与需要生成 $n$ 个随机数的{{{简单随机抽样}}}不同,系统抽样只需要生成一个随机数(起始点)。这使得抽样过程,尤其是在没有计算机辅助的手工抽样中,变得非常简单和快速。 2. 样本分布均匀:系统抽样强制样本单元在整个{{{抽样框}}}中均匀分布。这种"隐性分层"的效果可以避免样本过于集中在总体的某一部分,因此在很多情况下,其样本的{{{代表性}}}可能优于简单随机抽样,从而得到更精确的估计。 3. 成本效益高:由于操作简便,特别是在进行实地调查(例如对街道上的行人进行抽样)时,系统抽样可以节省大量的时间和人力成本。

## 系统抽样的风险与劣势

系统抽样最大的风险来自于周期性 (Periodicity)循环性 (Cyclicity)

1. 周期性偏差 (Periodicity Bias):如果总体列表中的单元排列存在某种与抽样间隔 $k$ 相吻合的周期性模式,那么系统抽样可能会产生严重{{{偏差}}}的样本。 * 示例:假设一个城市住宅区的调查,抽样框是按“楼-单元-户”排列的。如果每栋楼有 10 户,而我们选择的抽样间隔 $k$ 恰好也是 10 或其倍数。那么,如果我们随机选择的起始点是每栋楼的第 1 户(如 101, 201, 301),我们最终的样本可能全部是楼头或拐角的住户,这些住户在采光、面积、价格等方面可能具有系统性差异,从而导致样本完全不具有代表性。

2. 对抽样框顺序的依赖:系统抽样的结果高度依赖于抽样框的排列顺序。如果列表的顺序是随机的,系统抽样的效果近似于简单随机抽样。如果列表按某个与研究变量相关的变量排序(例如按收入高低排序),系统抽样可以获得类似{{{分层抽样}}}的好处,提高样本效率。但如果存在未被察觉的周期性,则结果会很差。

3. 抽样误差估计困难:从理论上讲,由于只有一个随机起始点,一个系统样本实际上是一个“单点”选择(选择了 $k$ 个可能的群组中的一个)。这使得从单个系统样本中直接估计{{{抽样误差}}}(如{{{方差}}})变得非常困难。在实践中,研究者常常使用简单随机抽样的方差公式来近似,但这只是一个近似值,其准确性取决于总体的结构。

## 与其他抽样方法的比较

* VS {{{简单随机抽样}}} (Simple Random Sampling, SRS): 系统抽样操作更简单,且通常能提供更好的总体覆盖度。但在存在周期性风险时,SRS 更为稳健,因为它完全随机,不受列表顺序影响。

* VS {{{分层抽样}}} (Stratified Sampling): 分层抽样通过将总体显式地划分为互不重叠的“层”,然后在每层内独立抽样,来确保各子群体的代表性。系统抽样在某种程度上实现了“隐性分层”,特别是当抽样框按某个重要变量排序时。然而,分层抽样对各层的控制更精确,但操作也更复杂。

* VS {{{整群抽样}}} (Cluster Sampling): 整群抽样是随机抽取整个“群组”(如一个班级、一个村庄),并调查群组内的所有或部分单元。系统抽样则是从整个总体中抽取分布均匀的个体单元。两者在样本的地理或逻辑分布上截然不同。

## 如何规避系统抽样的风险

* 随机化列表:在进行系统抽样前,先将抽样框完全随机打乱。这样做可以消除任何潜在的周期性,使系统抽样的效果等同于简单随机抽样。但缺点是,这会丧失系统抽样操作简便和隐性分层的优势。 * 仔细检查列表:在使用系统抽样前,应仔细检查抽样框的排列方式,判断是否存在任何可能的周期性规律。 * 使用多个随机起点:可以从总体中抽取多个规模较小的系统样本,每个样本使用不同的随机起点,然后将它们合并。这增加了样本的随机性,并允许更稳健的方差估计。