知经 KNOWECON · 卓越的经济金融统计数学学习平台

分层抽样

# 分层抽样 (Stratified Sampling)

分层抽样 (Stratified Sampling),是{{{概率抽样}}}方法中的一种,其核心思想是将异质性(heterogeneous)较强的{{{总体}}} (Population) 按照某一或某些特征划分为若干个内部同质性(homogeneous)较强的子总体,这些子总体称为 (Strata),然后在每个层中独立地、随机地抽取一定数量的样本单位,最后将从各层中抽取的样本合并成一个总的{{{样本}}} (Sample)。

这种抽样方法旨在提高样本的代表性 (Representativeness) 和估计的精确度 (Precision),通过确保总体中不同子群体的特征都能在样本中得到恰当的反映,从而有效地降低{{{抽样误差}}} (Sampling Error)。

## 分层抽样的实施步骤

执行分层抽样通常遵循以下几个关键步骤:

1. 定义总体与抽样框:明确研究的目标总体,并获取包含所有总体单位信息的{{{抽样框}}} (Sampling Frame)。该抽样框必须包含用于分层的变量信息。

2. 确定分层变量与划分层次:选择一个或多个分层变量 (Stratification Variable)。理想的分层变量应与研究的主要目标变量高度相关。根据分层变量的取值,将整个总体划分为互不重叠且穷尽所有的层。分层的原则是层内差异小,层间差异大。例如,在调查居民收入时,可以将“职业”、“教育水平”或“地理区域”作为分层变量。

3. 确定总样本量:根据研究的精度要求、{{{置信水平}}} (Confidence Level)、总体方差和成本预算,计算出所需的总样本量 $n$。

4. 在各层中分配样本量:将总样本量 $n$ 分配到各个层中,即确定每个层 $h$ 需要抽取的样本量 $n_h$。分配方法主要有两种:

* 比例分配 (Proportional Allocation):这是最常用的方法。各层抽取的样本量与其在总体中所占的比例成正比。如果第 $h$ 层在总体中的大小为 $N_h$,总体大小为 $N$,总样本量为 $n$,则第 $h$ 层的样本量 $n_h$ 计算公式为: $$ n_h = n \times \frac{N_h}{N} $$ 这种方法的优点是简单易行,并且可以得到一个按比例缩小的总体“微缩景观”。

* 非比例分配 (Disproportional Allocation):当各层的变异程度(方差)或抽样成本有显著差异时,使用非比例分配可以获得更高的效率。 * 奈曼最优分配 (Neyman Allocation):在不考虑成本差异的情况下,为了使总体均值的估计方差最小化,应将样本量分配给内部方差较大的层。方差越大的层,分配的样本越多。其分配公式为: $$ n_h = n \times \frac{N_h S_h}{\sum_{k=1}^{L} N_k S_k} $$ 其中 $S_h$ 是第 $h$ 层的标准差,$L$ 是总层数。 * 最优分配 (Optimal Allocation):当各层的抽样成本 $C_h$ 也不同时,最优分配同时考虑了层的大小、变异程度和成本,旨在给定总成本下使估计方差最小,或在给定方差下使总成本最小。

5. 从各层中抽取样本:在每个层内,采用{{{简单随机抽样}}} (Simple Random Sampling) 或{{{系统抽样}}} (Systematic Sampling) 等方法,独立地抽取步骤4中确定的样本量 $n_h$。

6. 合并样本与加权估计:将从所有层中抽取的样本合并,构成总样本。在进行总体参数(如总体均值或总体比例)的估计时,需要对来自不同层的数据进行加权处理,以得到无偏的估计量。分层样本的总体均值估计量 $\bar{y}_{st}$ 为: $$ \bar{y}_{st} = \sum_{h=1}^{L} W_h \bar{y}_h $$ 其中 $W_h = N_h / N$ 是第 $h$ 层的权重,$\bar{y}_h$ 是第 $h$ 层样本的均值。

## 示例:大学满意度调查

假设某大学希望调查全校 10,000 名学生对学校的满意度。研究者认为不同学院的学生由于专业特点和资源分配不同,其满意度可能存在系统性差异。因此,决定采用分层抽样。

1. 总体与分层:总体是全校 10,000 名学生。以“学院”作为分层变量,分为三个层:工学院 (5,000人)、文学院 (3,000人) 和商学院 (2,000人)。 * $N_1=5000$ (工学院), $N_2=3000$ (文学院), $N_3=2000$ (商学院) * 总体大小 $N = 10000$

2. 确定样本量:假设经计算,总样本量需为 $n=500$。

3. 分配样本量(采用比例分配): * 工学院样本量:$n_1 = 500 \times \frac{5000}{10000} = 250$ * 文学院样本量:$n_2 = 500 \times \frac{3000}{10000} = 150$ * 商学院样本量:$n_3 = 500 \times \frac{2000}{10000} = 100$ * 检查:$250 + 150 + 100 = 500$,分配正确。

4. 抽取样本:分别从工学院的5000人名单中随机抽取250人,从文学院的3000人中随机抽取150人,从商学院的2000人中随机抽取100人。

5. 数据分析:假设得到的三个学院样本的平均满意度(5分制)分别为 $\bar{y}_1=4.2$, $\bar{y}_2=3.8$, $\bar{y}_3=4.5$。那么,全校满意度的估计值为: $$ \bar{y}_{st} = W_1 \bar{y}_1 + W_2 \bar{y}_2 + W_3 \bar{y}_3 = \frac{5000}{10000}(4.2) + \frac{3000}{10000}(3.8) + \frac{2000}{10000}(4.5) = 0.5(4.2) + 0.3(3.8) + 0.2(4.5) = 2.1 + 1.14 + 0.9 = 4.14 $$ 因此,估计全校学生的平均满意度为 4.14 分。

## 优势与劣势

### 优势

1. 提高估计精度:通过将异质总体划分为同质的层,分层抽样可以显著降低抽样{{{方差}}} (Variance),从而得到比简单随机抽样更精确的参数估计和更窄的{{{置信区间}}} (Confidence Interval)。 2. 保证子群体代表性:确保了即使是规模较小的子群体也能在样本中拥有足够的代表,从而可以对特定的子群体进行独立分析和比较。 3. 管理便利性:将庞大的抽样任务分解到不同的地理区域或部门(层),可以使抽样工作的组织和管理更加方便高效。

### 劣势

1. 需要辅助信息:实施分层抽样的一个关键前提是,必须拥有一个高质量的抽样框,其中包含用于分层的变量信息。获取这些信息可能成本高昂或根本不可能。 2. 设计复杂性:与简单随机抽样相比,分层抽样的设计和实施过程更为复杂,需要确定分层变量、划分层次、计算各层样本量等。 3. 分层不当的风险:如果选择的分层变量与研究目标无关,或者分层方式不合理(例如,层内异质性仍然很高),分层抽样的效果可能并不比简单随机抽样好,甚至可能更差。

## 与其他抽样方法的比较

* 分层抽样 vs. {{{简单随机抽样}}} (SRS): 当总体存在显著的异质性时,分层抽样通常比SRS有更高的效率(即在相同样本量下有更小的抽样误差)。SRS将总体视为一个整体,随机抽取时可能偶然地过多或过少地抽中某个子群体,而分层抽样通过事先的结构安排避免了这个问题。

* 分层抽样 vs. {{{整群抽样}}} (Cluster Sampling): 这是初学者容易混淆的一对概念。主要区别在于: * 目标:分层抽样是为了提高精度,通过构建“层内同质,层间异质”的结构;整群抽样主要是为了降低成本和提高可行性,利用“群内异质(如同一个微缩总体),群间同质”的结构。 * 抽样过程:分层抽样会从所有的层中抽取样本;整群抽样则是先随机抽取部分群,然后对被抽中的群进行全面调查或再次抽样。 * 方差:正确的分层抽样几乎总能降低抽样误差,而整群抽样由于群内个体可能存在相关性,通常会增大抽样误差。