ARTICLE

分层抽样

分层抽样 (Stratified Sampling) 分层抽样 (Stratified Sampling),是概率抽样方法中的一种,其核心思想是将异质性(heterogeneous)较强的总体 (Population) 按照某一或某些特征划分为若干个内部同质性(homogeneous)较强的子总体,这些子总体称为层 (Strata),然后在每个层中独立地、随

浏览 93 更新 2025-10-26

分层抽样 (Stratified Sampling)

分层抽样 (Stratified Sampling),是概率抽样方法中的一种,其核心思想是将异质性(heterogeneous)较强的总体 (Population) 按照某一或某些特征划分为若干个内部同质性(homogeneous)较强的子总体,这些子总体称为 (Strata),然后在每个层中独立地、随机地抽取一定数量的样本单位,最后将从各层中抽取的样本合并成一个总的样本 (Sample)。

这种抽样方法旨在提高样本的代表性 (Representativeness) 和估计的精确度 (Precision),通过确保总体中不同子群体的特征都能在样本中得到恰当的反映,从而有效地降低抽样误差 (Sampling Error)。

分层抽样的实施步骤

执行分层抽样通常遵循以下几个关键步骤:

  1. 定义总体与抽样框:明确研究的目标总体,并获取包含所有总体单位信息的抽样框 (Sampling Frame)。该抽样框必须包含用于分层的变量信息。
  1. 确定分层变量与划分层次:选择一个或多个分层变量 (Stratification Variable)。理想的分层变量应与研究的主要目标变量高度相关。根据分层变量的取值,将整个总体划分为互不重叠且穷尽所有的层。分层的原则是层内差异小,层间差异大。例如,在调查居民收入时,可以将“职业”、“教育水平”或“地理区域”作为分层变量。
  1. 确定总样本量:根据研究的精度要求、置信水平 (Confidence Level)、总体方差和成本预算,计算出所需的总样本量 n n
  1. 在各层中分配样本量:将总样本量 n n 分配到各个层中,即确定每个层 h h 需要抽取的样本量 nh n_h 。分配方法主要有两种:
  • 比例分配 (Proportional Allocation):这是最常用的方法。各层抽取的样本量与其在总体中所占的比例成正比。如果第 h h 层在总体中的大小为 Nh N_h ,总体大小为 N N ,总样本量为 n n ,则第 h h 层的样本量 nh n_h 计算公式为:
nh=n×NhNn_h = n \times \frac{N_h}{N}

这种方法的优点是简单易行,并且可以得到一个按比例缩小的总体“微缩景观”。

  • 非比例分配 (Disproportional Allocation):当各层的变异程度(方差)或抽样成本有显著差异时,使用非比例分配可以获得更高的效率。
  • 奈曼最优分配 (Neyman Allocation):在不考虑成本差异的情况下,为了使总体均值的估计方差最小化,应将样本量分配给内部方差较大的层。方差越大的层,分配的样本越多。其分配公式为:
nh=n×NhShk=1LNkSkn_h = n \times \frac{N_h S_h}{\sum_{k=1}^{L} N_k S_k}

其中 Sh S_h 是第 h h 层的标准差,L L 是总层数。

  • 最优分配 (Optimal Allocation):当各层的抽样成本 Ch C_h 也不同时,最优分配同时考虑了层的大小、变异程度和成本,旨在给定总成本下使估计方差最小,或在给定方差下使总成本最小。
  1. 从各层中抽取样本:在每个层内,采用简单随机抽样 (Simple Random Sampling) 或系统抽样 (Systematic Sampling) 等方法,独立地抽取步骤4中确定的样本量 nh n_h
  1. 合并样本与加权估计:将从所有层中抽取的样本合并,构成总样本。在进行总体参数(如总体均值或总体比例)的估计时,需要对来自不同层的数据进行加权处理,以得到无偏的估计量。分层样本的总体均值估计量 yˉst \bar{y}_{st} 为:
yˉst=h=1LWhyˉh\bar{y}_{st} = \sum_{h=1}^{L} W_h \bar{y}_h

其中 Wh=Nh/N W_h = N_h / N 是第 h h 层的权重,yˉh \bar{y}_h 是第 h h 层样本的均值。

示例:大学满意度调查

假设某大学希望调查全校 10,000 名学生对学校的满意度。研究者认为不同学院的学生由于专业特点和资源分配不同,其满意度可能存在系统性差异。因此,决定采用分层抽样。

  1. 总体与分层:总体是全校 10,000 名学生。以“学院”作为分层变量,分为三个层:工学院 (5,000人)、文学院 (3,000人) 和商学院 (2,000人)。
  • N1=5000 N_1=5000 (工学院), N2=3000 N_2=3000 (文学院), N3=2000 N_3=2000 (商学院)
  • 总体大小 N=10000 N = 10000
  1. 确定样本量:假设经计算,总样本量需为 n=500 n=500
  1. 分配样本量(采用比例分配)
  • 工学院样本量:n1=500×500010000=250 n_1 = 500 \times \frac{5000}{10000} = 250
  • 文学院样本量:n2=500×300010000=150 n_2 = 500 \times \frac{3000}{10000} = 150
  • 商学院样本量:n3=500×200010000=100 n_3 = 500 \times \frac{2000}{10000} = 100
  • 检查:250+150+100=500 250 + 150 + 100 = 500 ,分配正确。
  1. 抽取样本:分别从工学院的5000人名单中随机抽取250人,从文学院的3000人中随机抽取150人,从商学院的2000人中随机抽取100人。
  1. 数据分析:假设得到的三个学院样本的平均满意度(5分制)分别为 yˉ1=4.2 \bar{y}_1=4.2 , yˉ2=3.8 \bar{y}_2=3.8 , yˉ3=4.5 \bar{y}_3=4.5 。那么,全校满意度的估计值为:
yˉst=W1yˉ1+W2yˉ2+W3yˉ3=500010000(4.2)+300010000(3.8)+200010000(4.5)=0.5(4.2)+0.3(3.8)+0.2(4.5)=2.1+1.14+0.9=4.14\bar{y}_{st} = W_1 \bar{y}_1 + W_2 \bar{y}_2 + W_3 \bar{y}_3 = \frac{5000}{10000}(4.2) + \frac{3000}{10000}(3.8) + \frac{2000}{10000}(4.5) = 0.5(4.2) + 0.3(3.8) + 0.2(4.5) = 2.1 + 1.14 + 0.9 = 4.14

因此,估计全校学生的平均满意度为 4.14 分。

优势与劣势

优势

  1. 提高估计精度:通过将异质总体划分为同质的层,分层抽样可以显著降低抽样方差 (Variance),从而得到比简单随机抽样更精确的参数估计和更窄的置信区间 (Confidence Interval)。
  2. 保证子群体代表性:确保了即使是规模较小的子群体也能在样本中拥有足够的代表,从而可以对特定的子群体进行独立分析和比较。
  3. 管理便利性:将庞大的抽样任务分解到不同的地理区域或部门(层),可以使抽样工作的组织和管理更加方便高效。

劣势

  1. 需要辅助信息:实施分层抽样的一个关键前提是,必须拥有一个高质量的抽样框,其中包含用于分层的变量信息。获取这些信息可能成本高昂或根本不可能。
  2. 设计复杂性:与简单随机抽样相比,分层抽样的设计和实施过程更为复杂,需要确定分层变量、划分层次、计算各层样本量等。
  3. 分层不当的风险:如果选择的分层变量与研究目标无关,或者分层方式不合理(例如,层内异质性仍然很高),分层抽样的效果可能并不比简单随机抽样好,甚至可能更差。

与其他抽样方法的比较

当总体存在显著的异质性时,分层抽样通常比SRS有更高的效率(即在相同样本量下有更小的抽样误差)。SRS将总体视为一个整体,随机抽取时可能偶然地过多或过少地抽中某个子群体,而分层抽样通过事先的结构安排避免了这个问题。

这是初学者容易混淆的一对概念。主要区别在于:

  • 目标:分层抽样是为了提高精度,通过构建“层内同质,层间异质”的结构;整群抽样主要是为了降低成本和提高可行性,利用“群内异质(如同一个微缩总体),群间同质”的结构。
  • 抽样过程:分层抽样会从所有的层中抽取样本;整群抽样则是先随机抽取部分群,然后对被抽中的群进行全面调查或再次抽样。
  • 方差:正确的分层抽样几乎总能降低抽样误差,而整群抽样由于群内个体可能存在相关性,通常会增大抽样误差。