ARTICLE

简单随机抽样

简单随机抽样 (Simple Random Sampling) 简单随机抽样 (Simple Random Sampling, SRS) 是概率抽样中最基础、最重要的一种方法。它的核心原则是确保从一个总体 (Population) 中抽取的每个个体或元素都有完全相等的机会被选中,并且由这些个体组成的任何一个可能的大小为 n 的样本 (Sample) 都有完全

浏览 63 更新 2025-10-26

简单随机抽样 (Simple Random Sampling)

简单随机抽样 (Simple Random Sampling, SRS) 是概率抽样中最基础、最重要的一种方法。它的核心原则是确保从一个总体 (Population) 中抽取的每个个体或元素都有完全相等的机会被选中,并且由这些个体组成的任何一个可能的大小为 nn样本 (Sample) 都有完全相等的机会被选中。这种方法的纯粹随机性使其成为统计推断的理论基石。

简单随机抽样是进行科学研究,尤其是社会科学、市场调查和质量控制等领域中获取代表性样本的黄金标准。其目的是为了最大限度地减少选择偏差 (Selection Bias),从而使样本的特征能够准确地推断总体的特征。

核心原则

简单随机抽样的定义包含两个关键的等概率条件:

  1. 个体的等概率性:总体中的每一个成员被抽中进入样本的概率是相等的。如果总体大小为 NN,样本大小为 nn,则任何一个个体被抽中的概率是 n/Nn/N
  2. 样本的等概率性:所有可能构成的大小为 nn 的样本组合,其被抽中的概率是完全相等的。这排除了任何形式的系统性选择,确保了抽样的纯粹随机性。

例如,在一个包含1000名员工的公司中,如果要进行一次简单随机抽样选出50人进行调查,那么每位员工都有 50/1000=5%50/1000 = 5\% 的机会被选中,并且任何由50名员工组成的特定小组(例如,前50名员工、最后50名员工,或任何随机组合的50人)被选为最终样本的概率也是相同的。

简单随机抽样的类型

根据抽样过程中是否将已选中的个体放回总体,简单随机抽样可以分为两种类型:

有放回简单随机抽样 (Simple Random Sampling with Replacement, SRSWR)

在有放回抽样中,每当一个个体被选中后,我们会记录其信息,然后将其"放回"到总体中,使其有机会再次被选中。

  • 特点: \begin{itemize}
  • 每次抽取的选择都是独立性 (Independence) 事件,因为总体的大小在整个抽样过程中保持不变(始终为 NN)。
  • 同一个个体可能在样本中出现多次。
  • 数学处理相对简单。例如,样本均值 xˉ\bar{x}方差 (Variance) 为 Var(xˉ)=σ2n\operatorname{Var}(\bar{x}) = \frac{\sigma^2}{n},其中 σ2\sigma^2总体方差nn样本量

\end{itemize}

无放回简单随机抽样 (Simple Random Sampling without Replacement, SRSWOR)

在无放回抽样中,一旦某个个体被选中,它就会从总体中移除,不能再次被选中。这是现实世界中更常用的一种方法。

  • 特点: \begin{itemize}
  • 每次抽取的选择不是严格独立的,因为每抽取一个个体,剩余总体的构成和大小都会发生变化。
  • 样本中的每个个体都是独一无二的。
  • 当样本量 nn 相对于总体量 NN 较小时(例如,n/N<5%n/N < 5\%),这种不独立性的影响非常微小,因此在实际计算中常常可以近似地按独立事件处理。
  • 数学上,其方差计算需要引入有限总体校正 (Finite Population Correction, FPC) 因子。样本均值 xˉ\bar{x} 的方差为: \[ \operatorname{Var}(\bar{x}) = \frac{\sigma^2}{n} \left( \frac{N-n}{N-1} \right) \] 当 NN 远大于 nn 时,FPC因子 (NnN1)\left( \frac{N-n}{N-1} \right) 趋近于1,该公式近似于有放回抽样的方差公式。

\end{itemize}

如何执行简单随机抽样

执行一次有效的简单随机抽样通常遵循以下步骤:

  1. 定义总体 (Define the Population):明确你研究的对象范围。例如,某城市所有的高中生、某公司所有的产品批次等。
  2. 创建抽样框 (Create a Sampling Frame)抽样框是总体中所有个体的完整列表。这是执行简单随机抽样的先决条件。例如,一份包含所有学生学号的名单、所有员工的工号列表等。每一个个体都应被分配一个唯一的标识符。
  3. 确定样本量 (Determine the Sample Size):根据研究的精度要求、置信水平、总体的变异性以及预算等因素,计算出所需的样本量 nn
  4. 使用随机方法进行抽取:利用随机化工具从抽样框中选取 nn 个个体。 \begin{itemize}
  5. 抽签法 (Lottery Method):将所有个体的编号写在纸条上,放入容器中充分混合,然后不看地抽取 nn 个纸条。这种方法适用于小规模总体。
  6. 随机数表法 (Random Number Table):使用预先生成且经过检验的随机数表来选择与标识符对应的个体。这是一种传统但仍然有效的方法。
  7. 随机数生成器 (Random Number Generator):利用计算机软件(如 Excel, Python, R, SPSS)的随机数生成器功能,生成指定范围内的 nn 个随机数,从而选定样本。这是目前最常用、最高效的方法。 \end{itemize}

简单随机抽样的优点

  • 无偏性 (Unbiasedness):简单随机抽样的核心优势在于它是一种无偏的抽样方法。在理论上,由SRS得到的样本均值 (xˉ)(\bar{x})总体均值 (μ)(\mu)无偏估计量。这意味着,如果反复进行抽样,所有样本均值的平均值将等于总体均值,即 E(xˉ)=μ\mathbb{E}(\bar{x}) = \mu。这为统计推断提供了坚实的基础。
  • 简单易懂:其概念和逻辑非常清晰,是所有抽样方法中最容易理解的一种。
  • 统计分析简便:计算样本的抽样误差 (Sampling Error)、构建置信区间 (Confidence Interval) 和进行假设检验 (Hypothesis Testing) 的数学公式都相对简单。
  • 理论基础:它是更复杂的抽样设计(如分层抽样整群抽样)的理论比较基准。

简单随机抽样的缺点

  • 依赖完整的抽样框:最大的实践障碍是需要一份关于总体的完整、准确且最新的列表。对于规模庞大或动态变化的总体(如一个国家的所有网民),获取这样的抽样框几乎是不可能的。
  • 成本高昂:如果选中的样本在地理上分布广泛,那么数据收集(如面对面访谈)的差旅成本和时间成本可能会非常高。
  • 可能无法保证子群体的代表性:纯粹的随机性意味着样本可能无法按比例地包含总体中所有重要的子群体(例如,少数族裔或特定年龄段)。如果某个子群体在总体中占比较小,简单随机抽样可能会因偶然性而完全错过该子群体,或者抽中的数量过少以至于无法进行有意义的分析。在这种情况下,分层抽样 (Stratified Sampling) 可能是更优的选择。
  • 效率较低:在某些情况下,与其他概率抽样方法(如系统抽样或分层抽样)相比,简单随机抽样在达到相同估计精度时可能需要更大的样本量,即统计效率较低。

与其他抽样方法的比较

简单随机抽样是抽样理论的基础,但实际应用中常与其他方法结合或比较:

  • 系统抽样 (Systematic Sampling):从抽样框中每隔固定间隔选取一个个体(如每隔10人取1人)。操作简便,但若抽样框存在周期性模式,可能引入偏差。
  • 分层抽样 (Stratified Sampling):将总体按某一特征(如年龄、性别)分为若干层,再在各层内独立进行简单随机抽样。当层内同质性较高时,分层抽样比简单随机抽样具有更高的估计精度。
  • 整群抽样 (Cluster Sampling):将总体分为若干群组,随机抽取部分群组,再对选中群组内的全部或部分个体进行调查。在总体地理分布广泛且难以获取完整抽样框的情况下,整群抽样能显著降低成本。
  • 多阶段抽样 (Multi-stage Sampling):结合多种抽样方法的复杂设计,先抽大单位再抽小单位。常用于大规模全国性调查,如人口普查的补充调查。

简单随机抽样尽管在操作上存在限制,但其理论上的无偏性和简洁性使其始终是统计推断中不可替代的基准方法。理解并掌握SRS是深入学习更复杂抽样技术和统计建模的必要前提。