ARTICLE

简单随机样本

简单随机样本 (Simple Random Sample) 简单随机样本 (Simple Random Sample, SRS) 是统计学中最基本的样本类型,指从总体中按特定规则抽取的、使得所有可能的样本都具有相等概率被抽中的一组个体。简单随机样本是概率抽样 (Probability Sampling) 的理论基石,也是统计推断中多数经典方法的前提假设——即

浏览 0 更新 2025-10-26

简单随机样本 (Simple Random Sample)

简单随机样本 (Simple Random Sample, SRS) 是统计学中最基本的样本类型,指从总体中按特定规则抽取的、使得所有可能的样本都具有相等概率被抽中的一组个体。简单随机样本是概率抽样 (Probability Sampling) 的理论基石,也是统计推断中多数经典方法的前提假设——即样本是独立同分布地 (i.i.d.) 从总体中抽取的。

定义与数学表述

设总体 UU 包含 NN 个个体,记作 U={1,2,,N}U = \{1, 2, \ldots, N\}。从 UU 中不放回地抽取容量为 nn 的样本 SUS \subseteq U,若每个可能的 (Nn)\binom{N}{n} 个样本子集被抽中的概率相等,即

P(S=s)=1(Nn),sU,s=nP(S = s) = \frac{1}{\binom{N}{n}}, \quad \forall s \subseteq U, |s| = n

则称 SS 为一个简单随机样本。若为有放回抽样,则每次抽取独立且每个个体被抽中的概率均为 1/N1/N,观测值 X1,X2,,XnX_1, X_2, \ldots, X_n 构成独立同分布 (i.i.d.) 随机变量序列。

推断统计学中,当说"X1,X2,,XnX_1, X_2, \ldots, X_n 是来自总体的简单随机样本"时,通常隐含两个核心假设:

  1. 独立性:任意两个观测值之间统计独立。
  2. 同分布性:每个观测值均来自同一总体分布 FF

这两个性质共同构成了 i.i.d. 假设,它是大数定律中心极限定理以及OLS估计量性质推导的逻辑起点。

抽样方法

在实践中,获取简单随机样本需要借助严格的程序。最常用的方法包括:

抽签法 (Lottery Method):将总体中每个个体编号,将号码写在签上,均匀混合后随机抽取 nn 个。此法直观但仅适用于总体规模 NN 较小时。

随机数表法 (Random Number Table):使用预先生成的随机数表,按某种规则读出与个体编号对应的随机数字,选取匹配的个体入样。随机数表的设计保证数字序列的均匀性和独立性。

计算机生成法 (Computer-Generated Random Numbers):利用伪随机数生成算法(如梅森旋转算法 Mersenne Twister)产生 nn 个均匀分布随机数,映射到总体编号后抽取。现代统计软件(如 R、Python、Stata)均内置了高质量的随机数生成器,支持一键生成简单随机样本。对于大规模抽样,计算机方法是唯一可行的选择。

当总体规模 NN 未知或不存在明确的抽样框 (Sampling Frame) 时,简单随机抽样可能难以实施,此时需转向分层抽样整群抽样等方法。然而即使在复合抽样设计中,简单随机样本的理论结果也常作为效率比较的基准。

样本统计量的性质

简单随机样本众多优良性质使其成为统计推断的黄金标准。

样本均值的无偏性:设总体均值为 μ\mu,方差为 σ2\sigma^2,则有

E(Xˉ)=μ,Var(Xˉ)=σ2n\mathbb{E}(\bar{X}) = \mu, \quad \operatorname{Var}(\bar{X}) = \frac{\sigma^2}{n}

其中 Xˉ=1ni=1nXi\bar{X} = \frac{1}{n}\sum_{i=1}^n X_i。等号右侧的方差公式仅在简单随机样本(独立同分布)下严格成立。样本均值 Xˉ\bar{X} 是总体均值 μ\mu无偏估计量 (Unbiased Estimator)。

样本方差的无偏性:定义

s2=1n1i=1n(XiXˉ)2s^2 = \frac{1}{n-1}\sum_{i=1}^n (X_i - \bar{X})^2

则有 E(s2)=σ2\mathbb{E}(s^2) = \sigma^2。分母为 n1n-1 而非 nn 是因为自由度损失——样本均值的估计消耗了一个自由度,这是Bessel校正 (Bessel's Correction) 的直接结果。

大样本性质:当 nn \to \infty 时,大数定律保证 Xˉpμ\bar{X} \xrightarrow{p} \mu(一致性),中心极限定理进一步给出

n(Xˉμ)dN(0,σ2)\sqrt{n}(\bar{X} - \mu) \xrightarrow{d} N(0, \sigma^2)

这为构建置信区间和进行假设检验提供了理论基础。具体而言,总体均值 μ\mu1α1-\alpha 置信区间为

Xˉ±zα/2σn\bar{X} \pm z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}

σ\sigma 未知时,用样本标准差 ss 替代,并改用 tt 分布临界值。

抽样误差 (Sampling Error):简单随机样本的抽样误差由标准误 σ/n\sigma/\sqrt{n} 衡量。标准误随 nn 增大以 1/n1/\sqrt{n} 的速度衰减——这意味着将抽样误差减半需要将样本量扩大为原来的四倍。这一平方根法则 (Square Root Rule) 是样本量确定的基本依据。

与简单随机抽样的区别与联系

"简单随机样本"与"简单随机抽样" (Simple Random Sampling) 在中文语境中常被混用,但严格意义上存在区分:

  • 简单随机抽样是获取样本的过程方法,指按照等概率原则从总体中抽取个体的操作程序。
  • 简单随机样本是抽样的结果,即通过简单随机抽样得到的一组观测值。

计量经济学数理统计的文献中,当说"假设我们有一个简单随机样本"时,强调的是观测值满足 i.i.d. 这一统计性质,而非抽样的机械过程。

在统计推断中的核心地位

简单随机样本是几乎所有经典统计方法的出发点。

参数估计中,最大似然估计 (MLE) 的优良性质(一致性、渐近有效性、渐近正态性)均在 i.i.d. 简单随机样本的框架下证明。Cramér-Rao下界 (Cramér-Rao Lower Bound) 给出了无偏估计量方差的理论下限,其推导同样依赖 i.i.d. 假设。

假设检验中,Neyman-Pearson引理 (Neyman-Pearson Lemma) 基于简单随机样本构造了最优检验。t检验F检验卡方检验等常见检验的临界值和 p 值均建立在样本独立同分布的假设之上。

回归分析中,高斯-马尔可夫定理 (Gauss-Markov Theorem) 保证在随机抽样(隐含 i.i.d.)等经典假设下,OLS估计量是BLUE(最佳线性无偏估计量)。若样本非随机(如存在选择偏差),则估计量可能产生偏差且不一致。

机器学习中,训练集验证集测试集的划分通常假设数据来自简单随机样本。交叉验证 (Cross-Validation) 的有效性也依赖于各观测值的独立性。当数据存在时间依赖性或空间相关性时(如时间序列数据),i.i.d. 假设被违反,需使用专门的方法(如滚动窗口验证)。

局限性与替代方法

尽管简单随机样本具有理论上的优越性,在实际应用中面临若干挑战:

抽样框缺失:当总体边界难以界定(如"北京市的小微企业主")时,无法构建完整的抽样框,简单随机抽样无法执行。

成本与效率:对于地理分布广泛的总体,简单随机抽样的实地调查成本远高于整群抽样分层抽样。分层抽样在相同样本量下通常能获得更小的抽样误差(即更高的统计效率)。

无响应与缺失数据:即使在完美的随机抽样设计下,无响应 (Non-response) 也可能破坏样本的随机性。如果拒绝回答者在关键变量上与回答者存在系统性差异,实际样本就不再是总体的简单随机样本,无响应偏差随之产生。

调查误差测量误差 (Measurement Error) 在简单随机样本中同样存在,且无法通过增加样本量来消除。

针对上述局限,实际调查中常采用分层抽样以降低抽样误差,采用整群抽样以降低调查成本,采用系统抽样以简化操作流程,并辅以加权调整 (Weighting Adjustment) 来纠正无响应和抽样框覆盖不足带来的偏差。这些方法的统计效率通常与简单随机样本进行比较——以设计效应 (Design Effect, Deff) 衡量复杂抽样设计相对于简单随机抽样的方差倍率。

总结

简单随机样本是统计学的核心概念之一,它通过严格的随机化机制保证了样本对总体的代表性,为统计推断奠定了坚实的概率论基础。样本均值的无偏性、样本方差的无偏性以及中心极限定理提供的渐近正态性,使得研究者能够基于简单随机样本对总体参数进行估计、检验和预测。尽管在复杂实地调查中纯粹简单随机样本的实现面临诸多挑战,但它的理论框架始终是所有抽样设计和统计推断方法的参照基准——任何抽样方法的优劣,最终都要回到"如果这是简单随机样本"的假设下进行评估。