ARTICLE

简单随机样本

简单随机样本 (Simple Random Sample) 简单随机样本 (Simple Random Sample, SRS) 是统计学中最基本的样本类型，指从总体中按特定规则抽取的、使得所有可能的样本都具有相等概率被抽中的一组个体。简单随机样本是概率抽样 (Probability Sampling) 的理论基石，也是统计推断中多数经典方法的前提假设——即

浏览 0 更新 2025-10-26

简单随机样本 (Simple Random Sample)

简单随机样本 (Simple Random Sample, SRS) 是统计学中最基本的样本类型，指从总体中按特定规则抽取的、使得所有可能的样本都具有相等概率被抽中的一组个体。简单随机样本是概率抽样 (Probability Sampling) 的理论基石，也是统计推断中多数经典方法的前提假设——即样本是独立同分布地 (i.i.d.) 从总体中抽取的。

定义与数学表述

设总体 $U$ 包含 $N$ 个个体，记作 $U = \{1, 2, \ldots, N\}$ 。从 $U$ 中不放回地抽取容量为 $n$ 的样本 $S \subseteq U$ ，若每个可能的 $\binom{N}{n}$ 个样本子集被抽中的概率相等，即

P(S = s) = \frac{1}{\binom{N}{n}}, \quad \forall s \subseteq U, |s| = n

则称 $S$ 为一个简单随机样本。若为有放回抽样，则每次抽取独立且每个个体被抽中的概率均为 $1/N$ ，观测值 $X_1, X_2, \ldots, X_n$ 构成独立同分布 (i.i.d.) 随机变量序列。

在推断统计学中，当说" $X_1, X_2, \ldots, X_n$ 是来自总体的简单随机样本"时，通常隐含两个核心假设：

独立性：任意两个观测值之间统计独立。
同分布性：每个观测值均来自同一总体分布 $F$ 。

这两个性质共同构成了 i.i.d. 假设，它是大数定律、中心极限定理以及OLS估计量性质推导的逻辑起点。

抽样方法

在实践中，获取简单随机样本需要借助严格的程序。最常用的方法包括：

抽签法 (Lottery Method)：将总体中每个个体编号，将号码写在签上，均匀混合后随机抽取 $n$ 个。此法直观但仅适用于总体规模 $N$ 较小时。

随机数表法 (Random Number Table)：使用预先生成的随机数表，按某种规则读出与个体编号对应的随机数字，选取匹配的个体入样。随机数表的设计保证数字序列的均匀性和独立性。

计算机生成法 (Computer-Generated Random Numbers)：利用伪随机数生成算法（如梅森旋转算法 Mersenne Twister）产生 $n$ 个均匀分布随机数，映射到总体编号后抽取。现代统计软件（如 R、Python、Stata）均内置了高质量的随机数生成器，支持一键生成简单随机样本。对于大规模抽样，计算机方法是唯一可行的选择。

当总体规模 $N$ 未知或不存在明确的抽样框 (Sampling Frame) 时，简单随机抽样可能难以实施，此时需转向分层抽样、整群抽样等方法。然而即使在复合抽样设计中，简单随机样本的理论结果也常作为效率比较的基准。

样本统计量的性质

简单随机样本众多优良性质使其成为统计推断的黄金标准。

样本均值的无偏性：设总体均值为 $\mu$ ，方差为 $\sigma^2$ ，则有

\mathbb{E}(\bar{X}) = \mu, \quad \operatorname{Var}(\bar{X}) = \frac{\sigma^2}{n}

其中 $\bar{X} = \frac{1}{n}\sum_{i=1}^n X_i$ 。等号右侧的方差公式仅在简单随机样本（独立同分布）下严格成立。样本均值 $\bar{X}$ 是总体均值 $\mu$ 的无偏估计量 (Unbiased Estimator)。

样本方差的无偏性：定义

s^2 = \frac{1}{n-1}\sum_{i=1}^n (X_i - \bar{X})^2

则有 $\mathbb{E}(s^2) = \sigma^2$ 。分母为 $n-1$ 而非 $n$ 是因为自由度损失——样本均值的估计消耗了一个自由度，这是Bessel校正 (Bessel's Correction) 的直接结果。

大样本性质：当 $n \to \infty$ 时，大数定律保证 $\bar{X} \xrightarrow{p} \mu$ （一致性），中心极限定理进一步给出

\sqrt{n}(\bar{X} - \mu) \xrightarrow{d} N(0, \sigma^2)

这为构建置信区间和进行假设检验提供了理论基础。具体而言，总体均值 $\mu$ 的 $1-\alpha$ 置信区间为

\bar{X} \pm z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}

当 $\sigma$ 未知时，用样本标准差 $s$ 替代，并改用 $t$ 分布临界值。

抽样误差 (Sampling Error)：简单随机样本的抽样误差由标准误 $\sigma/\sqrt{n}$ 衡量。标准误随 $n$ 增大以 $1/\sqrt{n}$ 的速度衰减——这意味着将抽样误差减半需要将样本量扩大为原来的四倍。这一平方根法则 (Square Root Rule) 是样本量确定的基本依据。

与简单随机抽样的区别与联系

"简单随机样本"与"简单随机抽样" (Simple Random Sampling) 在中文语境中常被混用，但严格意义上存在区分：

简单随机抽样是获取样本的过程或方法，指按照等概率原则从总体中抽取个体的操作程序。
简单随机样本是抽样的结果，即通过简单随机抽样得到的一组观测值。

在计量经济学和数理统计的文献中，当说"假设我们有一个简单随机样本"时，强调的是观测值满足 i.i.d. 这一统计性质，而非抽样的机械过程。

在统计推断中的核心地位

简单随机样本是几乎所有经典统计方法的出发点。

在参数估计中，最大似然估计 (MLE) 的优良性质（一致性、渐近有效性、渐近正态性）均在 i.i.d. 简单随机样本的框架下证明。Cramér-Rao下界 (Cramér-Rao Lower Bound) 给出了无偏估计量方差的理论下限，其推导同样依赖 i.i.d. 假设。

在假设检验中，Neyman-Pearson引理 (Neyman-Pearson Lemma) 基于简单随机样本构造了最优检验。t检验、F检验和卡方检验等常见检验的临界值和 p 值均建立在样本独立同分布的假设之上。

在回归分析中，高斯-马尔可夫定理 (Gauss-Markov Theorem) 保证在随机抽样（隐含 i.i.d.）等经典假设下，OLS估计量是BLUE（最佳线性无偏估计量）。若样本非随机（如存在选择偏差），则估计量可能产生偏差且不一致。

在机器学习中，训练集、验证集和测试集的划分通常假设数据来自简单随机样本。交叉验证 (Cross-Validation) 的有效性也依赖于各观测值的独立性。当数据存在时间依赖性或空间相关性时（如时间序列数据），i.i.d. 假设被违反，需使用专门的方法（如滚动窗口验证）。

局限性与替代方法

尽管简单随机样本具有理论上的优越性，在实际应用中面临若干挑战：

抽样框缺失：当总体边界难以界定（如"北京市的小微企业主"）时，无法构建完整的抽样框，简单随机抽样无法执行。

成本与效率：对于地理分布广泛的总体，简单随机抽样的实地调查成本远高于整群抽样或分层抽样。分层抽样在相同样本量下通常能获得更小的抽样误差（即更高的统计效率）。

无响应与缺失数据：即使在完美的随机抽样设计下，无响应 (Non-response) 也可能破坏样本的随机性。如果拒绝回答者在关键变量上与回答者存在系统性差异，实际样本就不再是总体的简单随机样本，无响应偏差随之产生。

调查误差：测量误差 (Measurement Error) 在简单随机样本中同样存在，且无法通过增加样本量来消除。

针对上述局限，实际调查中常采用分层抽样以降低抽样误差，采用整群抽样以降低调查成本，采用系统抽样以简化操作流程，并辅以加权调整 (Weighting Adjustment) 来纠正无响应和抽样框覆盖不足带来的偏差。这些方法的统计效率通常与简单随机样本进行比较——以设计效应 (Design Effect, Deff) 衡量复杂抽样设计相对于简单随机抽样的方差倍率。

总结

简单随机样本是统计学的核心概念之一，它通过严格的随机化机制保证了样本对总体的代表性，为统计推断奠定了坚实的概率论基础。样本均值的无偏性、样本方差的无偏性以及中心极限定理提供的渐近正态性，使得研究者能够基于简单随机样本对总体参数进行估计、检验和预测。尽管在复杂实地调查中纯粹简单随机样本的实现面临诸多挑战，但它的理论框架始终是所有抽样设计和统计推断方法的参照基准——任何抽样方法的优劣，最终都要回到"如果这是简单随机样本"的假设下进行评估。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。