ARTICLE

样本 (Sample)

样本 (Sample) 样本 (Sample) 是 统计学 中最基础的概念之一。它指从某个所关心的 总体 (总体,Population) 中,按照特定规则抽取出来的一部分个体的集合。样本的核心作用在于:研究者通过对样本的观测和分析,推断 (Infer) 总体的特征或规律,而不必(或不能)对整个总体进行逐一测量。这一以局部推知全局的过程,构成了 统计推断 (S

浏览 0 更新 2025-10-26

样本 (Sample)

样本 (Sample) 是 统计学 中最基础的概念之一。它指从某个所关心的 总体 (总体,Population) 中,按照特定规则抽取出来的一部分个体的集合。样本的核心作用在于:研究者通过对样本的观测和分析,推断 (Infer) 总体的特征或规律,而不必(或不能)对整个总体进行逐一测量。这一以局部推知全局的过程,构成了 统计推断 (Statistical Inference) 的基石。

总体与样本的关系

总体 是研究问题所涉及的全部个体的集合,而样本是总体的一个子集。两者的关系决定了统计推断能否有效进行:

  • 总体通常是未知的——我们无法观测总体的真实 参数(如总体均值 μ\mu、总体方差 σ2\sigma^2),这正是需要抽样的原因。
  • 样本是已知的、可观测的——我们能计算 样本均值 Xˉ\bar{X}、样本方差 s2s^2统计量 (Statistic),并以此作为总体参数的估计。
  • 样本的抽取方式决定了从样本到总体的推断是否可靠——若抽样方式存在系统性偏差,则再大的样本量也无法修正结论的方向性错误。

随机样本与 i.i.d. 假设

统计学中最理想的样本是 随机样本 (Random Sample)。其正式定义为:设 X1,X2,,XnX_1, X_2, \ldots, X_n 是从某个分布 FF 中抽取的 nn随机变量,若它们满足:

  1. 独立性 (Independence):各 XiX_i 之间相互独立,任何一个观测值的取值不影响其余观测值;
  2. 同分布性 (Identical Distribution):每个 XiX_i 都来自同一个总体分布 FF

则称这组观测值为来自总体 FF 的一个 独立同分布 (独立同分布,i.i.d.) 随机样本。i.i.d. 假设是绝大多数经典统计方法(如 最大似然估计t检验方差分析)得以成立的前提。

在实际应用中,实现 i.i.d. 的常用方法是 简单随机抽样:从总体中以等概率、有放回(或当总体远大于样本量时以无放回近似)的方式抽取个体。与之相对的 非随机抽样(如便利抽样、志愿者抽样、滚雪球抽样)虽在实践中常见,但其统计性质难以保证。

样本统计量与抽样分布

样本本身是原始数据,其信息需要被凝练为有意义的数字——这就是 样本统计量。最常见的样本统计量包括:

Xˉ=1ni=1nXi(样本均值)\bar{X} = \frac{1}{n}\sum_{i=1}^{n} X_i \quad \text{(样本均值)}
s2=1n1i=1n(XiXˉ)2(样本方差)s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(X_i - \bar{X})^2 \quad \text{(样本方差)}

由于样本是随机的,样本统计量本身也是随机变量,其概率分布称为 抽样分布 (Sampling Distribution)。抽样分布是统计推断的核心工具:它告诉我们,在重复抽样的假设下,统计量将如何围绕真实参数波动。

以样本均值为例,若总体均值为 μ\mu、总体方差为 σ2\sigma^2,则:

E[Xˉ]=μ,Var(Xˉ)=σ2nE[\bar{X}] = \mu, \quad \operatorname{Var}(\bar{X}) = \frac{\sigma^2}{n}

由此可得出两个关键结论:第一,样本均值是总体均值的 无偏的 估计量(期望等于真值);第二,样本量 nn 越大,样本均值的方差越小,估计越精确。更一般地,中心极限定理 (Central Limit Theorem) 指出,无论总体分布形态如何,当 nn 充分大时,Xˉ\bar{X} 的抽样分布近似于正态分布 N(μ,σ2/n)N(\mu, \sigma^2/n)。这一结论是区间估计和假设检验的理论基础。

样本量的选择

样本量 nn 的确定是研究设计中的关键决策,涉及统计精度与实际成本的权衡:

  • 精度需求:由 Var(Xˉ)=σ2/n\operatorname{Var}(\bar{X}) = \sigma^2/n 可知,要将标准误减半,样本量需增至原来的四倍。
  • 效应大小与检验功效:在 假设检验 中,所需样本量取决于预期 效应量 (Effect Size)、显著性水平 α\alpha 和期望的统计功效 1β1-\beta。效应越小,所需样本越大。
  • 抽样分数:当总体有限且样本量占总体比例较高(超过 5%5\%)时,需引入 有限总体校正因子 (Finite Population Correction),即 (Nn)/(N1)\sqrt{(N-n)/(N-1)},以缩小标准误。

样本与普查

样本的对立面是 普查 (Census),即对总体中每一个个体进行测量。普查在理论上消除了抽样误差,但现实中大多数情况下并不可行:成本过高、耗时过长,且对破坏性试验(如测量灯泡寿命)而言不可能实施。因此,抽样成为统计实践中的主流策略。即使在中国的人口普查或经济普查中,也会辅以抽样调查以获取更丰富、更及时的信息。

常见误区

  • "样本越大越好":大样本确实能降低抽样误差,但无法修正系统性偏差。一个从有偏抽样框中获得的大样本,只会更精确地估计一个错误的值。
  • "样本必须占总体的一定比例才有效":样本的代表性取决于抽样方式,而非样本占总体的比例。从一亿人的总体中随机抽取一千人,其代表性远优于从一万人中便利抽取五千人。
  • "样本统计量等于总体参数":样本均值 Xˉ\bar{X} 是总体均值 μ\mu 的一个估计,几乎不可能恰好相等。统计推断的目标不是求得"精确的"参数值,而是以可量化的不确定性来逼近它。