ARTICLE

样本 (Sample)

样本 (Sample) 样本 (Sample) 是统计学中最基础的概念之一。它指从某个所关心的总体 (总体，Population) 中，按照特定规则抽取出来的一部分个体的集合。样本的核心作用在于：研究者通过对样本的观测和分析，推断 (Infer) 总体的特征或规律，而不必（或不能）对整个总体进行逐一测量。这一以局部推知全局的过程，构成了统计推断 (S

浏览 0 更新 2025-10-26

样本 (Sample)

样本 (Sample) 是统计学中最基础的概念之一。它指从某个所关心的总体 (总体，Population) 中，按照特定规则抽取出来的一部分个体的集合。样本的核心作用在于：研究者通过对样本的观测和分析，推断 (Infer) 总体的特征或规律，而不必（或不能）对整个总体进行逐一测量。这一以局部推知全局的过程，构成了统计推断 (Statistical Inference) 的基石。

总体与样本的关系

总体是研究问题所涉及的全部个体的集合，而样本是总体的一个子集。两者的关系决定了统计推断能否有效进行：

总体通常是未知的——我们无法观测总体的真实参数（如总体均值 $\mu$ 、总体方差 $\sigma^2$ ），这正是需要抽样的原因。
样本是已知的、可观测的——我们能计算样本均值 $\bar{X}$ 、样本方差 $s^2$ 等 统计量 (Statistic)，并以此作为总体参数的估计。
样本的抽取方式决定了从样本到总体的推断是否可靠——若抽样方式存在系统性偏差，则再大的样本量也无法修正结论的方向性错误。

随机样本与 i.i.d. 假设

统计学中最理想的样本是 随机样本 (Random Sample)。其正式定义为：设 $X_1, X_2, \ldots, X_n$ 是从某个分布 $F$ 中抽取的 $n$ 个随机变量，若它们满足：

独立性 (Independence)：各 $X_i$ 之间相互独立，任何一个观测值的取值不影响其余观测值；
同分布性 (Identical Distribution)：每个 $X_i$ 都来自同一个总体分布 $F$ 。

则称这组观测值为来自总体 $F$ 的一个 独立同分布 (独立同分布，i.i.d.) 随机样本。i.i.d. 假设是绝大多数经典统计方法（如最大似然估计、t检验、方差分析）得以成立的前提。

在实际应用中，实现 i.i.d. 的常用方法是 简单随机抽样：从总体中以等概率、有放回（或当总体远大于样本量时以无放回近似）的方式抽取个体。与之相对的 非随机抽样（如便利抽样、志愿者抽样、滚雪球抽样）虽在实践中常见，但其统计性质难以保证。

样本统计量与抽样分布

样本本身是原始数据，其信息需要被凝练为有意义的数字——这就是 样本统计量。最常见的样本统计量包括：

\bar{X} = \frac{1}{n}\sum_{i=1}^{n} X_i \quad \text{(样本均值)}

s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(X_i - \bar{X})^2 \quad \text{(样本方差)}

由于样本是随机的，样本统计量本身也是随机变量，其概率分布称为 抽样分布 (Sampling Distribution)。抽样分布是统计推断的核心工具：它告诉我们，在重复抽样的假设下，统计量将如何围绕真实参数波动。

以样本均值为例，若总体均值为 $\mu$ 、总体方差为 $\sigma^2$ ，则：

E[\bar{X}] = \mu, \quad \operatorname{Var}(\bar{X}) = \frac{\sigma^2}{n}

由此可得出两个关键结论：第一，样本均值是总体均值的无偏的估计量（期望等于真值）；第二，样本量 $n$ 越大，样本均值的方差越小，估计越精确。更一般地，中心极限定理 (Central Limit Theorem) 指出，无论总体分布形态如何，当 $n$ 充分大时， $\bar{X}$ 的抽样分布近似于正态分布 $N(\mu, \sigma^2/n)$ 。这一结论是区间估计和假设检验的理论基础。

样本量的选择

样本量 $n$ 的确定是研究设计中的关键决策，涉及统计精度与实际成本的权衡：

精度需求：由 $\operatorname{Var}(\bar{X}) = \sigma^2/n$ 可知，要将标准误减半，样本量需增至原来的四倍。
效应大小与检验功效：在假设检验中，所需样本量取决于预期效应量 (Effect Size)、显著性水平 $\alpha$ 和期望的统计功效 $1-\beta$ 。效应越小，所需样本越大。
抽样分数：当总体有限且样本量占总体比例较高（超过 $5\%$ ）时，需引入 有限总体校正因子 (Finite Population Correction)，即 $\sqrt{(N-n)/(N-1)}$ ，以缩小标准误。

样本与普查

样本的对立面是普查 (Census)，即对总体中每一个个体进行测量。普查在理论上消除了抽样误差，但现实中大多数情况下并不可行：成本过高、耗时过长，且对破坏性试验（如测量灯泡寿命）而言不可能实施。因此，抽样成为统计实践中的主流策略。即使在中国的人口普查或经济普查中，也会辅以抽样调查以获取更丰富、更及时的信息。

常见误区

"样本越大越好"：大样本确实能降低抽样误差，但无法修正系统性偏差。一个从有偏抽样框中获得的大样本，只会更精确地估计一个错误的值。
"样本必须占总体的一定比例才有效"：样本的代表性取决于抽样方式，而非样本占总体的比例。从一亿人的总体中随机抽取一千人，其代表性远优于从一万人中便利抽取五千人。
"样本统计量等于总体参数"：样本均值 $\bar{X}$ 是总体均值 $\mu$ 的一个估计，几乎不可能恰好相等。统计推断的目标不是求得"精确的"参数值，而是以可量化的不确定性来逼近它。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。