ARTICLE
sample
样本 (Sample) 样本 (Sample) 是从 总体 (Population) 中按一定规则抽取的部分个体组成的子集,是 统计推断 中将样本信息推广至总体的基础桥梁。样本的核心价值在于:当全面调查(普查)因成本、时间或不可行性无法实施时,通过样本对总体特征(如 均值、方差、比例等 参数)进行估计与检验。 抽样方法分类 抽样方法分为 概率抽样 (Prob
样本 (Sample)
样本 (Sample) 是从 总体 (Population) 中按一定规则抽取的部分个体组成的子集,是 统计推断 中将样本信息推广至总体的基础桥梁。样本的核心价值在于:当全面调查(普查)因成本、时间或不可行性无法实施时,通过样本对总体特征(如 均值、方差、比例等 参数)进行估计与检验。
抽样方法分类
抽样方法分为 概率抽样 (Probability Sampling) 与 非概率抽样 (Non-probability Sampling) 两大类:
- 简单随机抽样 (Simple Random Sampling, SRS):每个个体被抽中的概率相等,且各次抽取相互独立。SRS 是所有概率抽样方法的理论基础,其样本均值 是总体均值 的 无偏估计 (Unbiased Estimator)。
- 分层抽样 (Stratified Sampling):将总体按某一特征(如收入水平、地区)划分为互不重叠的层 (Strata),然后在每层内独立进行随机抽样。分层抽样能有效降低 抽样误差,尤其当层内同质性强、层间差异大时。
- 整群抽样 (Cluster Sampling):将总体划分为若干群 (Cluster),随机抽取部分群后对群内所有个体进行全面调查。适用于总体分布广、难以建立完整抽样框的情境,如全国性 家计调查。
- 系统抽样 (Systematic Sampling):按某种顺序对总体单元排列后,每隔固定间隔 抽取一个单元。操作简便,但需警惕周期性波动导致的 偏差 (Bias)。
样本量与抽样分布
样本量 (Sample Size) 的确定需要在精度与成本之间权衡。给定置信水平 和允许误差 ,估计总体均值所需的最小样本量为:
其中 为标准正态分布的分位数, 为总体标准差。
样本统计量(如样本均值)的分布称为 抽样分布 (Sampling Distribution)。中心极限定理 (Central Limit Theorem) 指出,当样本量足够大时 (),无论总体分布如何,样本均值的抽样分布近似服从 正态分布:。
样本的代表性与偏差
样本的 代表性 (Representativeness) 是统计推断有效性的前提。常见偏差来源包括:
- 选择偏差 (Selection Bias):抽样框未能覆盖目标总体的某些子群体,如电话调查遗漏无手机人群。
- 无响应偏差 (Non-response Bias):被抽中个体拒绝参与,且拒绝者与接受者在关键特征上存在系统性差异。
- 幸存者偏差 (Survivorship Bias):仅观察"存活"下来的个体而忽视已退出者,常见于 金融 领域的基金业绩分析。
样本在经济学中的应用
在 计量经济学 中,样本数据是 回归分析 的原材料。OLS 估计量的性质——BLUE(最优线性无偏估计)——依赖于样本是否满足 Gauss-Markov 定理 的经典假设。微观经济学中,消费者价格指数 (CPI) 的编制依赖全国性家庭支出调查的样本数据;宏观经济学中,GDP 核算的部分子项亦采用抽样调查进行估算。
样本设计与分析的核心张力在于:样本越小,抽样误差 越大、置信区间 越宽;样本越大,成本越高且非抽样误差(如测量误差)可能累积。因此,抽样方案设计是实证研究中与模型选择同等重要的决策环节。