ARTICLE

抽样误差

抽样误差 (Sampling Error) 抽样误差(Sampling Error)是统计学特别是推断统计学中的基本概念,指由于只观察样本而非整个总体,所必然产生的统计量与其对应参数之间的差异。当我们试图通过一小部分数据推断更大范围的总体特征时,样本特征几乎总会与总体的真实特征存在一定偏差。这种由抽样过程本身的随机性导致的不可避免的自然变异就是抽样误差。需要

浏览 9 更新 2025-10-26

抽样误差 (Sampling Error)

抽样误差(Sampling Error)是统计学特别是推断统计学中的基本概念,指由于只观察样本而非整个总体,所必然产生的统计量与其对应参数之间的差异。当我们试图通过一小部分数据推断更大范围的总体特征时,样本特征几乎总会与总体的真实特征存在一定偏差。这种由抽样过程本身的随机性导致的不可避免的自然变异就是抽样误差。需要强调的是,抽样误差并非"错误"(mistake),它不是由计算失误或方法不当引起的,而是随机抽样过程的内在属性。即使采用最严谨的简单随机抽样方法,抽样误差依然存在。

来源与量化

抽样误差主要来源于两个方面。样本容量是影响抽样误差的最关键因素。样本越小,代表性越不足,误差越大。随着样本量增大,统计量越来越接近总体参数,这一规律由大数定律描述。在极端情况下,如果样本等于总体(即普查),抽样误差降为零。总体变异性即总体内各单位之间的差异程度,也会影响抽样误差。高度同质的总体,无论抽取多大的样本,其特征与总体几乎完全一致,误差趋近于零。高度异质的总体,成员之间差异较大,随机样本更容易出现偏差。

抽样误差通常通过标准误来量化。例如,样本均值的标准误为 σ/n\sigma/\sqrt{n},即总体标准差除以样本量的平方根。标准误用于衡量样本统计量的抽样变异性,当样本量 nn 增大时标准误减小。在置信区间和假设检验的构造中,标准误是关键组成部分。

与非抽样误差的区分

抽样误差与非抽样误差有本质区别。抽样误差由抽样行为本身引起,是样本统计量与总体参数之间的随机差异,可以通过增大样本量和改进抽样设计来减少,并且能够被量化,通常通过标准误和置信区间来度量。非抽样误差在数据收集、处理和分析过程中发生,与抽样过程无关,包括覆盖面错误(抽样框与总体不匹配)、无回应误差(被抽中个体不愿或不能提供信息)、测量误差(问题措辞不当或受访者记忆偏差)以及处理错误(编码和录入失误)等。非抽样误差无法通过增大样本量来减少,且在统计调查中往往比抽样误差更难以控制和量化,因此是数据质量保证工作的重点关注对象。

在实证研究和计量经济学应用中,理解抽样误差对于正确解释统计结果和评估统计显著性至关重要。抽样误差的存在意味着从样本得到的系数估计和p值仅是总体参数的点估计,需要通过置信区间来传达不确定性的范围。报告标准误和置信区间而非仅仅报告点估计,是良好统计实践的基本准则。