ARTICLE

population

总体 (Population) 总体(Population)在统计学中是指根据研究目标所定义的、具有某种共同特征的全部个体(individuals)或观测单元(observational units)的集合。总体是统计推断的逻辑起点——任何关于总体特征(即总体参数)的结论,最终都基于从总体中抽取的样本数据来推导。从理论上讲,总体可以是有限的(如"2025年中

浏览 5 更新 2026-07-12

总体 (Population)

总体(Population)在统计学中是指根据研究目标所定义的、具有某种共同特征的全部个体(individuals)或观测单元(observational units)的集合。总体是统计推断的逻辑起点——任何关于总体特征(即总体参数)的结论,最终都基于从总体中抽取的样本数据来推导。从理论上讲,总体可以是有限的(如"2025年中国所有上市公司"),也可以是无限的(如"某药物所有潜在服用者的不良反应"),其边界由研究问题的范畴决定。

总体与样本的根本区分

统计学的核心逻辑建立在总体与样本的严格区分之上。总体参数(Population Parameter)是描述总体特征的固定但通常未知的数值,如总体均值 μ\mu、总体方差 σ2\sigma^2总体比例 pp样本统计量(Sample Statistic)则是根据样本数据计算出的相应数值,如样本均值 Xˉ\bar{X}、样本方差 s2s^2。统计推断的基本任务正是利用样本统计量对总体参数进行估计假设检验

这一区分具有根本的哲学和方法论意义:总体参数是确定的常数(尽管未知),而样本统计量是一个随机变量——不同的随机样本会给出不同的统计量取值,其概率分布称为抽样分布。例如,样本均值 Xˉ\bar{X} 作为统计量,其期望等于总体均值 E[Xˉ]=μE[\bar{X}] = \mu(即无偏性),其方差为 Var(Xˉ)=σ2/n\operatorname{Var}(\bar{X}) = \sigma^2/n,并且随着样本量 nn 的增大,Xˉ\bar{X} 的分布趋近于正态分布(中心极限定理)。

目标总体与抽样总体

在实际应用中,需要区分目标总体(Target Population)与抽样总体(Sampled Population)。目标总体是研究者希望做出推断的理想总体;抽样总体则是实际可被抽样的总体。两者的不一致构成了统计推断中最重要的覆盖误差(Coverage Error)来源之一。

例如,若目标总体是"全体中国成年人口",但抽样依赖于固定电话或手机号码数据库,则无电话或拒绝接听的群体被系统性地排除在外,抽样的结果仅能代表抽样总体(有电话且愿意接听的人群),而未必能代表目标总体。类似的问题在网络调查便利抽样自愿回应样本中尤为突出——1936年《文学文摘》预测失败正是覆盖误差的经典案例:该调查使用了杂志订阅者、汽车登记名册和电话簿等来源,系统性地偏向了共和党支持者阶层。

总体界定与有限总体校正

对于有限总体(如"某企业5000名员工"),若抽样比例 n/Nn/N 超过 5\%,则在计算抽样误差时应使用有限总体校正因子(Finite Population Correction, FPC):

FPC=NnN1\text{FPC} = \sqrt{\frac{N - n}{N - 1}}

FPC 调整后的标准误差为 SEFPC=σnNnN1\text{SE}_{\text{FPC}} = \frac{\sigma}{\sqrt{n}} \cdot \sqrt{\frac{N-n}{N-1}}。当 n=Nn = N(即普查)时,FPC 为零,抽样误差不复存在——这正是普查(Census)与抽样调查的根本区别:普查观测整个总体,不存在抽样误差,但可能仍存在测量误差和非抽样误差。

总体分布与统计模型

总体的概率结构由总体分布(Population Distribution)描述,即个体特征值在总体中的分布形态。设随机变量 XX 表示个体特征,总体分布可记为 FX(x)F_X(x)。在参数统计中,假定总体分布属于某参数族(如正态分布伯努利分布泊松分布),未知的仅是分布参数(如 μ,σ2,p\mu, \sigma^2, p)。在非参数统计中,则不对总体分布的形式做任何参数化假设,只利用排序等稳健方法进行推断。

总体分布的分位数同样重要:中位数FX1(0.5)F_X^{-1}(0.5),刻画总体中心趋势的另一种度量(对偏态分布更稳健);四分位距(IQR)则度量总体离散程度,不受极端值影响。

多重总体与比较分析

许多研究涉及多个总体的比较。例如,双样本t检验比较两个总体的均值是否相等;方差分析(ANOVA)扩展至三个及以上总体均值的比较;列联表分析中的卡方检验比较多个总体在分类变量上的分布是否一致。在这些设定中,每个总体都有其独特的参数,检验的原假设通常设定为这些参数相等。

回归分析中,总体被理解为条件分布的集合:给定解释变量 X=xX = x 时,被解释变量 YY 的条件分布构成一个子总体。线性回归假定所有子总体的条件均值是 xx 的线性函数 E[YX=x]=β0+β1xE[Y \mid X = x] = \beta_0 + \beta_1 x,且条件方差齐性。异方差性则意味着不同子总体的方差可能不同,需要进行稳健标准误校正。

随机抽样与总体代表性

样本能否代表总体取决于抽样方法。概率抽样(Probability Sampling)——包括简单随机抽样分层抽样整群抽样系统抽样——通过随机化机制确保每个总体单元有已知非零的入样概率,从而支持基于概率论的统计推断。与之相对,非概率抽样(如配额抽样滚雪球抽样)则无此保障,推断结论的外部有效性(外部效度)依赖于无法验证的假设。

即使采用完美的概率抽样,无回应偏差(Nonresponse Bias)和时间覆盖偏差也可能损害样本对总体的代表性。这就是为什么调查统计学强调在数据收集环节尽可能提高回应率,并在分析阶段使用加权调整(如事后分层加权倾向得分加权)来修正已知的覆盖偏差。

与相关概念的关系

总体概念与样本普查抽样框(Sampling Frame)紧密关联。抽样框是抽样总体的具体列表或映射,其质量直接决定样本能否代表目标总体。在贝叶斯统计中,总体参数被视为随机变量,而非固定常数——这一区别反映了频率学派与贝叶斯学派在本体论上的根本分歧。无论是在哪个学派框架下,"明确界定总体"始终是任何统计研究设计中不可或缺的首要步骤:一次界定不清的调查,其结论的适用范围将永远模糊。