ARTICLE

样本

样本 (Sample) 样本是从总体中选取的观测值子集,用以统计推断(估计总体参数)。参数( , ^2, P)vs 统计量( x, s^2, p,随样本变化的随机变量)。核心:以样本统计量估计总体参数。 为何使用样本 经济性(普查昂贵)、时效性(快速)、可行性(无限总体)、破坏性检验(不耗尽产品)。目标:获取代表性样本以避免抽样偏差。 抽样误差(随机性所致,

浏览 105 更新 2025-10-22

样本 (Sample)

样本是从总体中选取的观测值子集,用以统计推断(估计总体参数)。参数μ,σ2,P\mu, \sigma^2, P)vs 统计量xˉ,s2,p^\bar{x}, s^2, \hat{p},随样本变化的随机变量)。核心:以样本统计量估计总体参数。

为何使用样本

经济性(普查昂贵)、时效性(快速)、可行性(无限总体)、破坏性检验(不耗尽产品)。目标:获取代表性样本以避免抽样偏差

抽样误差(随机性所致,不可避免但增大nn可减小)vs 抽样偏差(抽样方法系统性错误,无法通过增大nn消除):选择偏差幸存者偏差无应答偏差

抽样方法

概率抽样(每单位已知非零选中概率,统计推断科学基础):简单随机抽样(SRS)(每单位等概率)、系统抽样(排序后固定间隔kN/nk \approx N/n抽取)、分层抽样(分层内独立SRS→更高精度)、整群抽样(抽群后全查/抽查→降低成本但误差较大)。

非概率抽样(概率未知,不可靠推广):方便抽样(偏差极高)、判断抽样滚雪球抽样(特殊群体)、配额抽样

推断统计应用

抽样分布(所有可能样本统计量的概率分布)。中心极限定理(CLT):nn足够大时xˉ\bar{x}的抽样分布近似正态分布(无论原总体分布)。使得可构造置信区间和进行假设检验。样本是连接已知数据与未知总体的桥梁。