估计误差 (Estimation Error)
估计误差指样本数据算出的估计量θ^与总体真实参数θ之差→θ^−θ→正为高估→负为低估。因无法观测整个总体→任何基于样本的点估计几乎不可能精确等于真值→估计误差是统计推断中不可避免的内在不确定性→量化它是构建置信区间与假设检验的前提。
误差来源:抽样误差 vs 非抽样误差
估计误差可分解为两部分:
抽样误差:仅因分析样本而非总体产生的随机差异→即使完全随机无偏→不同样本得不同估计值。性质:随机→无法消除但可量化控制。核心影响因素:样本容量n→据大数定律→n增大时期望幅度减小→如样本均值标准误σ/n随n递减。
非抽样误差:数据收集/处理/分析中引入的系统性或随机性错误→增加样本量不能消除甚至可能放大。四类:
- 覆盖误差:抽样框未完整覆盖总体→选择性偏差
- 测量误差:问卷设计/工具/受访者理解偏差→记录值≠真实值
- 无应答误差:被选单位未提供信息→应答者与未应答者系统差异
- 数据处理误差:录入/编码/加权过程的人为错误
三大核心统计性质
评估估计量θ^优劣→分析估计误差θ^−θ的以下性质:
偏差 (Bias):估计误差的期望值→Bias(θ^)=E[θ^]−θ。若Bias=0→θ^为无偏估计量→长期平均等于真值。若=0→有偏。
方差 (Variance):Var(θ^)=E[(θ^−E[θ^])2]→衡量不同样本下估计值的离散程度(精确性)。方差越小→估计越稳定。无偏估计量中方差最小者→最小方差无偏估计量(MVUE)→亦称有效估计量。
均方误差 (MSE):MSE(θ^)=E[(θ^−θ)2]→综合偏差与方差→最常用总体性能指标。关键分解:
MSE(θ^)=Var(θ^)+[Bias(θ^)]2
推导:E[(θ^−θ)2]=E[(θ^−E[θ^])2]+(E[θ^]−θ)2→交叉项2E[(θ^−E[θ^])(E[θ^]−θ)]=0因E[θ^]−θ为常数且E[θ^−E[θ^]]=0。
此分解揭示偏差-方差权衡:复杂模型偏差小方差大(过拟合)→简单模型方差小偏差大(欠拟合)→实践中常接受轻微有偏但方差显著更小的估计量→其MSE可能低于无偏估计量→如James-Stein估计量、LASSO回归。
经典示例:样本均值估计总体均值
以样本均值Xˉ=n1∑Xi估计总体均值μ→单次估计误差xˉ−μ:
- 偏差:E[Xˉ]=μ→Bias=0→样本均值是μ的无偏估计量
- 方差:独立抽样下Var(Xˉ)=σ2/n→n越大方差越小
- MSE:因无偏→MSE(Xˉ)=Var(Xˉ)=σ2/n→随n增大趋零→体现一致性:n→∞时θ^依概率收敛于θ
此例直观说明增大样本量是控制估计误差最根本的手段→但需警惕非抽样误差不随n增大而消失。