ARTICLE

unbiased estimator

无偏估计量 (Unbiased Estimator) 无偏估计量 (Unbiased Estimator) 是点估计理论中最基本的优良性准则。设总体参数为 ,基于样本 X_1, , X_n 构造的估计量 _n = T(X_1, , X_n),若对任意 满足: 则称 _n 为 的无偏估计量;否则为有偏估计量,其偏倚 (Bias) 定义为: 无偏性的直观含义是:

浏览 0 更新 2025-10-31

无偏估计量 (Unbiased Estimator)

无偏估计量 (Unbiased Estimator) 是点估计理论中最基本的优良性准则。设总体参数为 θ\theta,基于样本 X1,,XnX_1, \ldots, X_n 构造的估计量 θ^n=T(X1,,Xn)\hat{\theta}_n = T(X_1, \ldots, X_n),若对任意 θΘ\theta \in \Theta 满足:

Eθ[θ^n]=θ\mathbb{E}_\theta[\hat{\theta}_n] = \theta

则称 θ^n\hat{\theta}_nθ\theta无偏估计量;否则为有偏估计量,其偏倚 (Bias) 定义为:

Biasθ(θ^n)=Eθ[θ^n]θ\operatorname{Bias}_\theta(\hat{\theta}_n) = \mathbb{E}_\theta[\hat{\theta}_n] - \theta

无偏性的直观含义是:估计量在重复抽样中不会系统性地高估或低估真实参数——其抽样分布的"重心"落在参数真值上。这不是对单次估计的保证,而是对估计程序长期行为的约束。

经典示例

一、样本均值

设总体均值为 μ\mu,方差为 σ2\sigma^2。样本均值 Xˉ=1ni=1nXi\bar{X} = \frac{1}{n}\sum_{i=1}^n X_iμ\mu 的无偏估计量:

E[Xˉ]=1ni=1nE[Xi]=μ\mathbb{E}[\bar{X}] = \frac{1}{n}\sum_{i=1}^n \mathbb{E}[X_i] = \mu

此性质不依赖任何分布假设,仅需期望的线性性质。

二、样本方差与 Bessel 校正

若定义 σ^MLE2=1ni=1n(XiXˉ)2\hat{\sigma}^2_{\text{MLE}} = \frac{1}{n}\sum_{i=1}^n (X_i - \bar{X})^2,则:

E[σ^MLE2]=n1nσ2σ2\mathbb{E}[\hat{\sigma}^2_{\text{MLE}}] = \frac{n-1}{n}\sigma^2 \neq \sigma^2

该估计量系统性偏低,原因是 Xˉ\bar{X} 消耗了一个自由度。引入Bessel校正

s2=1n1i=1n(XiXˉ)2s^2 = \frac{1}{n-1}\sum_{i=1}^n (X_i - \bar{X})^2

可得 E[s2]=σ2\mathbb{E}[s^2] = \sigma^2。注意,s=s2s = \sqrt{s^2} 并非标准差的无偏估计——无偏性在非线性变换下不被保持。

无偏性与其他准则的关系

均方误差分解

均方误差 (MSE) 提供更全面的精度度量:

MSEθ(θ^)=Varθ(θ^)+[Biasθ(θ^)]2\operatorname{MSE}_\theta(\hat{\theta}) = \operatorname{Var}_\theta(\hat{\theta}) + [\operatorname{Bias}_\theta(\hat{\theta})]^2

这揭示了偏倚-方差权衡:有偏但方差极小的估计量可能比无偏但高方差的估计量拥有更低 MSE。例如,James-Stein估计量p3p \geq 3 时通过引入可控偏倚,在 MSE 意义上严格优于样本均值。

渐近无偏性

limnE[θ^n]=θ\lim_{n\to\infty} \mathbb{E}[\hat{\theta}_n] = \theta,则称为渐近无偏估计量。渐近无偏性弱于有限样本无偏性,且与一致性互不蕴含。

Cramér-Rao 下界

在正则条件下,任何无偏估计量的方差存在下界:

Varθ(θ^)1nI(θ)\operatorname{Var}_\theta(\hat{\theta}) \geq \frac{1}{n \cdot \mathcal{I}(\theta)}

其中 I(θ)\mathcal{I}(\theta)Fisher信息。达到下界的无偏估计量称为有效估计量 (Efficient Estimator)。

无偏性的局限

  • 存在性问题:某些参数不存在无偏估计。例如,二项分布 pp几率 p1p\frac{p}{1-p} 在有限样本下不存在无偏估计量。
  • 非唯一性:同一参数可有多个无偏估计量。X1X_1Xˉ\bar{X} 都是 μ\mu 的无偏估计,但方差不同——需借助UMVUE进一步筛选。
  • 变换不保持θ^\hat{\theta} 无偏不意味着 g(θ^)g(\hat{\theta}) 无偏。若 gg 为严格凸函数,Jensen 不等式给出 E[g(θ^)]>g(θ)\mathbb{E}[g(\hat{\theta})] > g(\theta)
  • 与决策理论的冲突:在贝叶斯统计学框架下,后验均值通常有偏但可实现更低的后验损失。

尽管如此,无偏性在教学与基础理论中不可替代。它与高斯-马尔可夫定理BLUE的性质直接相连:OLS 估计量在线性无偏估计量类中方差最小,这一结论完全建立在无偏性约束之上。