ARTICLE

无偏估计

无偏估计 (Unbiased Estimator) 无偏估计(Unbiased Estimator),或称无偏估计量,是数理统计学中评估点估计量(Point Estimator)优良性的一个核心标准。在统计推断中,通常使用来自样本(Sample)的数据来估计总体(Population)的某个未知参数(Parameter)。无偏性描述的是:在多次重复抽样中,一

浏览 104 更新 2025-12-20

无偏估计 (Unbiased Estimator)

无偏估计(Unbiased Estimator),或称无偏估计量,是数理统计学中评估点估计量(Point Estimator)优良性的一个核心标准。在统计推断中,通常使用来自样本(Sample)的数据来估计总体(Population)的某个未知参数(Parameter)。无偏性描述的是:在多次重复抽样中,一个估计量的平均值是否能够准确地等于被估计的真实参数。简而言之,一个估计量被称为无偏的,意味着它的数学期望(Expected Value)等于被估计的真实参数值。这个性质确保了估计过程在平均意义上没有系统性偏差。

形式化定义

假设有一个包含未知参数 θ\theta 的总体。为了估计 θ\theta,从该总体中抽取容量为 nn随机样本 X1,X2,,XnX_1, X_2, \dots, X_n。一个估计量 θ^\hat{\theta} 是这个随机样本的函数,记作 θ^=g(X1,X2,,Xn)\hat{\theta} = g(X_1, X_2, \dots, X_n)。由于 θ^\hat{\theta} 是随机变量的函数,它本身也是随机变量,拥有自己的概率分布,这个分布被称为抽样分布(Sampling Distribution)。称估计量 θ^\hat{\theta} 是参数 θ\theta无偏估计量,当且仅当对于 θ\theta 的所有可能值,θ^\hat{\theta} 的数学期望都等于 θ\theta

E(θ^)=θE(\hat{\theta}) = \theta

若不满足无偏性,即 E(θ^)θE(\hat{\theta}) \neq \theta,则称为有偏估计量(Biased Estimator)。需要强调,无偏性是针对估计量(即抽样规则)而言的性质,而非针对某一次具体的估计值。某一次抽样得到的估计值几乎不可能恰好等于真实参数,但若估计量是无偏的,则大量重复抽样所得估计值的平均值将趋近于真实参数。

直观理解:打靶的比喻

为更好地理解无偏性,可使用打靶类比:

  • 靶心:代表真实但未知的总体参数 θ\theta
  • 每一次射击:代表通过一次抽样计算出的具体估计值 θ^\hat{\theta}

无偏估计量如同一个技术娴熟的射手:虽然由于各种随机因素(风、手的微小抖动),每次射击的位置不完全一样——有些偏左、有些偏右、有些偏高、有些偏低——但在大量射击之后,所有弹孔的平均位置恰好就是靶心。这个射手没有系统性的瞄准偏差。

有偏估计量如同瞄准镜没有校准的射手:即使技术很好、每次射击都很集中,但所有弹孔都会系统性地偏离靶心(例如全部偏向左上方)。这意味着他的估计在平均上会持续性地高估或低估真实值。

因此,无偏性保证了估计方法在长期是"准确"的,不会系统性地犯错。但需注意,无偏性本身并不保证单次估计的精度——一个无偏但方差极大的估计量在实际中可能毫无用处。

估计量的偏差 (Bias)

对于有偏估计量,可量化其偏离程度——偏差(Bias),定义为估计量的期望与真实参数之间的差值:

Bias(θ^)=E(θ^)θ\text{Bias}(\hat{\theta}) = E(\hat{\theta}) - \theta
  • Bias(θ^)=0\text{Bias}(\hat{\theta}) = 0,则 θ^\hat{\theta} 是无偏估计量。
  • Bias(θ^)>0\text{Bias}(\hat{\theta}) > 0,则 θ^\hat{\theta} 存在正偏差或称向上偏误,平均而言会高估 θ\theta
  • Bias(θ^)<0\text{Bias}(\hat{\theta}) < 0,则 θ^\hat{\theta} 存在负偏差或称向下偏误,平均而言会低估 θ\theta

偏差是衡量估计量"准确度"(Accuracy)的指标,而方差是衡量"精度"(Precision)的指标。一个优良的估计量需要在这两方面取得平衡。

经典示例:样本均值与样本方差

样本均值 (Sample Mean)

对具有未知均值 μ\mu 和未知方差 σ2\sigma^2 的总体,抽得样本 X1,,XnX_1, \dots, X_n样本均值定义为:

Xˉ=1ni=1nXi\bar{X} = \frac{1}{n} \sum_{i=1}^n X_i

Xˉ\bar{X} 是总体均值 μ\mu 的无偏估计量。由期望的线性性质

E(Xˉ)=E(1ni=1nXi)=1ni=1nE(Xi)=1n(nμ)=μE(\bar{X}) = E\left(\frac{1}{n} \sum_{i=1}^n X_i\right) = \frac{1}{n} \sum_{i=1}^n E(X_i) = \frac{1}{n} (n\mu) = \mu

这意味着,反复从总体中抽取大量样本并计算每个样本的均值,这些均值的平均值将非常接近总体的真实均值 μ\mu。样本均值的无偏性不依赖于总体的分布形式,是一个非常稳健的性质。

样本方差 (Sample Variance)

对方差 σ2\sigma^2 的估计则更为微妙。通常会遇到两种形式的"样本方差"。

分母为 nn 的估计量:令 Sn2=1ni=1n(XiXˉ)2S_n^2 = \frac{1}{n} \sum_{i=1}^n (X_i - \bar{X})^2。这是正态分布下 σ2\sigma^2最大似然估计(Maximum Likelihood Estimator, MLE),但它是有偏的:

E(Sn2)=n1nσ2E(S_n^2) = \frac{n-1}{n}\sigma^2

由于 n1n<1\frac{n-1}{n} < 1,故 E(Sn2)<σ2E(S_n^2) < \sigma^2——使用分母 nn 会系统性地低估真实的总体方差。偏差的根源在于计算离差平方和时使用了从数据估计出的 Xˉ\bar{X},而非未知的真实均值 μ\mu。使用 Xˉ\bar{X} 会使得离差平方和平均而言比使用 μ\mu 时更小,因为 Xˉ\bar{X} 本身就是最小化离差平方和的值。

分母为 n1n-1 的估计量(无偏样本方差):为修正上述偏差,定义样本方差 S2S^2

S2=1n1i=1n(XiXˉ)2S^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \bar{X})^2

可以证明 E(S2)=σ2E(S^2) = \sigma^2,即 S2S^2σ2\sigma^2 的无偏估计量。分母中的 n1n-1 被称为自由度(Degrees of Freedom),它正是对因使用 Xˉ\bar{X} 替代 μ\mu 所造成偏差的修正。直观上,nn 个离差 (XiXˉ)(X_i - \bar{X}) 中只有 n1n-1 个是"自由"的,因为它们满足约束 i=1n(XiXˉ)=0\sum_{i=1}^n (X_i - \bar{X}) = 0

无偏性不是唯一标准:偏差-方差权衡

无偏性虽是估计量的理想性质,但并非评估其好坏的唯一标准。另一个重要标准是方差(Variance),它衡量估计值围绕其均值的离散程度,反映了估计的稳定性或精度。两者通过均方误差(Mean Squared Error, MSE)统一:

MSE(θ^)=E[(θ^θ)2]\text{MSE}(\hat{\theta}) = E\left[(\hat{\theta} - \theta)^2\right]

MSE 可分解为方差与偏差平方之和,即著名的偏差-方差分解(Bias-Variance Decomposition):

MSE(θ^)=Var(θ^)+[Bias(θ^)]2\text{MSE}(\hat{\theta}) = \text{Var}(\hat{\theta}) + \left[\text{Bias}(\hat{\theta})\right]^2

该分解揭示了重要的实践洞见:

  • 对无偏估计量(Bias=0\text{Bias}=0),MSE=Var(θ^)\text{MSE} = \text{Var}(\hat{\theta})。在此情况下,寻找最佳无偏估计量等价于寻找最小方差无偏估计量(Minimum Variance Unbiased Estimator, MVUE)。
  • 有轻微偏差的估计量可能因方差显著减小,获得比任何无偏估计量都更低的 MSE。这就是偏差-方差权衡(Bias-Variance Tradeoff)的核心思想,在回归分析正则化方法(如岭回归LASSO)和机器学习领域中尤为重要——例如岭回归通过引入微小偏差,大幅降低估计方差,从而在预测准确性上优于普通最小二乘法。

渐近性质与相合性

在大样本框架下,还需关心相合性(Consistency):当样本量 nn \to \infty 时,估计量是否依概率收敛于真实参数值。许多有偏估计量虽在有限样本下有偏,但偏差随样本量增大而趋于零——称为渐近无偏(Asymptotically Unbiased)。例如前述的 Sn2S_n^2:虽然 E(Sn2)=n1nσ2σ2E(S_n^2) = \frac{n-1}{n}\sigma^2 \neq \sigma^2,但当 nn \to \inftyn1n1\frac{n-1}{n} \to 1,故 Sn2S_n^2 是渐近无偏的,且满足相合性。在实际应用中,统计学家往往需要在无偏性与方差、有限样本性质与渐近性质之间做出全面权衡,选择适合具体问题和数据特征的估计方法。