ARTICLE

有偏估计量

有偏估计量 (Biased Estimator) 在统计学和计量经济学中,有偏估计量是指其期望值不等于所估计的总体参数真值的估计量。设 为待估的未知总体参数, 为基于随机样本 (X_1, X_2, , X_n) 构造的估计量。若 E( ) ,则称 为 的有偏估计量。偏误定义为 Bias( ) = E( ) - :若偏误为正,估计量倾向于高估参数真值;若为负,

浏览 34 更新 2025-10-26

有偏估计量 (Biased Estimator)

在统计学和计量经济学中,有偏估计量是指其期望值不等于所估计的总体参数真值的估计量。设 θ \theta 为待估的未知总体参数,θ^ \hat{\theta} 为基于随机样本 (X1,X2,,Xn) (X_1, X_2, \ldots, X_n) 构造的估计量。若 E(θ^)θ E(\hat{\theta}) \neq \theta ,则称 θ^ \hat{\theta} θ \theta 的有偏估计量。偏误定义为 Bias(θ^)=E(θ^)θ \text{Bias}(\hat{\theta}) = E(\hat{\theta}) - \theta :若偏误为正,估计量倾向于高估参数真值;若为负,则倾向于低估。

与有偏估计量相对的是无偏估计量,满足 E(θ^)=θ E(\hat{\theta}) = \theta 。初学者常误认为无偏估计量总是优于有偏估计量,但实践中许多高效且广泛使用的估计量都是有偏的,例如样本标准差、决定系数 R2 R^2 以及岭回归系数等。理解这一现象需要深入考察偏误-方差权衡这一核心概念。

偏误-方差权衡

评价一个估计量的优劣,不能仅看偏误,还必须考察其方差,即估计值围绕其期望的离散程度。均方误差(Mean Squared Error, MSE)综合衡量了这两者:

MSE(θ^)=E[(θ^θ)2]=Var(θ^)+[Bias(θ^)]2\text{MSE}(\hat{\theta}) = E[(\hat{\theta} - \theta)^2] = \text{Var}(\hat{\theta}) + [\text{Bias}(\hat{\theta})]^2

该分解式的推导如下:在 (θ^θ)2 (\hat{\theta} - \theta)^2 中加减 E(θ^) E(\hat{\theta}) ,得到 [(θ^E(θ^))+(E(θ^)θ)]2 [(\hat{\theta} - E(\hat{\theta})) + (E(\hat{\theta}) - \theta)]^2 。展开平方后得到三项:第一项是 (θ^E(θ^))2 (\hat{\theta} - E(\hat{\theta}))^2 ,第二项是交叉项 2(θ^E(θ^))(E(θ^)θ) 2(\hat{\theta} - E(\hat{\theta}))(E(\hat{\theta}) - \theta) ,第三项是 (E(θ^)θ)2 (E(\hat{\theta}) - \theta)^2 。对这三项分别取期望:第一项即为方差 Var(θ^) \text{Var}(\hat{\theta}) ;第二项中 E(θ^)θ E(\hat{\theta}) - \theta 是常数可提至期望外,E[θ^E(θ^)]=0 E[\hat{\theta} - E(\hat{\theta})] = 0 ,故交叉项为零;第三项是偏误的平方 [Bias(θ^)]2 [\text{Bias}(\hat{\theta})]^2 。由此得到 MSE 的分解式。

这一公式揭示了深刻道理:在样本量固定时,无偏估计量并非唯一最优选择。有时我们可以通过接受少量偏误,换取方差的大幅下降,从而获得更小的 MSE。这就是偏误-方差权衡(Bias-Variance Tradeoff)的核心思想。它说明估计量的总误差由偏误和方差共同决定,二者之间存在替代关系。在实际应用中,我们追求的往往不是无偏性,而是最小的预测误差或估计误差。

经典例子

1. 总体方差的估计

(X1,,Xn) (X_1,\dots,X_n) 为来自均值为 μ \mu 、方差为 σ2 \sigma^2 的总体的随机样本。一个直观的方差估计量是样本对其均值的平均平方偏差:

Sn2=1ni=1n(XiXˉ)2S_n^2 = \frac{1}{n} \sum_{i=1}^n (X_i - \bar{X})^2

该估计量是正态分布假设下的最大似然估计,但它是有偏的:E(Sn2)=n1nσ2 E(S_n^2) = \frac{n-1}{n}\sigma^2 ,系统性地低估了真实方差,偏误为 σ2/n -\sigma^2/n 。原因在于样本均值 Xˉ \bar{X} 比总体均值 μ \mu 更接近数据点,导致离差平方和偏小,这消耗了一个自由度。

为修正此偏误,使用贝塞尔校正(Bessel's Correction)得到无偏样本方差:

S2=1n1i=1n(XiXˉ)2S^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \bar{X})^2

其期望恰好为 σ2 \sigma^2 。然而有趣的是,对于正态分布,有偏估计量 Sn2 S_n^2 的 MSE 反而小于无偏的 S2 S^2 。尽管 Sn2 S_n^2 平均而言低估了 σ2 \sigma^2 ,但它的估计值更紧密地分布在 σ2 \sigma^2 周围。这一例子生动说明无偏性并非评价估计量的唯一标准,在有偏与无偏之间需要根据 MSE 综合判断。

2. 岭回归与正则化方法

在多元线性回归中,当自变量存在多重共线性时,普通最小二乘法(OLS)估计量的方差极大,模型对数据的微小变动极为敏感,导致预测不稳定。岭回归(Ridge Regression)在损失函数中加入 L2 正则化惩罚项 λβj2 \lambda \sum \beta_j^2 ,主动向系数估计中引入偏误:

β^ridge=argminβ(i=1n(yixiβ)2+λj=1pβj2)\hat{\beta}_{\text{ridge}} = \arg\min_{\beta} \left( \sum_{i=1}^n (y_i - x_i'\beta)^2 + \lambda \sum_{j=1}^p \beta_j^2 \right)

λ=0 \lambda = 0 时退化为 OLS 解;当 λ>0 \lambda > 0 时系数估计值有偏但方差显著降低。通过调节 λ \lambda 的大小,可在偏误和方差之间取得平衡,使 MSE 远小于 OLS。LASSO 回归(L1 正则化)和弹性网(Elastic Net)等正则化方法均基于此原理,在有偏估计的框架下有效解决了高维数据分析中的过拟合与变量选择问题。

3. 比率估计量

在抽样调查中,总体均值 μ \mu 的比率估计量 μ^R=yˉ/xˉμx \hat{\mu}_R = \bar{y} / \bar{x} \cdot \mu_x 通常是有偏的。但其方差往往小于简单随机抽样下的无偏估计量,因此在样本量较大时被广泛应用,体现了以偏误换精度的实用策略。

相关性质

渐进无偏性(Asymptotic Unbiasedness):许多有偏估计量在样本量 n n \to \infty 时偏误趋于零。例如 Sn2 S_n^2 的偏误 σ2/n -\sigma^2/n n n 增大而消失,故其为渐进无偏的。对于大样本而言,这种偏误可以忽略不计。渐进无偏性是一个比无偏性弱的条件,许多在实际中无法做到精确无偏的估计量都至少满足这一性质。

一致性(Consistency):指估计量依概率收敛于参数真值。一个一致的估计量在大样本下几乎必然接近真值。在现代统计学中,一致性被认为比无偏性更为根本,因为它保证了估计量在大样本下的可靠性。值得注意的是,有偏估计量也可以是一致的,只要其偏误随样本量增大而消失即可。

在机器学习中的应用:除了岭回归和 LASSO 之外,神经网络训练中的早停法(Early Stopping)、dropout 正则化、参数共享等方法本质上都是在偏误-方差权衡中主动引入偏误以防止过拟合。集成学习方法如随机森林(Random Forest)中,单棵决策树方差较大,通过集成引入少量偏误但大幅降低方差,从而获得更好的泛化性能。这些方法的成功充分验证了有偏估计思想在现代数据科学中的巨大价值。

总结

有偏估计量并非"坏"的估计量。通过偏误-方差权衡的视角,适度引入偏误以换取方差降低是极为有效的统计策略。在评估和选择估计量时,应超越简单的无偏性标准,以均方误差等综合指标进行全面考量。从贝塞尔校正到岭回归,从抽样调查到深度学习,有偏估计量的原理贯穿了整个数据科学领域,是每个数据分析者必须深刻理解的重要概念。