ARTICLE

有偏估计量

有偏估计量 (Biased Estimator) 在统计学和计量经济学中，有偏估计量是指其期望值不等于所估计的总体参数真值的估计量。设为待估的未知总体参数，为基于随机样本 (X_1, X_2, , X_n) 构造的估计量。若 E( ) ，则称为的有偏估计量。偏误定义为 Bias( ) = E( ) - ：若偏误为正，估计量倾向于高估参数真值；若为负，

浏览 34 更新 2025-10-26

有偏估计量 (Biased Estimator)

在统计学和计量经济学中，有偏估计量是指其期望值不等于所估计的总体参数真值的估计量。设 $\theta$ 为待估的未知总体参数， $\hat{\theta}$ 为基于随机样本 $(X_1, X_2, \ldots, X_n)$ 构造的估计量。若 $E(\hat{\theta}) \neq \theta$ ，则称 $\hat{\theta}$ 为 $\theta$ 的有偏估计量。偏误定义为 $\text{Bias}(\hat{\theta}) = E(\hat{\theta}) - \theta$ ：若偏误为正，估计量倾向于高估参数真值；若为负，则倾向于低估。

与有偏估计量相对的是无偏估计量，满足 $E(\hat{\theta}) = \theta$ 。初学者常误认为无偏估计量总是优于有偏估计量，但实践中许多高效且广泛使用的估计量都是有偏的，例如样本标准差、决定系数 $R^2$ 以及岭回归系数等。理解这一现象需要深入考察偏误-方差权衡这一核心概念。

偏误-方差权衡

评价一个估计量的优劣，不能仅看偏误，还必须考察其方差，即估计值围绕其期望的离散程度。均方误差（Mean Squared Error, MSE）综合衡量了这两者：

\text{MSE}(\hat{\theta}) = E[(\hat{\theta} - \theta)^2] = \text{Var}(\hat{\theta}) + [\text{Bias}(\hat{\theta})]^2

该分解式的推导如下：在 $(\hat{\theta} - \theta)^2$ 中加减 $E(\hat{\theta})$ ，得到 $[(\hat{\theta} - E(\hat{\theta})) + (E(\hat{\theta}) - \theta)]^2$ 。展开平方后得到三项：第一项是 $(\hat{\theta} - E(\hat{\theta}))^2$ ，第二项是交叉项 $2(\hat{\theta} - E(\hat{\theta}))(E(\hat{\theta}) - \theta)$ ，第三项是 $(E(\hat{\theta}) - \theta)^2$ 。对这三项分别取期望：第一项即为方差 $\text{Var}(\hat{\theta})$ ；第二项中 $E(\hat{\theta}) - \theta$ 是常数可提至期望外， $E[\hat{\theta} - E(\hat{\theta})] = 0$ ，故交叉项为零；第三项是偏误的平方 $[\text{Bias}(\hat{\theta})]^2$ 。由此得到 MSE 的分解式。

这一公式揭示了深刻道理：在样本量固定时，无偏估计量并非唯一最优选择。有时我们可以通过接受少量偏误，换取方差的大幅下降，从而获得更小的 MSE。这就是偏误-方差权衡（Bias-Variance Tradeoff）的核心思想。它说明估计量的总误差由偏误和方差共同决定，二者之间存在替代关系。在实际应用中，我们追求的往往不是无偏性，而是最小的预测误差或估计误差。

经典例子

1. 总体方差的估计

设 $(X_1,\dots,X_n)$ 为来自均值为 $\mu$ 、方差为 $\sigma^2$ 的总体的随机样本。一个直观的方差估计量是样本对其均值的平均平方偏差：

S_n^2 = \frac{1}{n} \sum_{i=1}^n (X_i - \bar{X})^2

该估计量是正态分布假设下的最大似然估计，但它是有偏的： $E(S_n^2) = \frac{n-1}{n}\sigma^2$ ，系统性地低估了真实方差，偏误为 $-\sigma^2/n$ 。原因在于样本均值 $\bar{X}$ 比总体均值 $\mu$ 更接近数据点，导致离差平方和偏小，这消耗了一个自由度。

为修正此偏误，使用贝塞尔校正（Bessel's Correction）得到无偏样本方差：

S^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \bar{X})^2

其期望恰好为 $\sigma^2$ 。然而有趣的是，对于正态分布，有偏估计量 $S_n^2$ 的 MSE 反而小于无偏的 $S^2$ 。尽管 $S_n^2$ 平均而言低估了 $\sigma^2$ ，但它的估计值更紧密地分布在 $\sigma^2$ 周围。这一例子生动说明无偏性并非评价估计量的唯一标准，在有偏与无偏之间需要根据 MSE 综合判断。

2. 岭回归与正则化方法

在多元线性回归中，当自变量存在多重共线性时，普通最小二乘法（OLS）估计量的方差极大，模型对数据的微小变动极为敏感，导致预测不稳定。岭回归（Ridge Regression）在损失函数中加入 L2 正则化惩罚项 $\lambda \sum \beta_j^2$ ，主动向系数估计中引入偏误：

\hat{\beta}_{\text{ridge}} = \arg\min_{\beta} \left( \sum_{i=1}^n (y_i - x_i'\beta)^2 + \lambda \sum_{j=1}^p \beta_j^2 \right)

当 $\lambda = 0$ 时退化为 OLS 解；当 $\lambda > 0$ 时系数估计值有偏但方差显著降低。通过调节 $\lambda$ 的大小，可在偏误和方差之间取得平衡，使 MSE 远小于 OLS。LASSO 回归（L1 正则化）和弹性网（Elastic Net）等正则化方法均基于此原理，在有偏估计的框架下有效解决了高维数据分析中的过拟合与变量选择问题。

3. 比率估计量

在抽样调查中，总体均值 $\mu$ 的比率估计量 $\hat{\mu}_R = \bar{y} / \bar{x} \cdot \mu_x$ 通常是有偏的。但其方差往往小于简单随机抽样下的无偏估计量，因此在样本量较大时被广泛应用，体现了以偏误换精度的实用策略。

总结

有偏估计量并非"坏"的估计量。通过偏误-方差权衡的视角，适度引入偏误以换取方差降低是极为有效的统计策略。在评估和选择估计量时，应超越简单的无偏性标准，以均方误差等综合指标进行全面考量。从贝塞尔校正到岭回归，从抽样调查到深度学习，有偏估计量的原理贯穿了整个数据科学领域，是每个数据分析者必须深刻理解的重要概念。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。

有偏估计量