# 有偏估计量 (Biased Estimator)
在{{{统计学}}}和{{{计量经济学}}}中,有偏估计量 (Biased Estimator) 是指其{{{期望}}}不等于所估计的总体{{{参数}}}真值的{{{估计量}}}。换言之,一个有偏估计量在多次重复抽样中,其估计值的平均数会系统性地偏离真实的参数值。
为了正式地定义它,我们首先需要理解估计量 (Estimator) 的概念。估计量是用于根据样本数据来估计未知总体参数的规则或公式。例如,{{{样本均值}}} $\bar{X}$ 是用于估计{{{总体均值}}} $\mu$ 的一个估计量。
设 $\theta$ 是一个我们希望估计的未知总体参数,$\hat{\theta}$ 是基于一个大小为 $n$ 的随机样本 $(X_1, X_2, \ldots, X_n)$ 构造的 $\theta$ 的估计量。
如果估计量 $\hat{\theta}$ 的期望值 $E(\hat{\theta})$ 不等于 $\theta$,那么 $\hat{\theta}$ 就是一个有偏估计量。 $$ E(\hat{\theta}) \neq \theta $$
这个差值被称为偏误或偏差 (Bias): $$ \text{Bias}(\hat{\theta}) = E(\hat{\theta}) - \theta $$
* 如果 $\text{Bias}(\hat{\theta}) > 0$,估计量倾向于高估 (overestimate) 参数真值。 * 如果 $\text{Bias}(\hat{\theta}) < 0$,估计量倾向于低估 (underestimate) 参数真值。
与有偏估计量相对的是{{{无偏估计量}}} (Unbiased Estimator),其期望值恰好等于总体参数真值,即 $E(\hat{\theta}) = \theta$ 。
## 为什么使用有偏估计量:偏误-方差权衡
初学者可能会认为有偏估计量是“坏的”或“不准确的”,应该总是避免使用。然而,在实践中,许多最常用和最有效的估计量都是有偏的。这背后的核心原因是著名的偏误-方差权衡 (Bias-Variance Tradeoff)。
评价一个估计量的好坏,我们不仅要看它是否“平均”命中目标(偏误),还要看它的估计值围绕其均值的离散程度,即{{{方差}}} (Variance)。一个理想的估计量应该既有低偏误,又有低方差。
一个更全面的评价标准是{{{均方误差}}} (Mean Squared Error, MSE),它衡量了估计值与真实参数值的平均平方距离。MSE可以被分解为方差和偏误的平方和:
$$ \text{MSE}(\hat{\theta}) = E[(\hat{\theta} - \theta)^2] = \text{Var}(\hat{\theta}) + [\text{Bias}(\hat{\theta})]^2 $$
推导过程: 我们从 MSE 的定义开始: $ \text{MSE}(\hat{\theta}) = E[ (\hat{\theta} - \theta)^2 ] $ 在括号内加减 $E(\hat{\theta})$: $ = E[ (\hat{\theta} - E(\hat{\theta}) + E(\hat{\theta}) - \theta)^2 ] $ 将 $(\hat{\theta} - E(\hat{\theta}))$ 和 $(E(\hat{\theta}) - \theta)$ 分别看作两项,展开平方: $ = E[ (\hat{\theta} - E(\hat{\theta}))^2 + 2(\hat{\theta} - E(\hat{\theta}))(E(\hat{\theta}) - \theta) + (E(\hat{\theta}) - \theta)^2 ] $ 利用期望的线性性质: $ = E[(\hat{\theta} - E(\hat{\theta}))^2] + 2E[(\hat{\theta} - E(\hat{\theta}))(E(\hat{\theta}) - \theta)] + E[(E(\hat{\theta}) - \theta)^2] $ 分析中间项:$(E(\hat{\theta}) - \theta)$ 是一个常数,可以提到期望外面。 $ 2(E(\hat{\theta}) - \theta) E[\hat{\theta} - E(\hat{\theta})] = 2(E(\hat{\theta}) - \theta) [E(\hat{\theta}) - E(E(\hat{\theta}))] = 2(E(\hat{\theta}) - \theta) [E(\hat{\theta}) - E(\hat{\theta})] = 0 $ 因此,交叉项为零。 第一项是 $\hat{\theta}$ 的方差的定义:$\text{Var}(\hat{\theta}) = E[(\hat{\theta} - E(\hat{\theta}))^2]$。 第三项是偏误的平方,因为 $(E(\hat{\theta}) - \theta)$ 是常数,其期望就是其本身:$[\text{Bias}(\hat{\theta})]^2$。 最终得到分解式:$\text{MSE}(\hat{\theta}) = \text{Var}(\hat{\theta}) + [\text{Bias}(\hat{\theta})]^2$。
这个分解式揭示了一个深刻的道理:一个估计量的总误差(以MSE衡量)由其方差和偏误共同决定。在某些情况下,我们可以通过接受一点点偏误,来换取方差的大幅下降,从而获得一个更小的整体均方误差。这意味着,一个有偏估计量可能比任何无偏估计量都更“精确”,因为它在大多数情况下更接近真实参数值。
## 经典的例子
### 1. 总体方差的估计
这是教科书中关于有偏与无偏估计量最经典的例子。假设我们从一个总体均值为 $\mu$、{{{总体方差}}}为 $\sigma^2$ 的分布中抽取一个容量为 $n$ 的样本 $(X_1, \ldots, X_n)$。我们希望估计 $\sigma^2$。
* 有偏的{{{样本方差}}}估计量
一个直观的估计量是样本数据对其样本均值 $\bar{X}$ 的平均平方偏差,我们记为 $S_n^2$: $$ S_n^2 = \frac{1}{n} \sum_{i=1}^n (X_i - \bar{X})^2 $$ 这个估计量是{{{最大似然估计}}} (Maximum Likelihood Estimate) 在{{{正态分布}}}假设下的结果。然而,它是有偏的。可以证明,其期望为: $$ E(S_n^2) = \frac{n-1}{n} \sigma^2 $$ 由于 $\frac{n-1}{n} < 1$,这个估计量系统性地低估了真实的总体方差 $\sigma^2$。其偏误为 $E(S_n^2) - \sigma^2 = -\frac{1}{n}\sigma^2$。直观的解释是,我们在计算偏差时使用的是样本均值 $\bar{X}$ 而不是未知的总体均值 $\mu$。因为 $\bar{X}$ 本身就是根据样本计算出来的,它比 $\mu$ 更“接近”样本数据点,导致计算出的离差平方和偏小。这消耗了一个{{{自由度}}} (degree of freedom)。
* 无偏的{{{样本方差}}}估计量
为了修正这个偏误,我们将分母从 $n$ 改为 $n-1$,得到无偏样本方差,记为 $S^2$ 或 $S_{n-1}^2$: $$ S^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \bar{X})^2 $$ 其期望为: $$ E(S^2) = E\left(\frac{1}{n-1} \sum_{i=1}^n (X_i - \bar{X})^2\right) = \frac{1}{n-1} E\left(\sum_{i=1}^n (X_i - \bar{X})^2\right) = \frac{1}{n-1} (n-1)\sigma^2 = \sigma^2 $$ 因此,$S^2$ 是 $\sigma^2$ 的一个{{{无偏估计量}}}。这个 $n-1$ 的调整被称为贝塞尔校正 (Bessel's Correction)。
尽管 $S^2$ 是无偏的,但对于某些分布(如正态分布),有偏估计量 $S_n^2$ 拥有更小的均方误差。这意味着,尽管 $S_n^2$ 平均来看会低估 $\sigma^2$,但它的值通常比 $S^2$ 更紧密地分布在 $\sigma^2$ 周围。
### 2. 带有惩罚项的回归模型
在{{{线性回归}}}分析中,尤其是在处理{{{多重共线性}}} (Multicollinearity) 问题时,有偏估计量显示出其巨大的优越性。
* {{{普通最小二乘法}}} (Ordinary Least Squares, OLS) 在满足高斯-马尔可夫假定的情况下,其回归系数的估计量是最佳线性无偏估计量 (BLUE)。然而,当自变量之间存在高度相关性时,OLS 估计量的方差会变得非常大,导致模型极不稳定,对样本的微小变动非常敏感。
* {{{岭回归}}} (Ridge Regression) 是一种修正的最小二乘法,它在损失函数中增加了一个L2{{{正则化}}}惩罚项。这会故意向回归系数的估计中引入偏误。 $$ \hat{\beta}_{\text{ridge}} = \arg\min_{\beta} \left( \sum_{i=1}^n (y_i - x_i'\beta)^2 + \lambda \sum_{j=1}^p \beta_j^2 \right) $$ 通过牺牲无偏性,岭回归能够以收缩系数的大小为代价,显著降低估计量的方差。当时,岭回归的解就是 OLS 的解。当 $\lambda > 0$ 时,系数估计值会变得有偏,但它们的方差会减小。在偏误-方差权衡下,选择一个合适的 $\lambda$ 值可以使得岭回归估计量的 MSE 远小于 OLS 估计量的 MSE,从而获得更稳定、预测能力更强的模型。{{{LASSO回归}}} (LASSO Regression) 也是基于同样原理的有偏估计方法。
## 重要相关性质
* {{{渐进无偏性}}} (Asymptotic Unbiasedness) 许多有偏估计量具有一个非常好的大样本性质,即当样本量 $n$ 趋于无穷大时,其偏误趋近于零。 $$ \lim_{n \to \infty} E(\hat{\theta}_n) = \theta $$ 例如,前面提到的样本方差估计量 $S_n^2$ 就是渐进无偏的,因为它的偏误 $-\frac{1}{n}\sigma^2$ 在 $n \to \infty$ 时会消失。对于大样本而言,偏误变得可以忽略不计。
* {{{一致性}}} (Consistency) 一个更重要的评价估计量的长期性质是{{{一致估计量}}}。一个一致的估计量是指当样本量 $n$ 无限增大时,估计量依概率收敛于参数真值。渐进无偏性通常是一致性的一个要素,但两者并不等价。在现代统计和计量经济学中,一致性通常被认为比无偏性更为基本和重要。
## 总结
有偏估计量在统计推断和数据科学中扮演着至关重要的角色。虽然“偏误”一词听起来带有负面含义,但它并不意味着估计量是劣质的。通过偏误-方差权衡的视角,我们认识到,为了获得更低的整体误差(均方误差),适度地引入偏误以换取方差的大幅降低是一种非常有效的策略。像岭回归这类方法的成功,充分证明了有偏估计量在解决实际问题,特别是高维数据和共线性问题中的巨大价值。因此,在评估和选择估计量时,应超越简单的无偏性标准,进行更全面的考量。