知经 KNOWECON · 卓越的经济金融统计数学学习平台

有偏

# 有偏 (Bias)

在{{{统计学}}}、{{{计量经济学}}}和{{{机器学习}}}等领域,有偏 (Bias) 或称 偏误,是一个核心概念,用以描述一个{{{估计量}}}的系统性误差。具体来说,它指的是一个估计量的{{{期望值}}}与被估计的{{{参数}}}的真实值之间的差异。

一个估计量是用于从{{{样本}}}数据中估算未知的{{{总体}}}参数的规则或公式。如果一个估计量平均而言会高估或低估真实的参数值,那么我们就称这个估计量是 有偏的 (Biased)。反之,如果一个估计量的期望值恰好等于它所要估计的参数的真实值,那么这个估计量就是 {{{无偏估计量}}} (Unbiased Estimator)

将估计量记为 $\hat{\theta}$ (读作 "theta-hat"),它是由样本数据计算出的对真实参数 $\theta$ 的估计。其偏误的数学定义为:

$$ Bias(\hat{\theta}) = E[\hat{\theta}] - \theta $$

其中,$E[\hat{\theta}]$ 表示估计量 $\hat{\theta}$ 的期望值。这个期望值是在所有可能的样本下,对该估计量计算出的所有可能取值的平均值。

- 如果 $Bias(\hat{\theta}) > 0$,我们称该估计量存在 正向偏误,它系统性地高估了真实参数值。 - 如果 $Bias(\hat{\theta}) < 0$,我们称该估计量存在 负向偏误,它系统性地低估了真实参数值。 - 如果 $Bias(\hat{\theta}) = 0$,我们称该估计量是 无偏的

需要强调的是,偏误是 {{{估计量}}}(一种方法或公式)的属性,而不是某一次具体估计值 (estimate) 的属性。单次估计出的值几乎总会与真实参数值存在差异,这种差异被称为估计误差。而偏误是这种误差在多次重复{{{抽样}}}下的系统性倾向。

## 偏误的来源

偏误可能由多种原因造成,理解其来源对于构建和评估统计模型至关重要。

### 1. 抽样偏误 (Sampling Bias)

当用于计算估计量的数据样本不能很好地代表其所要推断的总体时,就会产生{{{抽样偏差}}}。如果抽样过程本身存在系统性缺陷,导致某些特定类型的个体被选中或被排除的概率更高,那么基于这样的样本得出的任何结论都可能是- 样。

例如,一个旨在调查全国居民平均收入的电话调查,如果只在工作日的白天进行,可能会遗漏大量的上班族,而更多地接触到家庭主妇、退休人员或失业者,这会导致样本收入水平系统性地偏离总体真实水平。为了避免这种情况,需要采用{{{随机抽样}}}等科学的抽样方法来确保样本的{{{代表性样本}}}。

### 2. 估计量本身的数学性质

即使在完美的{{{随机抽样}}}下,某些估计量在数学结构上也是有偏的。这是估计量公式本身导致的,尤其是在小样本情况下。

一个经典的例子是{{{样本方差}}}对{{{总体方差}}} $\sigma^2$ 的估计。假设我们有一个来自总体的样本 ${X_1, X_2, \dots, X_n}$。

- 一个直观的方差估计量是: $$ S_n^2 = \frac{1}{n}\sum_{i=1}^{n}(X_i - \bar{X})^2 $$ 其中 $\bar{X}$ 是样本均值。然而,可以证明这个估计量的期望值是: $$ E[S_n^2] = \frac{n-1}{n}\sigma^2 $$ 由于 $\frac{n-1}{n} < 1$,这个估计量会系统性地低估真实的总体方差 $\sigma^2$,因此它是一个 有偏估计量。其偏误为 $E[S_n^2] - \sigma^2 = -\frac{\sigma^2}{n}$。

- 为了修正这个偏误,统计学中通常使用以 $n-1$ 为分母的样本方差,即: $$ s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(X_i - \bar{X})^2 $$ 这个估计量的期望值恰好等于 $\sigma^2$,即 $E[s^2] = \sigma^2$。因此,$s^2$ 是总体方差 $\sigma^2$ 的一个 无偏估计量。分母中的 $n-1$ 通常被称为{{{自由度}}},这一修正被称为{{{贝塞尔校正}}} (Bessel's Correction)。

### 3. 遗漏变量偏误 (Omitted Variable Bias)

在{{{回归分析}}}中,{{{遗漏变量偏误}}}是一个非常普遍且严重的问题。当一个回归模型遗漏了一个重要的{{{自变量}}},并且这个被遗漏的变量同时与{{{因变量}}}和模型中已包含的某个或某些自变量{{{相关性}}}时,模型中已包含变量的{{{系数}}}估计就会出现偏误。

假设真实的模型是: $$ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + u $$ 但研究者错误地估计了一个简化的模型,遗漏了 $X_2$: $$ Y = \alpha_0 + \alpha_1 X_1 + v $$ 如果 $X_2$ 与 $Y$ 相关 (即 $\beta_2 \neq 0$) 且 $X_1$ 与 $X_2$ 相关 (即 $Cov(X_1, X_2) \neq 0$),那么对 $\alpha_1$ 的估计量 $\hat{\alpha}_1$ 将是有偏的。它的期望值将是: $$ E[\hat{\alpha}_1] = \beta_1 + \beta_2 \cdot \delta_{1} $$ 其中 $\delta_{1}$ 是将遗漏变量 $X_2$ 对包含变量 $X_1$ 做回归得到的系数。偏误的大小为 $\beta_2 \cdot \delta_{1}$。这个偏误导致我们错误地评估 $X_1$ 对 $Y$ 的真实影响。

## 偏误-方差权衡 (Bias-Variance Tradeoff)

在评判一个估计量的好坏时,偏误只是其中一个维度。另一个重要的维度是{{{方差}}} (Variance),它衡量的是在不同样本下,估计值围绕其期望值的离散程度。一个理想的估计量应该既有低偏误又有低方差。

{{{均方误差}}} (Mean Squared Error, MSE) 是一个同时考虑了偏误和方差的综合性评价指标,其定义为: $$ MSE(\hat{\theta}) = E[(\hat{\theta} - \theta)^2] $$ MSE可以被分解为偏误的平方和方差两部分: $$ MSE(\hat{\theta}) = (Bias(\hat{\theta}))^2 + Var(\hat{\theta}) $$

这个分解式揭示了著名的 {{{偏误-方差权衡}}}

- 高偏误、低方差模型:模型过于简单,无法捕捉数据的复杂结构。例如,用一条直线去拟合一个二次曲线关系。这样的模型在不同的样本下表现稳定(低方差),但总是系统性地偏离真实关系(高偏误)。这种情况称为{{{欠拟合}}} (Underfitting)。

- 低偏误、高方差模型:模型过于复杂,不仅学习了数据中的普遍规律,还学习了样本中的随机噪声。例如,用一个高阶多项式去拟合只有少量数据点的关系。这样的模型可以完美拟合训练数据(低偏误),但对新样本的预测能力极差,因为模型对样本的微小变动非常敏感(高方差)。这种情况称为{{{过拟合}}} (Overfitting)。

在{{{模型选择}}}中,目标通常不是找到零偏误的模型,而是找到一个在偏误和方差之间取得最佳平衡,从而使总的MSE最小化的模型。诸如{{{岭回归}}} (Ridge Regression) 和 {{{LASSO}}} 等正则化方法,就是通过主动引入少量偏误来大幅降低方差,从而获得更低的整体MSE。

## 渐进性质:有偏与一致性

偏误是一个在有限样本下(finite-sample)的性质。当样本量 $n$ 趋向于无穷大时,我们更关心估计量的{{{渐进性质}}},其中最重要的是{{{一致性}}} (Consistency)。

一个估计量 $\hat{\theta}_n$ 如果随着样本量 $n$ 的增大而依{{{概率收敛}}}于真实参数 $\theta$,则称其为一致估计量。

一个有偏的估计量仍然可以是一致的。条件是它的偏误和方差都随着 $n \to \infty$ 而趋向于0。回到之前样本方差的例子,$S_n^2 = \frac{1}{n}\sum(X_i - \bar{X})^2$ 虽然是有偏的,但其偏误 $Bias(S_n^2) = -\frac{\sigma^2}{n}$ 在 $n \to \infty$ 时趋近于0。同时,它的方差也趋近于0。因此,$S_n^2$ 是一个对 $\sigma^2$ 的 一致估计量。这意味着,尽管在小样本中它会系统性地低估真实方差,但在大样本中,这种偏误可以忽略不计。

## 总结

偏误是{{{统计推断}}}中的一个基础概念,衡量了估计量系统性偏离真实参数的程度。它可能源于抽样过程、估计量本身的结构,或是模型设定的缺陷。在实践中,零偏误(无偏性)虽然是一个理想的属性,但并非总是最佳选择。通过偏误-方差权衡的视角,我们认识到有时牺牲一点偏误来换取方差的大幅下降,可以得到整体性能更优的模型。因此,对偏误的深刻理解是进行严谨数据分析和有效模型构建的基石。