知经 KNOWECON · 卓越的经济金融统计数学学习平台

无偏估计

# 无偏估计 (Unbiased Estimator)

无偏估计 (Unbiased Estimator),或称 无偏估计量,是{{{数理统计}}}学中评估点{{{估计量}}} (Point Estimator) 优良性的一个核心标准。在统计推断中,我们通常使用来自{{{样本}}} (Sample) 的数据来估计{{{总体}}} (Population) 的某个未知{{{参数}}} (Parameter)。无偏性描述的是,在多次重复抽样中,一个估计量的平均值是否能够准确地等于我们试图估计的那个真实参数。

简而言之,一个估计量如果被称为 无偏的,意味着它的{{{数学期望}}} (Expected Value) 等于被估计的真实参数值。这个性质确保了估计过程在平均意义上是没有系统性偏差的。

## 形式化定义

假设我们有一个包含未知参数 $\theta$ 的总体。为了估计 $\theta$,我们从该总体中抽取一个容量为 $n$ 的{{{随机样本}}} $X_1, X_2, \dots, X_n$。

一个估计量 $\hat{\theta}$ 是这个随机样本的一个函数,记作 $\hat{\theta} = g(X_1, X_2, \dots, X_n)$。由于 $\hat{\theta}$ 是随机变量的函数,它本身也是一个{{{随机变量}}},拥有自己的{{{概率分布}}},这个分布被称为{{{抽样分布}}} (Sampling Distribution)。

我们称估计量 $\hat{\theta}$ 是参数 $\theta$ 的一个 无偏估计量,如果对于参数 $\theta$ 的所有可能值,$\hat{\theta}$ 的数学期望都等于 $\theta$。用数学公式表达为:

$$ E(\hat{\theta}) = \theta $$

如果一个估计量不满足无偏性,即 $E(\hat{\theta}) \neq \theta$,那么它被称为 有偏估计量 (Biased Estimator)。

## 直观理解:打靶的比喻

为了更好地理解无偏性,我们可以使用一个打靶的类比:

* 靶心:代表我们想估计的真实但未知的总体参数 $\theta$。 * 每一次射击:代表通过一次抽样计算出的一个具体估计值 $\hat{\theta}$。

1. 无偏估计量:这就像一个技术娴熟的射手。虽然由于各种随机因素(如风、手的微小抖动),他每次射击的位置可能不完全一样,有些偏左,有些偏右,有些偏高,有些偏低。但是,在大量射击之后,所有弹孔的平均位置恰好就是靶心。这个射手没有系统性的瞄准偏差。

2. 有偏估计量:这就像一个瞄准镜没有校准的射手。即使他技术很好,每次射击都很集中,但所有的弹孔都会系统性地偏离靶心(例如,全部偏向左上方)。这意味着他的估计在平均上会持续性地高估或低估真实值。

因此,无偏性保证了我们的估计方法在长期看来是“准确”的,不会系统性地犯错。

## 估计量的偏差 (Bias)

对于一个有偏的估计量,我们可以量化其偏离的程度,这个度量被称为 偏差 (Bias)。估计量 $\hat{\theta}$ 的偏差定义为它的期望与真实参数 $\theta$ 之间的差值:

$$ \text{Bias}(\hat{\theta}) = E(\hat{\theta}) - \theta $$

* 如果 $\text{Bias}(\hat{\theta}) = 0$,则 $\hat{\theta}$ 是无偏估计量。 * 如果 $\text{Bias}(\hat{\theta}) > 0$,则 $\hat{\theta}$ 存在 正偏差 或称 向上偏误,意味着它平均而言会高估 $\theta$。 * 如果 $\text{Bias}(\hat{\theta}) < 0$,则 $\hat{\theta}$ 存在 负偏差 或称 向下偏误,意味着它平均而言会低估 $\theta$。

## 经典示例:样本均值与样本方差

### 1. 样本均值 (Sample Mean)

对于一个具有未知均值 $\mu$ 和未知方差 $\sigma^2$ 的总体,我们抽样得到 $X_1, \dots, X_n$。{{{样本均值}}}定义为:

$$ \bar{X} = \frac{1}{n} \sum_{i=1}^n X_i $$

$\bar{X}$ 是总体均值 $\mu$ 的一个无偏估计量。我们可以通过计算其期望来证明:

$$ E(\bar{X}) = E\left(\frac{1}{n} \sum_{i=1}^n X_i\right) $$

根据{{{期望的线性性质}}},我们得到:

$$ E(\bar{X}) = \frac{1}{n} \sum_{i=1}^n E(X_i) $$

由于每个样本观测 $X_i$ 都来自均值为 $\mu$ 的同一个总体,所以 $E(X_i) = \mu$。因此:

$$ E(\bar{X}) = \frac{1}{n} \sum_{i=1}^n \mu = \frac{1}{n} (n\mu) = \mu $$

证明了 $\bar{X}$ 是 $\mu$ 的无偏估计量。这意味着,如果我们反复从总体中抽取大量样本并计算每个样本的均值,这些均值的平均值将非常接近总体的真实均值 $\mu$。

### 2. 样本方差 (Sample Variance)

对于总体方差 $\sigma^2$ 的估计,情况则更为微妙。我们通常会遇到两种形式的“样本方差”:

情况一:分母为 $n$ 的估计量

令 $S_n^2 = \frac{1}{n} \sum_{i=1}^n (X_i - \bar{X})^2$。这个估计量是正态分布下$\sigma^2$的{{{最大似然估计}}} (Maximum Likelihood Estimator)。然而,它是一个 有偏 估计量。可以证明其期望为:

$$ E(S_n^2) = E\left[\frac{1}{n} \sum_{i=1}^n (X_i - \bar{X})^2\right] = \frac{n-1}{n}\sigma^2 $$

由于 $\frac{n-1}{n} < 1$,所以 $E(S_n^2) < \sigma^2$。这意味着使用分母 $n$ 会系统性地低估真实的总体方差。这种偏差的根源在于我们使用了从数据中估计出的 $\bar{X}$,而不是未知的真实均值 $\mu$ 来计算离差平方和。使用 $\bar{X}$ 会使得离差平方和平均而言比使用 $\mu$ 时要小。

情况二:分母为 $n-1$ 的估计量 (无偏样本方差)

为了修正上述偏差,我们定义{{{样本方差}}} $S^2$ 如下:

$$ S^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \bar{X})^2 $$

这个估计量是 $\sigma^2$ 的一个 无偏 估计量。其期望为:

$$ E(S^2) = E\left[\frac{1}{n-1} \sum_{i=1}^n (X_i - \bar{X})^2\right] = \frac{1}{n-1} E\left[\sum_{i=1}^n (X_i - \bar{X})^2\right] $$

利用上一节的结果 $E\left[\sum(X_i - \bar{X})^2\right]=(n-1)\sigma^2$,我们得到:

$$ E(S^2) = \frac{1}{n-1} (n-1)\sigma^2 = \sigma^2 $$

因此,$S^2$ 是 $\sigma^2$ 的无偏估计量。分母中的 $n-1$ 被称为{{{自由度}}} (Degrees of Freedom),它正是对因使用样本均值 $\bar{X}$ 替代总体均值 $\mu$ 所造成的偏差进行的修正。

## 无偏性不是唯一标准:偏差-方差权衡

虽然无偏性是一个非常理想的性质,但它并非评估估计量好坏的唯一标准。另一个重要的标准是估计量的{{{方差}}} (Variance),它衡量了估计值围绕其均值的离散程度(即估计的稳定性或精度)。

一个好的估计量应该同时具有较小的偏差和较小的方差。这两种度量可以通过{{{均方误差}}} (Mean Squared Error, MSE) 结合起来:

$$ \text{MSE}(\hat{\theta}) = E\left[(\hat{\theta} - \theta)^2\right] $$

MSE可以被分解为方差和偏差的平方和,这就是著名的 偏差-方差分解 (Bias-Variance Decomposition):

$$ \text{MSE}(\hat{\theta}) = \text{Var}(\hat{\theta}) + \left[\text{Bias}(\hat{\theta})\right]^2 $$

这个公式告诉我们: * 对于无偏估计量,$\text{Bias}(\hat{\theta})=0$,因此 $\text{MSE}(\hat{\theta}) = \text{Var}(\hat{\theta})$。在这种情况下,寻找最佳无偏估计量就等同于寻找{{{最小方差无偏估计量}}} (Minimum Variance Unbiased Estimator, MVUE)。 * 在某些情况下,一个有轻微偏差的估计量可能因为其方差显著减小,从而获得比任何无偏估计量都更低的均方误差。这就是 偏差-方差权衡 (Bias-Variance Tradeoff) 的核心思想,在{{{回归分析}}}的{{{正则化}}}方法(如{{{岭回归}}})和{{{机器学习}}}领域中尤为重要。

此外,在大样本情况下,我们还关心{{{相合性}}} (Consistency)。一个相合估计量是指当样本量 $n \to \infty$ 时,该估计量会{{{依概率收敛}}}于真实参数值。许多有偏估计量(如 $S_n^2$)虽然在有限样本下有偏,但却是相合的,它们的偏差会随着样本量的增加而趋向于零,这类估计量被称为 渐近无偏 (Asymptotically Unbiased)。