ARTICLE

无偏性

无偏性 (Unbiasedness) 无偏性 (Unbiasedness) 是统计学和计量经济学中评价一个Estimator (估计量) 优良性的重要准则之一。一个估计量被认为是无偏的,如果它的Expected Value (期望值或均值) 等于它所要估计的那个未知的Population (总体) Parameter (参数) 的真实值。 换言之,假设我们有

浏览 109 更新 2025-10-25

无偏性 (Unbiasedness)

无偏性 (Unbiasedness) 是统计学计量经济学中评价一个Estimator (估计量) 优良性的重要准则之一。一个估计量被认为是无偏的,如果它的Expected Value (期望值或均值) 等于它所要估计的那个未知的Population (总体) Parameter (参数) 的真实值。

换言之,假设我们有一个未知的总体参数 θ \theta (例如,总体的Population Mean (均值) μ \mu 或总体的Population Variance (方差) σ2 \sigma^2 ),我们从总体中抽取一个Sample (样本),并根据样本数据计算出一个估计量 θ^ \hat{\theta} 。如果对于任何可能的 θ \theta 值,都满足以下条件,那么我们就称 θ^ \hat{\theta} θ \theta 的一个 无偏估计量 (Unbiased Estimator):

E(θ^)=θE(\hat{\theta}) = \theta

这个性质的核心在于“平均而言是准确的”。它并不意味着任何一次抽样计算得到的估计值 θ^ \hat{\theta} 就精确地等于真实的 θ \theta 。单次的估计几乎总会存在抽样误差。无偏性说的是,如果我们能够进行无数次重复的、独立的抽样,并每一次都计算出一个 θ^ \hat{\theta} ,那么所有这些 θ^ \hat{\theta} 值的平均数将会趋近于真实的参数 θ \theta

理解无偏性的直观意义

我们可以用一个射击的例子来类比:

  • 靶心:代表我们想要估计的真实总体参数 θ \theta
  • 每一次射击的弹着点:代表我们通过一次抽样计算出的估计值 θ^ \hat{\theta}

一个无偏估计量就像一个虽然技术不完美但瞄准是正确的射手。他射出的许多发子弹(多次估计)可能散布在靶心周围,有些偏左,有些偏右,有些偏高,有些偏低。但是,所有弹着点的几何中心(期望值)恰好就是靶心。这个射手没有系统性的瞄准错误。

相反,一个 有偏估计量 (Biased Estimator) 则像一个瞄准镜本身有问题的射手。即使他每次射击都非常稳定(弹着点密集),但所有弹着点的中心却系统性地偏离了靶心。这个系统性的偏差就是 Bias (偏差),其定义为:

Bias(θ^)=E(θ^)θ\text{Bias}(\hat{\theta}) = E(\hat{\theta}) - \theta

对于无偏估计量,其偏差为零。

经典示例与证明

1. 样本均值的无偏性

Sample Mean (样本均值) Xˉ \bar{X} 是总体均值 μ \mu 的一个无偏估计量。这是统计学中最基本和最重要的结论之一。

假设我们从一个均值为 μ \mu 、方差为 σ2 \sigma^2 的总体中,随机抽取一个大小为 n n 的样本 {X1,X2,,Xn} \{X_1, X_2, \dots, X_n\} 。样本均值定义为:

Xˉ=1ni=1nXi\bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i

为了检验其无偏性,我们计算它的期望值:

E(Xˉ)=E(1ni=1nXi)E(\bar{X}) = E\left(\frac{1}{n} \sum_{i=1}^{n} X_i\right)

根据期望值的线性性质,E(aX+bY)=aE(X)+bE(Y) E(aX+bY) = aE(X)+bE(Y) ,我们可以将常数 1n \frac{1}{n} 和求和符号提到期望符号的外面:

E(Xˉ)=1ni=1nE(Xi)E(\bar{X}) = \frac{1}{n} \sum_{i=1}^{n} E(X_i)

由于每一个 Xi X_i 都是从同一个总体中抽取的,所以它们的期望值都等于总体的均值 μ \mu ,即 E(Xi)=μ E(X_i) = \mu for all i=1,,n i=1, \dots, n 。因此:

E(Xˉ)=1ni=1nμ=1n(nμ)=μE(\bar{X}) = \frac{1}{n} \sum_{i=1}^{n} \mu = \frac{1}{n} (n\mu) = \mu

证明完毕。这表明,样本均值 Xˉ \bar{X} 在平均意义上,是对总体均值 μ \mu 的一个准确估计。

2. 样本方差的无偏性 (Bessel's Correction)

这是一个更具启发性的例子,它解释了为什么在计算Sample Variance (样本方差) 时,分母通常是 n1 n-1 而不是 n n

假设我们想估计总体方差 σ2 \sigma^2 。一个很自然的估计量是样本中各项与其均值的离差平方和的平均数。让我们先定义一个分母为 n n 的估计量 Sn2 S_n^2

Sn2=1ni=1n(XiXˉ)2S_n^2 = \frac{1}{n} \sum_{i=1}^{n} (X_i - \bar{X})^2

现在我们来计算它的期望值,看它是否无偏。经过一系列代数推导(此处省略其繁琐过程,但核心思想是把 (XiXˉ)2 (X_i - \bar{X})^2 展开为 (Xiμ(Xˉμ))2 (X_i - \mu - (\bar{X} - \mu))^2 ),可以得到以下结果:

E(Sn2)=n1nσ2E(S_n^2) = \frac{n-1}{n} \sigma^2

这个结果表明 Sn2 S_n^2 并非 σ2 \sigma^2 的无偏估计量。它的期望值是 n1nσ2 \frac{n-1}{n}\sigma^2 ,总是略小于真实的 σ2 \sigma^2 。因此,Sn2 S_n^2 是一个 有偏估计量,它会系统性地 低估 总体的方差。

偏差为:

Bias(Sn2)=E(Sn2)σ2=n1nσ2σ2=1nσ2\text{Bias}(S_n^2) = E(S_n^2) - \sigma^2 = \frac{n-1}{n}\sigma^2 - \sigma^2 = -\frac{1}{n}\sigma^2

为什么会产生偏差? 直观的解释是:我们在计算离差平方和时,使用的不是真实的总体均值 μ \mu ,而是根据样本自身计算出来的样本均值 Xˉ \bar{X} 。样本均值 Xˉ \bar{X} "迎合"了样本数据,它使得样本的离差平方和 (XiXˉ)2 \sum(X_i - \bar{X})^2 最小化了。而真实的离差平方和 (Xiμ)2 \sum(X_i - \mu)^2 通常会比这个值更大。因此,使用 Xˉ \bar{X} 导致了对变异程度的低估。这种计算上的"迁就"消耗了一个Degrees of Freedom (自由度)。

如何修正? 为了修正这个偏差,我们定义了以 n1 n-1 为分母的样本方差,通常记为 s2 s^2 σ^2 \hat{\sigma}^2

s2=1n1i=1n(XiXˉ)2s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2

这个修正被称为 贝塞尔校正 (Bessel's Correction)。现在我们来计算 s2 s^2 的期望值:

E(s2)=E(1n1i=1n(XiXˉ)2)=E(nn1Sn2)E(s^2) = E\left(\frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2\right) = E\left(\frac{n}{n-1} S_n^2\right)

利用期望的线性性质和上面已求出的 E(Sn2) E(S_n^2)

E(s2)=nn1E(Sn2)=nn1(n1nσ2)=σ2E(s^2) = \frac{n}{n-1} E(S_n^2) = \frac{n}{n-1} \left(\frac{n-1}{n} \sigma^2\right) = \sigma^2

证明完毕。因此,s2 s^2 (分母为 n1 n-1 的样本方差) 是总体方差 σ2 \sigma^2 的一个无偏估计量。

无偏性并非唯一准则:偏差-方差权衡

虽然无偏性是一个理想的属性,但它不是评价估计量好坏的唯一标准。一个好的估计量不仅应该“瞄得准”(低偏差),还应该“打得稳”(低方差)。Variance (方差) 衡量的是估计量 θ^ \hat{\theta} 在不同样本下的波动程度。

一个无偏但方差极大的估计量,在单次抽样中可能会给出离真实值很远的结果,因此实用价值不大。这就像一个瞄准正确但手臂不停发抖的射手,虽然平均位置是靶心,但每一枪都可能偏得离谱。

为了综合评价估计量的性能,统计学家引入了Mean Squared Error (MSE) (均方误差) 的概念。MSE 定义为估计值与真实参数之差的平方的期望值:

MSE(θ^)=E[(θ^θ)2]\text{MSE}(\hat{\theta}) = E[(\hat{\theta} - \theta)^2]

MSE 可以被分解为方差和偏差的平方和:

MSE(θ^)=Var(θ^)+[Bias(θ^)]2\text{MSE}(\hat{\theta}) = \text{Var}(\hat{\theta}) + [\text{Bias}(\hat{\theta})]^2

这个公式揭示了一个深刻的道理:一个估计量的总误差,来源于它的波动性(方差)和它的系统性偏差。这也引出了著名的Bias-Variance Tradeoff (偏差-方差权衡)。在某些情况下,我们可能会接受一个有微小偏差的估计量,以换取其方差的大幅降低,从而获得一个更小的整体MSE。例如,在machine learning领域的岭回归 (Ridge Regression) 就是通过引入少量偏差来显著降低参数估计的方差,从而提高模型的预测性能。

相关概念

  • Asymptotic Unbiasedness (渐近无偏性):有些估计量(如 Sn2 S_n^2 )在有限样本下是有偏的,但当样本量 n n \to \infty 时,其偏差会趋近于0。
  • Consistency (一致性):一个一致的估计量是指当样本量 n n \to \infty 时,该估计量会依概率收敛于真实的参数值。无偏性既不是一致性的充分条件,也不是必要条件,但它们经常同时出现。
  • Efficiency (有效性):在所有无偏估计量中,方差最小的那个被称为最有效估计量或最小方差无偏估计量 (MVUE)。