ARTICLE

有偏的

在统计学与计量经济学中,有偏的(biased)指估计量的期望值不等于被估计参数真值的性质。若 是参数 的一个估计量,则其偏误(bias)定义为: 当 Bias( ) 0 时,称 为 的有偏估计量(biased estimator);反之,若 Bias( ) = 0 ,则为无偏估计量。偏误衡量的是估计量在重复抽样下的系统偏差,而非单次抽样的随机误差——前者可预

浏览 7 更新 2025-10-26

在统计学与计量经济学中,有偏的(biased)指估计量的期望值不等于被估计参数真值的性质。若 θ^ \hat{\theta} 是参数 θ \theta 的一个估计量,则其偏误(bias)定义为:

Bias(θ^)=E[θ^]θ\operatorname{Bias}(\hat{\theta}) = \mathbb{E}[\hat{\theta}] - \theta

Bias(θ^)0 \operatorname{Bias}(\hat{\theta}) \neq 0 时,称 θ^ \hat{\theta} θ \theta 有偏估计量(biased estimator);反之,若 Bias(θ^)=0 \operatorname{Bias}(\hat{\theta}) = 0 ,则为无偏估计量。偏误衡量的是估计量在重复抽样下的系统偏差,而非单次抽样的随机误差——前者可预测、可修正,后者则无法消除。

有偏性与一致性的区别

有偏性是有限样本性质,衡量固定样本量下估计量的系统偏差。一致性是大样本性质,指样本容量趋于无穷时估计量依概率收敛到真实参数。两者的关系需要仔细辨析。

无偏估计量不一定一致。例如 θ^=X1 \hat{\theta} = X_1 是总体均值 μ \mu 的无偏估计量,但方差固定为总体方差,样本量增大也不收敛,故不一致。有偏估计量可能一致。例如样本方差 Sn2=1ni=1n(XiXˉ)2 S^2_n = \frac{1}{n}\sum_{i=1}^n (X_i - \bar{X})^2 σ2 \sigma^2 的有偏估计量,其期望为 n1nσ2 \frac{n-1}{n}\sigma^2 ,但当 n n \to \infty 时偏误 σ2n0 \frac{\sigma^2}{n} \to 0 ,故一致。实践中常直接使用 Sn2 S^2_n 而非无偏版本(即除以 n1 n-1 的样本方差),原因正在于此——在中等以上样本量下,有偏版本的均方误差往往更小。

一致估计量在大样本下渐进无偏,但在有限样本中可能具有非零偏误。理解这一区别至关重要:样本量充足时一致但有偏的估计量可能是合理选择;小样本情况下则需优先考虑无偏性或进行偏误校正。

常见偏误类型

遗漏变量偏误(Omitted Variable Bias):在多元回归中,若真实模型为 y=β0+β1x1+β2x2+ϵ y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \epsilon ,但误将 x2 x_2 遗漏,则 β^1 \hat{\beta}_1 的偏误为 β2Cov(x1,x2)/Var(x1) \beta_2 \cdot \operatorname{Cov}(x_1, x_2)/\operatorname{Var}(x_1) 。只要 β20 \beta_2 \neq 0 x1 x_1 x2 x_2 相关,β^1 \hat{\beta}_1 就有偏。偏误方向取决于 β2 \beta_2 符号与变量相关方向。这是实证研究中最常见的内生性来源,通常通过控制变量或工具变量法解决。经典案例是教育回报率研究——若遗漏"能力"变量,而能力与受教育年限正相关且能力本身提高工资,则教育回报率的 OLS 估计会向上偏误。

选择偏误(Selection Bias):样本非随机取自总体时产生,观测样本不能代表目标总体。典型例子包括:样本选择偏误(Heckman, 1979),如研究女性工资时仅观察到参与劳动市场的女性的工资,未参与者的潜在工资缺失,参与决策与潜在工资相关时 OLS 有偏,Heckman 两步法通过估计参与方程并引入逆米尔斯比率加以修正;生存偏误,如分析基金回报时忽略已清盘基金会高估平均回报——著名案例是统计学家 Wald 对返航飞机弹孔分布的研究,引擎部位弹孔少并非因不易被击中,而是因引擎中弹的飞机未能返航,由此推断引擎是要害部位应加强防护;自选择偏误,如参与培训项目的工人本身更有上进心,直接比较参与者与非参与者会高估培训效果。

测量误差偏误(Measurement Error Bias):自变量存在经典测量误差时,OLS 估计量向零收缩,即衰减偏误。信噪比越低偏误越严重。因变量存在测量误差且与自变量无关时,OLS 仍保持无偏但方差增大。当多个自变量均有测量误差时,偏误方向更为复杂。

联立性偏误(Simultaneity Bias):联立方程模型中解释变量与误差项相关,导致 OLS 有偏且不一致。经典例子是供求模型——价格和数量由供需双方共同决定,用 OLS 估计需求方程时价格项与误差项相关。工具变量法和两阶段最小二乘法(2SLS)是标准解决方案。宏观经济学中货币政策效果估计常面临此问题。

动态面板偏误(Dynamic Panel Bias / Nickell 偏误):含滞后因变量的固定效应模型中,组内变换后滞后项与误差项相关,有限样本下有偏,时间维度 T T 较小时尤为显著,T T \to \infty 时消失。在微观面板数据(N N T T 小)中此问题突出,差分 GMM 和系统 GMM 可用于解决。

偏差-方差权衡

在统计学习中,均方误差可分解为 MSE=Bias2+Var \operatorname{MSE} = \operatorname{Bias}^2 + \operatorname{Var} 。引入轻微有偏性可能大幅降低方差,从而降低总 MSE。这即偏差-方差权衡(bias-variance tradeoff)的核心思想。岭回归、LASSO 等正则化方法通过引入偏误(将系数向零收缩)换取更低方差,提升预测精度。模型复杂度越高通常偏差越低但方差越高;反之模型越简单偏差越高但方差越低。最优复杂度通常通过交叉验证确定。

偏误的修正方法

常用方法包括:工具变量法处理内生性(遗漏变量、测量误差、联立性)导致的偏误;Heckman 两步法通过逆米尔斯比率修正样本选择偏误;Jackknife 或 Bootstrap 重抽样法估计偏误并调整原始估计量,适用于小样本场景;正则化方法(Ridge、LASSO、弹性网)引入可控偏误降低预测方差;倾向得分匹配和逆概率加权处理选择偏误。

总结

有偏性是评估估计量质量的核心维度。实践中,有偏性本身不一定是灾难——关键在于偏误的方向、大小及是否随样本量增大而消失。理解偏误来源与结构,是进行可靠统计推断和因果识别的基础。在计量经济学实证研究中,研究者应当仔细审视可能引入偏误的各个渠道,并采取适当的识别策略加以应对。对于刚接触统计学的学习者而言,掌握有偏与无偏的区别,以及偏误与一致性的关系,是理解推断统计学的关键一步。

参考文献

  • Wooldridge, J. M. (2010). *Econometric Analysis of Cross Section and Panel Data*. MIT Press.
  • Heckman, J. J. (1979). Sample selection bias as a specification error. *Econometrica*, 47(1), 153–161.
  • Nickell, S. (1981). Biases in dynamic models with fixed effects. *Econometrica*, 49(6), 1417–1426.
  • Hastie, T., Tibshirani, R., \& Friedman, J. (2009). *The Elements of Statistical Learning*. Springer.
  • Angrist, J. D., \& Pischke, J.-S. (2009). *Mostly Harmless Econometrics*. Princeton University Press.
  • Wald, A. (1943). A method of estimating plane vulnerability based on damage of survivors. *Statistical Research Group, Columbia University*.