ARTICLE
有偏的
在统计学与计量经济学中,有偏的(biased)指估计量的期望值不等于被估计参数真值的性质。若 是参数 的一个估计量,则其偏误(bias)定义为: 当 Bias( ) 0 时,称 为 的有偏估计量(biased estimator);反之,若 Bias( ) = 0 ,则为无偏估计量。偏误衡量的是估计量在重复抽样下的系统偏差,而非单次抽样的随机误差——前者可预
在统计学与计量经济学中,有偏的(biased)指估计量的期望值不等于被估计参数真值的性质。若 是参数 的一个估计量,则其偏误(bias)定义为:
当 时,称 为 的有偏估计量(biased estimator);反之,若 ,则为无偏估计量。偏误衡量的是估计量在重复抽样下的系统偏差,而非单次抽样的随机误差——前者可预测、可修正,后者则无法消除。
有偏性与一致性的区别
有偏性是有限样本性质,衡量固定样本量下估计量的系统偏差。一致性是大样本性质,指样本容量趋于无穷时估计量依概率收敛到真实参数。两者的关系需要仔细辨析。
无偏估计量不一定一致。例如 是总体均值 的无偏估计量,但方差固定为总体方差,样本量增大也不收敛,故不一致。有偏估计量可能一致。例如样本方差 是 的有偏估计量,其期望为 ,但当 时偏误 ,故一致。实践中常直接使用 而非无偏版本(即除以 的样本方差),原因正在于此——在中等以上样本量下,有偏版本的均方误差往往更小。
一致估计量在大样本下渐进无偏,但在有限样本中可能具有非零偏误。理解这一区别至关重要:样本量充足时一致但有偏的估计量可能是合理选择;小样本情况下则需优先考虑无偏性或进行偏误校正。
常见偏误类型
遗漏变量偏误(Omitted Variable Bias):在多元回归中,若真实模型为 ,但误将 遗漏,则 的偏误为 。只要 且 与 相关, 就有偏。偏误方向取决于 符号与变量相关方向。这是实证研究中最常见的内生性来源,通常通过控制变量或工具变量法解决。经典案例是教育回报率研究——若遗漏"能力"变量,而能力与受教育年限正相关且能力本身提高工资,则教育回报率的 OLS 估计会向上偏误。
选择偏误(Selection Bias):样本非随机取自总体时产生,观测样本不能代表目标总体。典型例子包括:样本选择偏误(Heckman, 1979),如研究女性工资时仅观察到参与劳动市场的女性的工资,未参与者的潜在工资缺失,参与决策与潜在工资相关时 OLS 有偏,Heckman 两步法通过估计参与方程并引入逆米尔斯比率加以修正;生存偏误,如分析基金回报时忽略已清盘基金会高估平均回报——著名案例是统计学家 Wald 对返航飞机弹孔分布的研究,引擎部位弹孔少并非因不易被击中,而是因引擎中弹的飞机未能返航,由此推断引擎是要害部位应加强防护;自选择偏误,如参与培训项目的工人本身更有上进心,直接比较参与者与非参与者会高估培训效果。
测量误差偏误(Measurement Error Bias):自变量存在经典测量误差时,OLS 估计量向零收缩,即衰减偏误。信噪比越低偏误越严重。因变量存在测量误差且与自变量无关时,OLS 仍保持无偏但方差增大。当多个自变量均有测量误差时,偏误方向更为复杂。
联立性偏误(Simultaneity Bias):联立方程模型中解释变量与误差项相关,导致 OLS 有偏且不一致。经典例子是供求模型——价格和数量由供需双方共同决定,用 OLS 估计需求方程时价格项与误差项相关。工具变量法和两阶段最小二乘法(2SLS)是标准解决方案。宏观经济学中货币政策效果估计常面临此问题。
动态面板偏误(Dynamic Panel Bias / Nickell 偏误):含滞后因变量的固定效应模型中,组内变换后滞后项与误差项相关,有限样本下有偏,时间维度 较小时尤为显著, 时消失。在微观面板数据( 大 小)中此问题突出,差分 GMM 和系统 GMM 可用于解决。
偏差-方差权衡
在统计学习中,均方误差可分解为 。引入轻微有偏性可能大幅降低方差,从而降低总 MSE。这即偏差-方差权衡(bias-variance tradeoff)的核心思想。岭回归、LASSO 等正则化方法通过引入偏误(将系数向零收缩)换取更低方差,提升预测精度。模型复杂度越高通常偏差越低但方差越高;反之模型越简单偏差越高但方差越低。最优复杂度通常通过交叉验证确定。
偏误的修正方法
常用方法包括:工具变量法处理内生性(遗漏变量、测量误差、联立性)导致的偏误;Heckman 两步法通过逆米尔斯比率修正样本选择偏误;Jackknife 或 Bootstrap 重抽样法估计偏误并调整原始估计量,适用于小样本场景;正则化方法(Ridge、LASSO、弹性网)引入可控偏误降低预测方差;倾向得分匹配和逆概率加权处理选择偏误。
总结
有偏性是评估估计量质量的核心维度。实践中,有偏性本身不一定是灾难——关键在于偏误的方向、大小及是否随样本量增大而消失。理解偏误来源与结构,是进行可靠统计推断和因果识别的基础。在计量经济学实证研究中,研究者应当仔细审视可能引入偏误的各个渠道,并采取适当的识别策略加以应对。对于刚接触统计学的学习者而言,掌握有偏与无偏的区别,以及偏误与一致性的关系,是理解推断统计学的关键一步。
参考文献
- Wooldridge, J. M. (2010). *Econometric Analysis of Cross Section and Panel Data*. MIT Press.
- Heckman, J. J. (1979). Sample selection bias as a specification error. *Econometrica*, 47(1), 153–161.
- Nickell, S. (1981). Biases in dynamic models with fixed effects. *Econometrica*, 49(6), 1417–1426.
- Hastie, T., Tibshirani, R., \& Friedman, J. (2009). *The Elements of Statistical Learning*. Springer.
- Angrist, J. D., \& Pischke, J.-S. (2009). *Mostly Harmless Econometrics*. Princeton University Press.
- Wald, A. (1943). A method of estimating plane vulnerability based on damage of survivors. *Statistical Research Group, Columbia University*.