ARTICLE
有偏估计
有偏估计 (Biased Estimator) 有偏估计 (Biased Estimator) 指估计量的期望值不等于被估计参数的真实值,即存在系统性偏差。设 为参数 的估计量,其偏差定义为 Bias( ) = E[ ] - 。当 Bias( ) 0 时,称 为 的有偏估计量。无偏性虽为优良估计量的理想性质,但有偏估计在统计学和计量经济学的许多领域中同样发挥
有偏估计 (Biased Estimator)
有偏估计 (Biased Estimator) 指估计量的期望值不等于被估计参数的真实值,即存在系统性偏差。设 为参数 的估计量,其偏差定义为 。当 时,称 为 的有偏估计量。无偏性虽为优良估计量的理想性质,但有偏估计在统计学和计量经济学的许多领域中同样发挥关键作用,甚至在某些情形下优于无偏估计。
偏差的来源
偏差可能源于多种因素:一是模型设定偏误,如遗漏变量导致的内生性问题,使OLS估计不一致且有偏;二是测量误差,当自变量存在测量误差时,估计量通常朝向零衰减(衰减偏误);三是样本选择偏误,如赫克曼选择模型所描述的情形,非随机样本导致估计偏离真实值;四是小样本偏误,如自回归模型中OLS估计量在有限样本下有偏,尽管在大样本下具有一致性。
偏差-方差权衡
有偏估计之所以被广泛使用,核心原因在于偏差-方差权衡 (Bias-Variance Tradeoff)。均方误差 (MSE) 可分解为:
均方误差同时衡量估计量的方差和偏差。引入适量偏差若可大幅降低方差,则可能使总体 MSE 减小,从而获得更精确的估计。这一思想构成现代机器学习中正则化方法的核心理论基础。
示例:岭回归。岭回归 (Ridge Regression) 在OLS目标函数中加入 惩罚项,主动引入偏差但显著降低方差,在多重共线性严重时 MSE 远小于 OLS。套索回归 (LASSO) 以类似方式实现变量选择与参数估计的统一,在偏差与方差之间取得平衡。
常见的有偏估计量
样本方差的有偏形式:若直接使用 而非 作分母计算样本方差,,则该统计量是方差的有偏估计,其期望为 。贝塞尔校正 (Bessel's Correction) 采用 分母以消除此偏差。
最大似然估计中方差分量的有偏性:在正态分布下, 的 MLE 为上述有偏形式 。虽然 MLE 在有限样本中通常有偏,但在正则条件下具有渐近无偏性和一致性。
工具变量估计中的有限样本偏误:当工具变量与内生变量相关性较弱时(弱工具变量问题),IV估计量即使在大样本中也存在显著偏误。
有偏一致估计量
一致性 (Consistency) 是比无偏性更弱的要求:当样本量 时,估计量依概率收敛于真实参数值。有偏估计量仍可能是一致的,只要偏差随样本量增大而消失。例如, 作为 的估计量虽在小样本中有偏,但 ,故为有偏一致估计量。在经济和金融领域的大样本应用中(如GMM估计),一致性通常是比无偏性更受关注的性质。
总结
有偏估计并非统计学中的"缺陷",而是一种实用工具。理解偏差的来源与影响,把握偏差-方差权衡的核心理念,有助于在实际应用中设计或选择适宜的估计方法。在许多复杂模型中,有偏但一致的估计量是唯一可行的选择,而正则化方法则巧妙利用偏差来提升整体预测精度。