ARTICLE

Bias

Bias(偏差) Bias(偏差、偏误)在统计学和计量经济学中指估计量的期望值与真实参数之间的系统性差异。形式上,对于参数 和估计量 ,偏差定义为: 当 Bias( ) = 0 时,称 为无偏估计量。偏差是衡量估计量准确性的核心指标,与方差共同构成均方误差 MSE( ) = Var( ) + [ Bias( )]^2 的分解,奠定了偏差-方差权衡的理论基础。

浏览 4 更新 2025-10-26

Bias(偏差)

Bias(偏差、偏误)在统计学计量经济学中指估计量的期望值与真实参数之间的系统性差异。形式上,对于参数 θ \theta 和估计量 θ^ \hat{\theta} ,偏差定义为:

Bias(θ^)=E[θ^]θ\operatorname{Bias}(\hat{\theta}) = \mathbb{E}[\hat{\theta}] - \theta

Bias(θ^)=0 \operatorname{Bias}(\hat{\theta}) = 0 时,称 θ^ \hat{\theta} 无偏估计量。偏差是衡量估计量准确性的核心指标,与方差共同构成均方误差 MSE(θ^)=Var(θ^)+[Bias(θ^)]2 \operatorname{MSE}(\hat{\theta}) = \operatorname{Var}(\hat{\theta}) + [\operatorname{Bias}(\hat{\theta})]^2 的分解,奠定了偏差-方差权衡的理论基础。

统计估计中的偏差来源

样本选择偏差是最常见的偏差类型,当样本未能代表目标总体时产生。经典案例包括幸存者偏差——仅分析"存活"样本而忽略已消失的个体(如仅研究现存公司而忽视已破产企业),导致对绩效的系统性高估。自选择偏差则出现在个体主动选择是否参与研究时,参与决策本身携带关于结果变量的信息。

遗漏变量偏差在计量经济学中具有核心地位。当真实数据生成过程 Y=β0+β1X+β2Z+ε Y = \beta_0 + \beta_1 X + \beta_2 Z + \varepsilon Z Z 被遗漏且 Cov(X,Z)0 \operatorname{Cov}(X, Z) \neq 0 时,OLS 估计量 β^1short \hat{\beta}_1^{\text{short}} 的偏差为 β2Cov(X,Z)Var(X) \beta_2 \cdot \frac{\operatorname{Cov}(X, Z)}{\operatorname{Var}(X)} 。这直接催生了工具变量固定效应模型双重差分等因果推断方法。

测量误差产生衰减偏差。当自变量存在经典测量误差时,OLS 系数向零衰减;当因变量存在测量误差时,标准误膨胀但系数保持无偏。这些性质在心理学和行为经济学的问卷调查数据中尤为重要。

机器学习中的偏差

机器学习中,偏差指模型对真实函数形式的假设偏离——高偏差模型(如线性回归拟合非线性数据)产生欠拟合。偏差-方差权衡表明,模型复杂度增加通常降低偏差但提升方差,最优泛化性能位于二者之间的拐点。归纳偏差则指学习算法对假设空间的先验偏好(如奥卡姆剃刀偏好简单模型),是统计学习理论中泛化保证的基础。

行为金融学中的认知偏差

行为经济学和行为金融学将偏差延展至人类判断领域。过度自信偏差使投资者低估风险并过度交易,Odean (1999) 的实证研究表明过度交易者年化收益因交易成本降低约 3\%。确认偏差驱使人主动搜寻支持既有信念的信息,在投资决策和宏观经济预测中普遍存在。锚定效应——Kahneman 和 Tversky (1974) 的经典发现——使个体过度依赖初始参考值,是拍卖出价、价格谈判和 IPO 定价中的系统性扭曲来源。可得性偏差代表性启发式有效市场假说的实证检验中构成重要的替代解释。这些认知偏差挑战了理性预期框架,催生了前景理论和噪声交易者模型。

计量经济学中的识别与纠偏

现代因果推断框架将偏差视为识别问题的核心障碍。随机对照试验通过随机分配消除选择偏差,被视为因果识别的黄金标准。在观测研究中,倾向得分匹配断点回归合成控制法在特定识别假设下实现偏差校正。Nagar 偏差描述了工具变量估计量在小样本中的一阶偏差,推动了对弱工具变量问题和有限样本推论的研究。后双重选择部分线性模型高维计量经济学中利用机器学习降低混杂偏差,同时保持参数估计的渐近无偏性。