ARTICLE

bias

Bias(偏差) Bias(偏差、偏误)在统计学和计量经济学中指估计量的期望值与真实参数之间的系统性偏离。形式上,对于参数 及其估计量 ,偏差定义为: 当 Bias( ) = 0 时, 为无偏估计量。偏差与方差共同构成均方误差的经典分解: MSE( ) = Var( ) + [ Bias( )]^2 ,这一关系奠定了偏差-方差权衡的理论基石。 统计偏差的主要

浏览 4 更新 2025-10-26

Bias(偏差)

Bias(偏差、偏误)在统计学计量经济学中指估计量的期望值与真实参数之间的系统性偏离。形式上,对于参数 θ \theta 及其估计量 θ^ \hat{\theta} ,偏差定义为:

Bias(θ^)=E[θ^]θ\operatorname{Bias}(\hat{\theta}) = \mathbb{E}[\hat{\theta}] - \theta

Bias(θ^)=0 \operatorname{Bias}(\hat{\theta}) = 0 时,θ^ \hat{\theta} 无偏估计量。偏差与方差共同构成均方误差的经典分解:MSE(θ^)=Var(θ^)+[Bias(θ^)]2 \operatorname{MSE}(\hat{\theta}) = \operatorname{Var}(\hat{\theta}) + [\operatorname{Bias}(\hat{\theta})]^2 ,这一关系奠定了偏差-方差权衡的理论基石。

统计偏差的主要来源

样本选择偏差源于样本未能代表目标总体。幸存者偏差分析仅关注存活个体而忽略消失样本,导致对绩效的系统性高估。自选择偏差产生于个体自主决定参与研究时,参与决策自身携带有关结果变量的信息,使 OLS 估计丧失一致性。

遗漏变量偏差在计量经济学中最为关键。当真实模型 Y=β0+β1X+β2Z+ε Y = \beta_0 + \beta_1 X + \beta_2 Z + \varepsilon Z Z 被遗漏且 Cov(X,Z)0 \operatorname{Cov}(X, Z) \neq 0 时,短回归系数 β^1short \hat{\beta}_1^{\text{short}} 的概率极限为 β1+β2Cov(X,Z)Var(X) \beta_1 + \beta_2 \frac{\operatorname{Cov}(X, Z)}{\operatorname{Var}(X)} 。这直接推动了工具变量固定效应模型双重差分等因果识别策略的发展。

测量误差同样引发偏差。经典测量误差假设下,自变量误差使 OLS 系数向零衰减,因变量误差则仅扩大标准误而不影响一致性。这在行为经济学的问卷调查与心理学量表中尤为突出。

经济学与机器学习视角

机器学习中,偏差描述模型对真实函数形式的假设限制——高偏差模型(如线性模型拟合非线性关系)导致欠拟合。归纳偏差指学习算法对假设空间的先验偏好(如奥卡姆剃刀),是统计学习理论中泛化误差界的核心概念。

行为经济学将偏差延展至人类判断领域。过度自信偏差致使投资者低估风险并过度交易;确认偏差驱动个体主动搜寻支持既有信念的证据;锚定效应——KahnemanTversky的经典发现——使判断过度依赖初始参考值,在IPO定价与拍卖竞价中产生系统性扭曲。这些认知偏差构成了对有效市场假说的重要行为挑战,催生了前景理论与噪声交易者模型。

纠偏策略涵盖实验设计与统计方法两个层面。随机对照试验通过随机分配消除选择偏差,是因果识别的黄金标准;倾向得分匹配断点回归在观测研究中借助特定识别假设实现偏差校正;双机器学习则在高维设定下利用现代机器学习算法降低混杂偏差,同时保持参数估计的渐近性质。