ARTICLE

偏误

偏误 (Bias) 偏误 (Bias) 是一个在统计学、计量经济学、机器学习以及其他定量科学中至关重要的核心概念。它指的是一个测量、估计或预测过程中的系统性误差 (Systematic Error)，即估计结果的期望值（或平均值）与被估计的真实参数之间的差值。与随机误差（其期望值为零）不同，偏误具有一个明确的方向和大小，它会导致结果持续地、系统性

浏览 74 更新 2025-10-26

偏误 (Bias)

偏误 (Bias) 是一个在统计学、计量经济学、机器学习以及其他定量科学中至关重要的核心概念。它指的是一个测量、估计或预测过程中的 系统性误差 (Systematic Error)，即估计结果的期望值（或平均值）与被估计的真实参数之间的差值。与随机误差（其期望值为零）不同，偏误具有一个明确的方向和大小，它会导致结果持续地、系统性地偏离真实值。

一个不包含偏误的估计量被称为 无偏估计量 (Unbiased Estimator)。在学术研究和数据分析中，识别、理解和校正偏误是得出有效和可靠结论的先决条件。

统计学中的偏误定义

在统计推断中，我们通常使用样本数据来估计总体的某个未知参数。例如，我们用样本均值 $\bar{X}$ 来估计总体均值 $\mu$ 。这里， $\bar{X}$ 是一个 估计量 (Estimator)， $\mu$ 是我们想要知道的真实 参数 (Parameter)。

一个估计量 $\hat{\theta}$ 的偏误被定义为它的期望值 $E[\hat{\theta}]$ 与真实参数 $\theta$ 之间的差：

\text{Bias}(\hat{\theta}) = E[\hat{\theta}] - \theta

如果 $\text{Bias}(\hat{\theta}) = 0$ ，即 $E[\hat{\theta}] = \theta$ ，我们称 $\hat{\theta}$ 是 $\theta$ 的一个 无偏估计量。这意味着，如果我们反复从总体中抽取大量样本并计算估计值，这些估计值的平均数将会非常接近真实的参数值。例如，样本均值 $\bar{X}$ 就是总体均值 $\mu$ 的一个无偏估计量。
如果 $\text{Bias}(\hat{\theta}) > 0$ ，我们称之为 正偏误 (Positive Bias)，估计量平均而言会高估真实参数。
如果 $\text{Bias}(\hat{\theta}) < 0$ ，我们称之为 负偏误 (Negative Bias)，估计量平均而言会低估真实参数。

需要注意的是，无偏性并不意味着某一次的估计就等于真实值，它只保证"平均而言"是准确的。

常见的偏误类型

偏误可以从数据收集、样本选择到模型设定的各个环节产生。以下是一些在经济和金融领域中尤其常见的偏误类型。

抽样偏误 (Sampling Bias)

当抽取的样本不能代表其所要推断的总体时，就会产生抽样偏误。这导致基于该样本得出的结论无法被有效推广到整个总体。

示例：为了调查某城市居民的平均收入，研究者只在高级购物中心进行问卷调查。这样得到的样本显然会系统性地忽略低收入人群，从而导致对平均收入的高估。

选择偏误 (Selection Bias)

选择偏误是一个更广泛的概念，它源于用于分析的数据、个体或群组并非通过适当的随机化方法选出。

幸存者偏误 (Survivorship Bias)：这是金融领域一个典型的选择偏误。例如，在评估对冲基金的历史表现时，如果分析只包括那些至今仍在运营的基金，而忽略了那些因表现不佳而倒闭的基金，那么分析结果将会系统性地高估基金行业的平均回报率。
自选择偏误 (Self-selection Bias)：当个体可以自行选择是否参与某项研究或计划时，这种偏误就会出现。例如，参与一项新药临床试验的病人可能比普通病人更健康或更有动力，这会影响对药物效果的评估。

遗漏变量偏误 (Omitted Variable Bias, OVB)

在回归分析中，遗漏变量偏误是最重要和最常见的偏误之一。当一个回归模型未能包含一个与因变量相关、且同时与模型中至少一个自变量相关的变量时，就会产生 OVB。

假设真实的模型是：

Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \epsilon

其中 $\epsilon$ 是随机误差项。这个模型表明 $Y$ 同时受到 $X_1$ 和 $X_2$ 的影响。

但是，如果我们错误地估计了一个更简单的模型，遗漏了 $X_2$ ：

Y = \alpha_0 + \alpha_1 X_1 + u

在这种情况下，我们得到的 $X_1$ 的系数估计值 $\hat{\alpha}_1$ 将是有偏误的。它的期望值不等于真实的 $\beta_1$ ，而是：

E[\hat{\alpha}_1] = \beta_1 + \beta_2 \cdot \delta_{12}

其中 $\delta_{12}$ 是将遗漏变量 $X_2$ 对包含的变量 $X_1$ 进行简单回归得到的系数（即 $\text{Cov}(X_1, X_2) / \text{Var}(X_1)$ ）。

这个偏误 $\beta_2 \cdot \delta_{12}$ 的方向取决于两个因素：

遗漏变量对因变量的影响方向 ( $\beta_2$ )： $X_2$ 是促进还是抑制 $Y$ ？
遗漏变量与包含变量的相关性方向 ( $\delta_{12}$ )： $X_1$ 和 $X_2$ 是正相关还是负相关？

示例：在研究"教育程度 ( $X_1$ )"对"个人收入 ( $Y$ )"的影响时，如果模型遗漏了"个人能力 ( $X_2$ )"这一变量。我们知道，个人能力通常与教育程度正相关（能力高的人倾向于接受更多教育），并且个人能力也对收入有正向影响。因此， $\beta_2 > 0$ 且 $\delta_{12} > 0$ ，导致偏误项 $\beta_2 \cdot \delta_{12} > 0$ 。最终，我们会高估教育程度对收入的真实影响。

确认偏误 (Confirmation Bias)

这是一种认知偏误，在行为经济学和行为金融学中非常重要。它指人们倾向于寻找、解释、偏好和回忆那些能够证实他们既有信念或假设的信息。在数据分析中，研究者可能无意识地选择支持其理论的数据或模型，而忽略不支持的证据，从而导致结论产生偏误。

偏误与方差的权衡 (Bias-Variance Tradeoff)

在统计建模和机器学习中，模型的预测误差可以分解为三个部分：偏误、方差和不可约误差。

偏误 (Bias)：如前所述，是模型预测值的平均值与真实值之间的差异。高偏误意味着模型过于简单，未能捕捉数据的基本规律（欠拟合, Underfitting）。
方差 (Variance)：指模型在不同训练数据集上进行训练时，其预测结果的变化程度或不稳定性。高方差意味着模型对训练数据中的微小波动非常敏感，可能捕捉到了噪声而非信号（过拟合, Overfitting）。

偏误-方差权衡 指的是：

一个简单的模型（如线性回归）通常具有 高偏误 和 低方差。
一个复杂的模型（如高阶多项式回归或深度神经网络）通常具有 低偏误 和 高方差。

模型构建的目标是找到一个平衡点，使总误差（通常用均方误差 (Mean Squared Error, MSE) 来衡量）最小化。

\text{MSE} = \text{Bias}^2 + \text{Variance} + \text{Irreducible Error}

理解这一权衡对于选择合适的模型复杂度至关重要。例如，在交叉验证 (Cross-Validation) 中，我们正是通过评估模型在未见过的数据上的表现来寻找这个最佳平衡点。

如何识别与缓解偏误

审慎的研究设计：在数据收集阶段，采用随机抽样、分层抽样等科学方法是避免抽样偏误和选择偏误的基础。在实验研究中，随机对照试验 (RCT) 是减少选择偏误的黄金标准。
诊断与测试：在建模后，进行各种统计检验来诊断潜在的偏误，如遗漏变量检验。
改进模型设定： \begin{itemize}
为解决 OVB，可以尝试将理论上重要的变量纳入模型。
当无法直接观测到遗漏变量时，可以采用工具变量法 (Instrumental Variables, IV) 或面板数据中的固定效应模型 (Fixed Effects Model) 等高级计量方法来处理。

\item 认知与反思：对于确认偏误等认知偏误，需要研究者保持客观和批判性思维，主动寻找与自己假设相反的证据。 \end{itemize}

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。