ARTICLE

零均值假设

零均值假设 (Zero Mean Assumption) 零均值假设是经典线性回归模型（Classical Linear Regression Model, CLRM）的核心假定之一，要求误差项（或称扰动项、残差的理论对应物）的期望值为零。具体表述为：对于所有观测公式，有公式；在更严格的外生性条件下，进一步要求条件期望为零，即公式，其中公式为

浏览 0 更新 2025-10-26

零均值假设 (Zero Mean Assumption)

零均值假设是经典线性回归模型（Classical Linear Regression Model, CLRM）的核心假定之一，要求误差项（或称扰动项、残差的理论对应物）的期望值为零。具体表述为：对于所有观测 $i$ ，有 $E[\varepsilon_i] = 0$ ；在更严格的外生性条件下，进一步要求条件期望为零，即 $E[\varepsilon_i \mid \mathbf{X}] = 0$ ，其中 $\mathbf{X}$ 为所有解释变量的观测矩阵。该假定保证了最小二乘估计 (OLS)的无偏性和一致性，是回归分析中推断有效性的基石。

假定的确切含义

考虑总体回归模型：

Y_i = \beta_0 + \beta_1 X_{1i} + \cdots + \beta_k X_{ki} + \varepsilon_i, \quad i = 1, \ldots, n

零均值假设 $E[\varepsilon_i] = 0$ 意味着，在重复抽样中，不可观测因素对 $Y_i$ 的影响平均而言为零——不存在系统性的正向或负向偏离。若该假定成立，回归线 $E[Y_i \mid \mathbf{X}_i] = \beta_0 + \beta_1 X_{1i} + \cdots + \beta_k X_{ki}$ 恰好穿过 $Y$ 关于 $\mathbf{X}$ 的条件期望。

无条件形式 $E[\varepsilon_i] = 0$ 是较弱的版本。在包含截距项 $\beta_0$ 的模型中，该条件总可通过将 $\varepsilon_i$ 中恒定的非零均值吸收进入截距而机械地得到满足。因此，真正的约束力量来自条件零均值假设 $E[\varepsilon_i \mid \mathbf{X}] = 0$ ，它意味着误差项与所有解释变量都不相关（严格外生性）。这是保证 OLS 为无偏估计量的关键。

假定违背的后果

当 $E[\varepsilon_i \mid \mathbf{X}] \neq 0$ 时，通常意味着存在遗漏变量偏误、测量误差或联立性偏误（反向因果）。此时：

OLS 估计量 $\hat{\beta}$ 不再一致： $\mathrm{plim}\, \hat{\beta} \neq \beta$ 。即使样本量趋于无穷，估计值也不会收敛至真实参数。
若违背仅表现为 $E[\varepsilon_i] = c \neq 0$ （非零但恒定），在有截距项的模型中，仅截距估计产生偏误 $c$ ，斜率系数仍可保持无偏。然而这一情形在应用中较少独立出现，因为恒定的非零均值常伴随更深层的设定错误。
若零均值假设失效源于条件异方差或自相关叠加（如遗漏变量与时间趋势的交织），则 OLS 既非无偏，也非一致。

以教育回报率的明瑟方程（Mincer Equation）为例： $\log(\text{wage}_i) = \beta_0 + \beta_1 \text{educ}_i + \varepsilon_i$ 。若 $\varepsilon_i$ 中包含"天生能力"（ability），且能力与受教育年限正相关，则 $E[\varepsilon_i \mid \text{educ}_i] \neq 0$ ，OLS 将高估教育回报率 $\beta_1$ 。此即经典的能力偏误。

与截距项的关系

零均值假设与截距项的存在互为条件。在包含截距 $\beta_0$ 的回归中，若 $E[\varepsilon_i] = \mu \neq 0$ ，可定义 $\varepsilon_i^* = \varepsilon_i - \mu$ 和 $\beta_0^* = \beta_0 + \mu$ ，则新误差 $\varepsilon_i^*$ 满足零均值。因此，在不含截距的回归（如某些金融中的因子模型或强制过原点的回归）中，零均值假设必须被严肃对待——失去了截距项的"吸收"功能，任何非零均值的误差都将直接污染所有系数估计。

这也揭示了零均值假设的深层含义：它本质上要求研究者已将所有系统性影响因素正确地纳入了 $\mathbf{X}\beta$ 部分，误差项仅包含纯粹随机的"白噪声"。若回归模型不含截距，研究者便承担了额外的举证责任——须论证误差的真实均值为零。

检验方法

针对零均值假设的直接检验空间有限，因为误差项 $\varepsilon_i$ 本身不可观测。实践中，研究者通过对残差 $e_i = Y_i - \hat{Y}_i$ 的分析进行间接判断：

残差均值检验：计算 $\bar{e} = \frac{1}{n}\sum_{i=1}^n e_i$ 。在包含截距的模型中，OLS 的正规方程保证了 $\sum_{i=1}^n e_i = 0$ ，因此样本残差均值必然为零。这意味着该检验对条件零均值的违背不敏感。
残差图：绘制 $e_i$ 对 $\hat{Y}_i$ 或各解释变量的散点图。若出现系统性模式（如 U 型或趋势），则暗示 $E[\varepsilon_i \mid X] = 0$ 不成立。
Ramsey RESET 检验：在原模型中加入 $\hat{Y}^2, \hat{Y}^3$ 等高阶预测项，通过 F 检验判断其联合显著性。显著结果提示函数形式设定错误或遗漏变量，间接表明条件均值假设存疑。
Hausman 检验：比较 OLS 与工具变量 (IV)估计的差异。若两者系统性地不同，则 OLS 的条件均值假设可能不成立。

与其他经典假定的关系

零均值假设并非孤立存在，而是与 CLRM 的其他假定交织成网。它与外生性假定本质上同源： $E[\varepsilon \mid \mathbf{X}] = 0$ 既是零均值条件的加强版，也是高斯-马尔可夫定理中 OLS 最优性的前提。若零均值成立但存在异方差性或自相关，OLS 仍是无偏的，但不再有效。若零均值本身被违背，即使方差结构完美，OLS 的一阶性质（无偏性和一致性）也一并坍塌。

在时间序列分析中，零均值假设与平稳性假设紧密关联。ARMA 模型通常假定白噪声序列 $\{\varepsilon_t\}$ 满足 $E[\varepsilon_t] = 0$ 。若该条件不满足，单位根检验和协整分析的分布理论均需重新推导。在面板数据模型中，固定效应的引入正是为了吸收个体特定的、非零的时不变误差成分，从而拯救条件零均值假设的可行范围。在微观计量应用中，随机实验和自然实验的识别策略——如双重差分法 (DiD)和断点回归设计 (RDD)——其核心论述均依赖于在特定条件下使得 $E[\varepsilon \mid \text{treatment}] = 0$ 这一"可忽略性"条件近似成立。

总之，零均值假设虽然形式上简单，却是回归分析从描述性统计走向因果推断的分水岭。理解其确切含义、可能违背的机制以及诊断工具，是每一位实证研究者必备的基础素养。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。