ARTICLE

零均值假设

零均值假设 (Zero Mean Assumption) 零均值假设是经典线性回归模型(Classical Linear Regression Model, CLRM)的核心假定之一,要求误差项(或称扰动项、残差的理论对应物)的期望值为零。具体表述为:对于所有观测 i,有 E[ _i] = 0;在更严格的外生性条件下,进一步要求条件期望为零,即 E[ _i

浏览 0 更新 2025-10-26

零均值假设 (Zero Mean Assumption)

零均值假设经典线性回归模型(Classical Linear Regression Model, CLRM)的核心假定之一,要求误差项(或称扰动项、残差的理论对应物)的期望值为零。具体表述为:对于所有观测 ii,有 E[εi]=0E[\varepsilon_i] = 0;在更严格的外生性条件下,进一步要求条件期望为零,即 E[εiX]=0E[\varepsilon_i \mid \mathbf{X}] = 0,其中 X\mathbf{X} 为所有解释变量的观测矩阵。该假定保证了最小二乘估计 (OLS)的无偏性和一致性,是回归分析中推断有效性的基石。

假定的确切含义

考虑总体回归模型:

Yi=β0+β1X1i++βkXki+εi,i=1,,nY_i = \beta_0 + \beta_1 X_{1i} + \cdots + \beta_k X_{ki} + \varepsilon_i, \quad i = 1, \ldots, n

零均值假设 E[εi]=0E[\varepsilon_i] = 0 意味着,在重复抽样中,不可观测因素对 YiY_i 的影响平均而言为零——不存在系统性的正向或负向偏离。若该假定成立,回归线 E[YiXi]=β0+β1X1i++βkXkiE[Y_i \mid \mathbf{X}_i] = \beta_0 + \beta_1 X_{1i} + \cdots + \beta_k X_{ki} 恰好穿过 YY 关于 X\mathbf{X}条件期望

无条件形式 E[εi]=0E[\varepsilon_i] = 0 是较弱的版本。在包含截距项 β0\beta_0 的模型中,该条件总可通过将 εi\varepsilon_i 中恒定的非零均值吸收进入截距而机械地得到满足。因此,真正的约束力量来自条件零均值假设 E[εiX]=0E[\varepsilon_i \mid \mathbf{X}] = 0,它意味着误差项与所有解释变量都不相关(严格外生性)。这是保证 OLS 为无偏估计量的关键。

假定违背的后果

E[εiX]0E[\varepsilon_i \mid \mathbf{X}] \neq 0 时,通常意味着存在遗漏变量偏误测量误差联立性偏误(反向因果)。此时:

  • OLS 估计量 β^\hat{\beta} 不再一致:plimβ^β\mathrm{plim}\, \hat{\beta} \neq \beta。即使样本量趋于无穷,估计值也不会收敛至真实参数。
  • 若违背仅表现为 E[εi]=c0E[\varepsilon_i] = c \neq 0(非零但恒定),在有截距项的模型中,仅截距估计产生偏误 cc,斜率系数仍可保持无偏。然而这一情形在应用中较少独立出现,因为恒定的非零均值常伴随更深层的设定错误。
  • 若零均值假设失效源于条件异方差或自相关叠加(如遗漏变量时间趋势的交织),则 OLS 既非无偏,也非一致。

以教育回报率的明瑟方程(Mincer Equation)为例:log(wagei)=β0+β1educi+εi\log(\text{wage}_i) = \beta_0 + \beta_1 \text{educ}_i + \varepsilon_i。若 εi\varepsilon_i 中包含"天生能力"(ability),且能力与受教育年限正相关,则 E[εieduci]0E[\varepsilon_i \mid \text{educ}_i] \neq 0,OLS 将高估教育回报率 β1\beta_1。此即经典的能力偏误

与截距项的关系

零均值假设与截距项的存在互为条件。在包含截距 β0\beta_0 的回归中,若 E[εi]=μ0E[\varepsilon_i] = \mu \neq 0,可定义 εi=εiμ\varepsilon_i^* = \varepsilon_i - \muβ0=β0+μ\beta_0^* = \beta_0 + \mu,则新误差 εi\varepsilon_i^* 满足零均值。因此,在不含截距的回归(如某些金融中的因子模型或强制过原点的回归)中,零均值假设必须被严肃对待——失去了截距项的"吸收"功能,任何非零均值的误差都将直接污染所有系数估计。

这也揭示了零均值假设的深层含义:它本质上要求研究者已将所有系统性影响因素正确地纳入了 Xβ\mathbf{X}\beta 部分,误差项仅包含纯粹随机的"白噪声"。若回归模型不含截距,研究者便承担了额外的举证责任——须论证误差的真实均值为零。

检验方法

针对零均值假设的直接检验空间有限,因为误差项 εi\varepsilon_i 本身不可观测。实践中,研究者通过对残差 ei=YiY^ie_i = Y_i - \hat{Y}_i 的分析进行间接判断:

  • 残差均值检验:计算 eˉ=1ni=1nei\bar{e} = \frac{1}{n}\sum_{i=1}^n e_i。在包含截距的模型中,OLS 的正规方程保证了 i=1nei=0\sum_{i=1}^n e_i = 0,因此样本残差均值必然为零。这意味着该检验对条件零均值的违背不敏感。
  • 残差图:绘制 eie_iY^i\hat{Y}_i 或各解释变量的散点图。若出现系统性模式(如 U 型或趋势),则暗示 E[εiX]=0E[\varepsilon_i \mid X] = 0 不成立。
  • Ramsey RESET 检验:在原模型中加入 Y^2,Y^3\hat{Y}^2, \hat{Y}^3 等高阶预测项,通过 F 检验判断其联合显著性。显著结果提示函数形式设定错误或遗漏变量,间接表明条件均值假设存疑。
  • Hausman 检验:比较 OLS 与工具变量 (IV)估计的差异。若两者系统性地不同,则 OLS 的条件均值假设可能不成立。

与其他经典假定的关系

零均值假设并非孤立存在,而是与 CLRM 的其他假定交织成网。它与外生性假定本质上同源:E[εX]=0E[\varepsilon \mid \mathbf{X}] = 0 既是零均值条件的加强版,也是高斯-马尔可夫定理中 OLS 最优性的前提。若零均值成立但存在异方差性自相关,OLS 仍是无偏的,但不再有效。若零均值本身被违背,即使方差结构完美,OLS 的一阶性质(无偏性和一致性)也一并坍塌。

在时间序列分析中,零均值假设与平稳性假设紧密关联。ARMA 模型通常假定白噪声序列 {εt}\{\varepsilon_t\} 满足 E[εt]=0E[\varepsilon_t] = 0。若该条件不满足,单位根检验协整分析的分布理论均需重新推导。在面板数据模型中,固定效应的引入正是为了吸收个体特定的、非零的时不变误差成分,从而拯救条件零均值假设的可行范围。在微观计量应用中,随机实验自然实验的识别策略——如双重差分法 (DiD)断点回归设计 (RDD)——其核心论述均依赖于在特定条件下使得 E[εtreatment]=0E[\varepsilon \mid \text{treatment}] = 0 这一"可忽略性"条件近似成立。

总之,零均值假设虽然形式上简单,却是回归分析从描述性统计走向因果推断的分水岭。理解其确切含义、可能违背的机制以及诊断工具,是每一位实证研究者必备的基础素养。