ARTICLE
零均值假设
零均值假设 (Zero Mean Assumption) 零均值假设是经典线性回归模型(Classical Linear Regression Model, CLRM)的核心假定之一,要求误差项(或称扰动项、残差的理论对应物)的期望值为零。具体表述为:对于所有观测 i,有 E[ _i] = 0;在更严格的外生性条件下,进一步要求条件期望为零,即 E[ _i
零均值假设 (Zero Mean Assumption)
零均值假设是经典线性回归模型(Classical Linear Regression Model, CLRM)的核心假定之一,要求误差项(或称扰动项、残差的理论对应物)的期望值为零。具体表述为:对于所有观测 ,有 ;在更严格的外生性条件下,进一步要求条件期望为零,即 ,其中 为所有解释变量的观测矩阵。该假定保证了最小二乘估计 (OLS)的无偏性和一致性,是回归分析中推断有效性的基石。
假定的确切含义
考虑总体回归模型:
零均值假设 意味着,在重复抽样中,不可观测因素对 的影响平均而言为零——不存在系统性的正向或负向偏离。若该假定成立,回归线 恰好穿过 关于 的条件期望。
无条件形式 是较弱的版本。在包含截距项 的模型中,该条件总可通过将 中恒定的非零均值吸收进入截距而机械地得到满足。因此,真正的约束力量来自条件零均值假设 ,它意味着误差项与所有解释变量都不相关(严格外生性)。这是保证 OLS 为无偏估计量的关键。
假定违背的后果
当 时,通常意味着存在遗漏变量偏误、测量误差或联立性偏误(反向因果)。此时:
- OLS 估计量 不再一致:。即使样本量趋于无穷,估计值也不会收敛至真实参数。
- 若违背仅表现为 (非零但恒定),在有截距项的模型中,仅截距估计产生偏误 ,斜率系数仍可保持无偏。然而这一情形在应用中较少独立出现,因为恒定的非零均值常伴随更深层的设定错误。
- 若零均值假设失效源于条件异方差或自相关叠加(如遗漏变量与时间趋势的交织),则 OLS 既非无偏,也非一致。
以教育回报率的明瑟方程(Mincer Equation)为例:。若 中包含"天生能力"(ability),且能力与受教育年限正相关,则 ,OLS 将高估教育回报率 。此即经典的能力偏误。
与截距项的关系
零均值假设与截距项的存在互为条件。在包含截距 的回归中,若 ,可定义 和 ,则新误差 满足零均值。因此,在不含截距的回归(如某些金融中的因子模型或强制过原点的回归)中,零均值假设必须被严肃对待——失去了截距项的"吸收"功能,任何非零均值的误差都将直接污染所有系数估计。
这也揭示了零均值假设的深层含义:它本质上要求研究者已将所有系统性影响因素正确地纳入了 部分,误差项仅包含纯粹随机的"白噪声"。若回归模型不含截距,研究者便承担了额外的举证责任——须论证误差的真实均值为零。
检验方法
针对零均值假设的直接检验空间有限,因为误差项 本身不可观测。实践中,研究者通过对残差 的分析进行间接判断:
- 残差均值检验:计算 。在包含截距的模型中,OLS 的正规方程保证了 ,因此样本残差均值必然为零。这意味着该检验对条件零均值的违背不敏感。
- 残差图:绘制 对 或各解释变量的散点图。若出现系统性模式(如 U 型或趋势),则暗示 不成立。
- Ramsey RESET 检验:在原模型中加入 等高阶预测项,通过 F 检验判断其联合显著性。显著结果提示函数形式设定错误或遗漏变量,间接表明条件均值假设存疑。
- Hausman 检验:比较 OLS 与工具变量 (IV)估计的差异。若两者系统性地不同,则 OLS 的条件均值假设可能不成立。
与其他经典假定的关系
零均值假设并非孤立存在,而是与 CLRM 的其他假定交织成网。它与外生性假定本质上同源: 既是零均值条件的加强版,也是高斯-马尔可夫定理中 OLS 最优性的前提。若零均值成立但存在异方差性或自相关,OLS 仍是无偏的,但不再有效。若零均值本身被违背,即使方差结构完美,OLS 的一阶性质(无偏性和一致性)也一并坍塌。
在时间序列分析中,零均值假设与平稳性假设紧密关联。ARMA 模型通常假定白噪声序列 满足 。若该条件不满足,单位根检验和协整分析的分布理论均需重新推导。在面板数据模型中,固定效应的引入正是为了吸收个体特定的、非零的时不变误差成分,从而拯救条件零均值假设的可行范围。在微观计量应用中,随机实验和自然实验的识别策略——如双重差分法 (DiD)和断点回归设计 (RDD)——其核心论述均依赖于在特定条件下使得 这一"可忽略性"条件近似成立。
总之,零均值假设虽然形式上简单,却是回归分析从描述性统计走向因果推断的分水岭。理解其确切含义、可能违背的机制以及诊断工具,是每一位实证研究者必备的基础素养。