变量误差模型 (Errors-in-Variables Model)
变量误差模型(Errors-in-Variables, EIV)是计量经济学中处理自变量存在测量误差的一类模型。与经典线性回归模型假设解释变量可精确观测不同,EIV 模型承认许多经济变量——如永久收入、预期通胀率、真实教育回报——本质上不可直接观测,只能以含噪声的代理变量替代。忽略测量误差将导致OLS估计量不一致,产生系统性偏差。
经典测量误差模型
模型设定
经典测量误差假设可表述如下。设真实模型为:
yi=β0+β1xi∗+ui,E[ui∣xi∗]=0
其中 xi∗ 为不可观测的真实解释变量。研究者观测到的是含误差的代理变量:
xi=xi∗+εi
经典假设要求测量误差 εi 满足:E[εi]=0,Cov(xi∗,εi)=0,Cov(ui,εi)=0。即测量误差与真实值及回归误差均不相关——误差是"纯噪声"。
衰减偏差 (Attenuation Bias)
在上述设定下,以 xi 替代 xi∗ 进行 OLS 回归,斜率估计量不再一致。其概率极限为:
plimβ^1=β1⋅σx∗2+σε2σx∗2
其中 σx∗2=Var(xi∗),σε2=Var(εi)。由于 σx∗2+σε2σx∗2∈(0,1),β^1 的绝对值向零收缩——称为向零衰减。测量误差越大(σε2 越大),偏差越严重;信噪比 λ=σε2σx∗2 趋近零时,β^1 也趋近零。
直观理解:噪声 εi 稀释了 xi∗ 的变异,使其与 yi 的协方差被压低,而 xi 自身的方差被抬高,二者综合导致斜率向零压缩。这就是为什么许多实证研究中估计的教育回报率可能低于真实回报率——教育年限的测量误差导致衰减偏差。
多元回归中的情形
当存在多个解释变量且仅部分变量有测量误差时,偏差方向不再确定。无关变量的系数估计量也可能不一致,因为测量误差通过变量间的相关性"污染"了整个系数向量。这是计量经济学教科书中"一个变量有测量误差足以使所有 OLS 估计量不一致"的经典结论。
识别策略与补救方法
工具变量法
当可以找到与 xi∗ 相关、但与测量误差 εi 及方程误差 ui 均不相关的工具变量 zi 时,两阶段最小二乘法(2SLS) 可一致估计 β1。工具变量需满足:
Cov(zi,xi∗)=0,Cov(zi,εi)=0,Cov(zi,ui)=0
常见的工具变量包括:同一变量的替代测量(如用另一数据来源的同口径指标)、双胞胎研究中同胞的教育水平、或利用制度特征构造的自然实验变量。
重复测量
若同一 xi∗ 存在两个独立测量:
xi1=xi∗+εi1,xi2=xi∗+εi2
且 εi1 与 εi2 独立,则可使用 xi2 作为 xi1 的工具变量,或反之。该方法在劳动经济学的收入动态面板研究 (PSID) 中广泛应用:利用雇主的工资报告作为员工自报收入的工具变量来修正测量误差。
矩方法与边界分析
在缺乏工具变量或重复测量时,可利用测量误差的方差信息进行矫正。若通过外部验证研究已知信噪比 λ 的估计值,则可对衰减偏差进行逆向调整:
β~1=β^1⋅σx2−σε2σx2
另有一类边界分析思路:假设测量误差方差有上界,则可推导真实参数的一致区间,而非点估计。这种部分识别策略在微观计量实证中日益常见。
非经典测量误差
经典假设 Cov(xi∗,εi)=0 在许多场景中不成立。例如,受访者可能系统性地低报或高报收入(均值不为零),或误差与真实值相关(如高收入者低报幅度更大)。此类非经典测量误差需更复杂的识别策略,如利用非线性、分布假设或面板数据的差分结构。
面板数据中常用的策略是差分GMM与系统GMM:通过对水平方程和差分方程施加不同的矩条件,利用滞后项作为当期变量的工具变量。这在动态面板模型中尤为关键,因为滞后因变量的测量误差不仅影响当期系数估计,还会通过动态结构传播至所有后续时期。
应用与经济含义
变量误差模型对实证经济学的警示意义深远:只要解释变量存在测量误差(这在调查数据中几乎不可避免),OLS 估计量就是不一致的,且通常低估真实效应。这使得:
- 教育经济学中教育回报率的估计可能需要工具变量(如义务教育法改革导致的受教育年限变化)来修正测量误差。
- 消费理论中永久收入假说的检验面临永久收入的不可观测性问题——当前收入只是永久收入的含误差代理。
- 增长回归中制度质量、人力资本等核心变量通常由含噪声的跨国指标度量,跨国比较的结论需谨慎解读。
变量误差模型提醒实证研究者:显著性不等于可靠性。当核心解释变量存在测量误差时,即使统计上显著,系数估计也可能严重低估真实的经济效应。好的实证设计不仅要追求因果识别,还应认真对待测量问题——这是计量经济学从"关联"走向"因果"、再从"因果"走向"数量"的必经之路。