ARTICLE

误差方差

误差方差 (Error Variance) 误差方差(Error Variance)是计量经济学与统计学中最基础且最重要的参数之一,通常记为 ^2。在经典线性回归模型 y_i = x_i' + _i 中,误差方差定义为误差项 _i 的方差 Var( _i) = ^2。它衡量了因变量中无法被解释变量所解释的随机变异程度,直接决定了回归系数估计量的精确度与所有统

浏览 0 更新 2025-10-26

误差方差 (Error Variance)

误差方差(Error Variance)是计量经济学统计学中最基础且最重要的参数之一,通常记为 σ2\sigma^2。在经典线性回归模型 yi=xiβ+εiy_i = \mathbf{x}_i'\boldsymbol{\beta} + \varepsilon_i 中,误差方差定义为误差项 εi\varepsilon_i 的方差 Var(εi)=σ2\operatorname{Var}(\varepsilon_i) = \sigma^2。它衡量了因变量中无法被解释变量所解释的随机变异程度,直接决定了回归系数估计量的精确度与所有统计推断的可信度。

定义与数学表达

在标准的高斯-马尔可夫设定下,误差项满足严格外生性 E[εiX]=0\mathbb{E}[\varepsilon_i \mid \mathbf{X}] = 0同方差性(homoskedasticity)Var(εiX)=σ2\operatorname{Var}(\varepsilon_i \mid \mathbf{X}) = \sigma^2 对所有 ii 成立,且不同观测的误差项不相关:Cov(εi,εjX)=0\operatorname{Cov}(\varepsilon_i, \varepsilon_j \mid \mathbf{X}) = 0iji \neq j

误差方差 σ2\sigma^2 是条件方差的核心参数。若以向量形式表达,ε\boldsymbol{\varepsilon} 的方差-协方差矩阵为 Var(εX)=σ2In\operatorname{Var}(\boldsymbol{\varepsilon} \mid \mathbf{X}) = \sigma^2 \mathbf{I}_n,其中 In\mathbf{I}_nn×nn \times n 单位矩阵。这一对角结构意味着每个观测具有相同的随机扰动幅度,且扰动之间彼此独立。当这一假设被违背时,出现异方差性(heteroskedasticity),即 Var(εi)=σi2\operatorname{Var}(\varepsilon_i) = \sigma_i^2,方差因观测而异。

估计方法

误差方差是未知总体参数,需要从样本数据估计。最常用的估计量为基于普通最小二乘法(OLS)残差 ε^i=yixiβ^\hat{\varepsilon}_i = y_i - \mathbf{x}_i'\hat{\boldsymbol{\beta}}均方误差(Mean Squared Error, MSE):

σ^2=1nki=1nε^i2=ε^ε^nk\hat{\sigma}^2 = \frac{1}{n - k} \sum_{i=1}^n \hat{\varepsilon}_i^2 = \frac{\hat{\boldsymbol{\varepsilon}}'\hat{\boldsymbol{\varepsilon}}}{n - k}

其中 kk 为回归参数个数(含截距项),自由度调整 nkn - k 保证了估计量的无偏性:E[σ^2X]=σ2\mathbb{E}[\hat{\sigma}^2 \mid \mathbf{X}] = \sigma^2。若使用 nn 而非 nkn - k 作为分母,所得极大似然估计量将有偏但渐近一致。无偏性要求 σ^2\hat{\sigma}^2 必须进行自由度校正——每估计一个 β\beta 参数就消耗一个自由度。

在正态性假设 εiXN(0,σ2)\varepsilon_i \mid \mathbf{X} \sim \mathcal{N}(0, \sigma^2) 下,OLS 估计量达到 Cramér-Rao 下界,且 (nk)σ^2/σ2χnk2(n - k)\hat{\sigma}^2 / \sigma^2 \sim \chi^2_{n - k},这一分布性质是 t 检验与 F 检验的构造基础。直观而言,误差方差越小意味着回归平面与数据点贴合越紧,斜率估计量波动越小,统计推断越精确。若将模型比作信号传输系统,误差方差即为背景噪声的功率——噪声越大,信号越难被可靠检测。这正是高斯-马尔可夫定理的核心洞见:同方差无自相关的 OLS 不仅是所有线性无偏估计量中方差最小的(BLUE),而且该最小方差的大小恰由 σ2\sigma^2 与设计矩阵 (XX)1(\mathbf{X}'\mathbf{X})^{-1} 共同决定。

在统计推断中的核心作用

误差方差的估计值直接进入回归系数的标准误

SE(β^j)=σ^2[(XX)1]jj\operatorname{SE}(\hat{\beta}_j) = \sqrt{\hat{\sigma}^2 [(\mathbf{X}'\mathbf{X})^{-1}]_{jj}}

标准误反过来决定了 t 统计量 t=β^j/SE(β^j)t = \hat{\beta}_j / \operatorname{SE}(\hat{\beta}_j) 与置信区间。若 σ^2\hat{\sigma}^2 被低估,标准误将偏小,t 统计量被虚假放大,导致过高的显著性声明——这是实证研究中 p-hacking 的常见技术通道。若 σ^2\hat{\sigma}^2 被高估,检验功效下降,可能遗漏真实效应。

误差方差同时也影响模型拟合优度的度量。决定系数 R2R^2 可表达为:

R2=1ε^i2(yiyˉ)2=1(nk)σ^2TSSR^2 = 1 - \frac{\sum \hat{\varepsilon}_i^2}{\sum (y_i - \bar{y})^2} = 1 - \frac{(n - k)\hat{\sigma}^2}{\text{TSS}}

给定总平方和 TSS,σ^2\hat{\sigma}^2 越小则 R2R^2 越高,模型解释力越强。然而,机械追求低 σ^2\hat{\sigma}^2 可能导致过度拟合与样本外预测能力恶化——这是偏差-方差权衡在回归诊断中的体现。

异方差性:成因、后果与诊断

同方差假设在实践中经常被违背,尤其在截面数据分析中。异方差性(heteroskedasticity)指 Var(εi)=σi2\operatorname{Var}(\varepsilon_i) = \sigma_i^2ii 变化,常见于以下情形:收入或支出等正偏态变量作为因变量时,方差常随均值增大而增大(规模效应);分组数据中各组的观测数差异悬殊;模型遗漏了重要的非线性项或交互项,导致残差呈现系统性模态。

异方差下 OLS 仍保持无偏性与一致性,但 σ^2\hat{\sigma}^2 的标准公式不再有效——传统标准误与检验统计量均不一致,显著性声明将产生误导。诊断异方差性的标准工具包括:Breusch-Pagan 检验,将残差平方对解释变量回归,检验其联合显著性;White 检验,在辅助回归中引入解释变量的平方项与交叉项,对更一般的方差结构保持检验功效;以及残差图——以拟合值或某一解释变量为横轴绘制残差散点图,观察是否存在喇叭形或漏斗形的发散模态。

稳健推断与广义处理

应对异方差性有两类策略。第一类是事后校正,保留 OLS 系数估计但修正标准误,核心工具为White稳健标准误(Huber-White sandwich estimator):

Var(β^)robust=(XX)1[i=1nε^i2xixi](XX)1\operatorname{Var}(\hat{\boldsymbol{\beta}})_{\text{robust}} = (\mathbf{X}'\mathbf{X})^{-1} \left[ \sum_{i=1}^n \hat{\varepsilon}_i^2 \mathbf{x}_i \mathbf{x}_i' \right] (\mathbf{X}'\mathbf{X})^{-1}

这一估计量不依赖于同方差假设,直接利用残差对每个观测的方差独立估计,保证推断在校正异方差后仍有效。更广义的情况还包括聚类标准误(clustered standard errors),在面板数据或组内相关的场景中对方差结构分层估计。

第二类策略是事前建模,直接对异方差结构参数化。加权最小二乘法(WLS)与可行广义最小二乘法(FGLS)假设 Var(εi)=σ2/wi\operatorname{Var}(\varepsilon_i) = \sigma^2 / w_i 或更一般的 Var(ε)=σ2Ω\operatorname{Var}(\boldsymbol{\varepsilon}) = \sigma^2 \boldsymbol{\Omega},通过对异方差性建模获得更有效的估计量。FGLS 是渐近更优的方法,但需确保方差模型的正确设定——若方差函数指定错误,FGLS 可能反而不如稳健标准误下的 OLS 可靠。实践中,两类策略常互补使用:以 FGLS 追求效率,同时以稳健标准误作为推断的安全网。

相关概念与应用

误差方差与极大似然估计(MLE)存在深层联系。在正态线性模型下,对数似然函数中 σ2\sigma^2n2lnσ212σ2εi2-\frac{n}{2} \ln \sigma^2 - \frac{1}{2\sigma^2} \sum \varepsilon_i^2 的形式出现,MLE 为 σ~2=ε^i2/n\tilde{\sigma}^2 = \sum \hat{\varepsilon}_i^2 / n,与无偏估计量相差因子 (nk)/n(n-k)/n。这一差异在小样本中不可忽略,但在大样本下渐近等价。误差方差同时也是信息矩阵的关键分量:σ2\sigma^2 的 Fisher 信息量为 n/(2σ4)n / (2\sigma^4),方差参数估计精度随样本量线性增长。

误差方差与多个核心概念紧密关联。度量误差(测量误差)在被解释变量中表现为误差方差膨胀,使估计精度下降但不致偏;在解释变量中则引发衰减偏误,是内生性的重要成因。模型设定误差——遗漏相关变量或纳入无关变量——分别导致误差方差的有偏估计与效率损失。预测区间的宽度也与误差方差同向变化:σ^2\hat{\sigma}^2 越大,个体预测的不确定性越高,置信带越宽。此外,在贝叶斯统计框架下,误差方差被赋予先验分布——常见的共轭先验为逆伽马分布 σ2Inv-Gamma(a0,b0)\sigma^2 \sim \text{Inv-Gamma}(a_0, b_0),使得后验仍保持逆伽马形式,便于 Gibbs 抽样。误差方差虽仅是一个标量参数,却是联结模型拟合质量、参数推断可靠性与预测精度的关键枢纽,是实证研究者必须深刻理解的核心概念。