ARTICLE

误差方差

误差方差 (Error Variance) 误差方差（Error Variance）是计量经济学与统计学中最基础且最重要的参数之一，通常记为 ^2。在经典线性回归模型 y_i = x_i' + _i 中，误差方差定义为误差项 _i 的方差 Var( _i) = ^2。它衡量了因变量中无法被解释变量所解释的随机变异程度，直接决定了回归系数估计量的精确度与所有统

浏览 0 更新 2025-10-26

误差方差 (Error Variance)

误差方差（Error Variance）是计量经济学与统计学中最基础且最重要的参数之一，通常记为 $\sigma^2$ 。在经典线性回归模型 $y_i = \mathbf{x}_i'\boldsymbol{\beta} + \varepsilon_i$ 中，误差方差定义为误差项 $\varepsilon_i$ 的方差 $\operatorname{Var}(\varepsilon_i) = \sigma^2$ 。它衡量了因变量中无法被解释变量所解释的随机变异程度，直接决定了回归系数估计量的精确度与所有统计推断的可信度。

定义与数学表达

在标准的高斯-马尔可夫设定下，误差项满足严格外生性 $\mathbb{E}[\varepsilon_i \mid \mathbf{X}] = 0$ 与同方差性（homoskedasticity） $\operatorname{Var}(\varepsilon_i \mid \mathbf{X}) = \sigma^2$ 对所有 $i$ 成立，且不同观测的误差项不相关： $\operatorname{Cov}(\varepsilon_i, \varepsilon_j \mid \mathbf{X}) = 0$ 对 $i \neq j$ 。

误差方差 $\sigma^2$ 是条件方差的核心参数。若以向量形式表达， $\boldsymbol{\varepsilon}$ 的方差-协方差矩阵为 $\operatorname{Var}(\boldsymbol{\varepsilon} \mid \mathbf{X}) = \sigma^2 \mathbf{I}_n$ ，其中 $\mathbf{I}_n$ 为 $n \times n$ 单位矩阵。这一对角结构意味着每个观测具有相同的随机扰动幅度，且扰动之间彼此独立。当这一假设被违背时，出现异方差性（heteroskedasticity），即 $\operatorname{Var}(\varepsilon_i) = \sigma_i^2$ ，方差因观测而异。

估计方法

误差方差是未知总体参数，需要从样本数据估计。最常用的估计量为基于普通最小二乘法（OLS）残差 $\hat{\varepsilon}_i = y_i - \mathbf{x}_i'\hat{\boldsymbol{\beta}}$ 的均方误差（Mean Squared Error, MSE）：

\hat{\sigma}^2 = \frac{1}{n - k} \sum_{i=1}^n \hat{\varepsilon}_i^2 = \frac{\hat{\boldsymbol{\varepsilon}}'\hat{\boldsymbol{\varepsilon}}}{n - k}

其中 $k$ 为回归参数个数（含截距项），自由度调整 $n - k$ 保证了估计量的无偏性： $\mathbb{E}[\hat{\sigma}^2 \mid \mathbf{X}] = \sigma^2$ 。若使用 $n$ 而非 $n - k$ 作为分母，所得极大似然估计量将有偏但渐近一致。无偏性要求 $\hat{\sigma}^2$ 必须进行自由度校正——每估计一个 $\beta$ 参数就消耗一个自由度。

在正态性假设 $\varepsilon_i \mid \mathbf{X} \sim \mathcal{N}(0, \sigma^2)$ 下，OLS 估计量达到 Cramér-Rao 下界，且 $(n - k)\hat{\sigma}^2 / \sigma^2 \sim \chi^2_{n - k}$ ，这一分布性质是 t 检验与 F 检验的构造基础。直观而言，误差方差越小意味着回归平面与数据点贴合越紧，斜率估计量波动越小，统计推断越精确。若将模型比作信号传输系统，误差方差即为背景噪声的功率——噪声越大，信号越难被可靠检测。这正是高斯-马尔可夫定理的核心洞见：同方差无自相关的 OLS 不仅是所有线性无偏估计量中方差最小的（BLUE），而且该最小方差的大小恰由 $\sigma^2$ 与设计矩阵 $(\mathbf{X}'\mathbf{X})^{-1}$ 共同决定。

在统计推断中的核心作用

误差方差的估计值直接进入回归系数的标准误：

\operatorname{SE}(\hat{\beta}_j) = \sqrt{\hat{\sigma}^2 [(\mathbf{X}'\mathbf{X})^{-1}]_{jj}}

标准误反过来决定了 t 统计量 $t = \hat{\beta}_j / \operatorname{SE}(\hat{\beta}_j)$ 与置信区间。若 $\hat{\sigma}^2$ 被低估，标准误将偏小，t 统计量被虚假放大，导致过高的显著性声明——这是实证研究中 p-hacking 的常见技术通道。若 $\hat{\sigma}^2$ 被高估，检验功效下降，可能遗漏真实效应。

误差方差同时也影响模型拟合优度的度量。决定系数 $R^2$ 可表达为：

R^2 = 1 - \frac{\sum \hat{\varepsilon}_i^2}{\sum (y_i - \bar{y})^2} = 1 - \frac{(n - k)\hat{\sigma}^2}{\text{TSS}}

给定总平方和 TSS， $\hat{\sigma}^2$ 越小则 $R^2$ 越高，模型解释力越强。然而，机械追求低 $\hat{\sigma}^2$ 可能导致过度拟合与样本外预测能力恶化——这是偏差-方差权衡在回归诊断中的体现。

异方差性：成因、后果与诊断

同方差假设在实践中经常被违背，尤其在截面数据分析中。异方差性（heteroskedasticity）指 $\operatorname{Var}(\varepsilon_i) = \sigma_i^2$ 随 $i$ 变化，常见于以下情形：收入或支出等正偏态变量作为因变量时，方差常随均值增大而增大（规模效应）；分组数据中各组的观测数差异悬殊；模型遗漏了重要的非线性项或交互项，导致残差呈现系统性模态。

异方差下 OLS 仍保持无偏性与一致性，但 $\hat{\sigma}^2$ 的标准公式不再有效——传统标准误与检验统计量均不一致，显著性声明将产生误导。诊断异方差性的标准工具包括：Breusch-Pagan 检验，将残差平方对解释变量回归，检验其联合显著性；White 检验，在辅助回归中引入解释变量的平方项与交叉项，对更一般的方差结构保持检验功效；以及残差图——以拟合值或某一解释变量为横轴绘制残差散点图，观察是否存在喇叭形或漏斗形的发散模态。

稳健推断与广义处理

应对异方差性有两类策略。第一类是事后校正，保留 OLS 系数估计但修正标准误，核心工具为White稳健标准误（Huber-White sandwich estimator）：

\operatorname{Var}(\hat{\boldsymbol{\beta}})_{\text{robust}} = (\mathbf{X}'\mathbf{X})^{-1} \left[ \sum_{i=1}^n \hat{\varepsilon}_i^2 \mathbf{x}_i \mathbf{x}_i' \right] (\mathbf{X}'\mathbf{X})^{-1}

这一估计量不依赖于同方差假设，直接利用残差对每个观测的方差独立估计，保证推断在校正异方差后仍有效。更广义的情况还包括聚类标准误（clustered standard errors），在面板数据或组内相关的场景中对方差结构分层估计。

第二类策略是事前建模，直接对异方差结构参数化。加权最小二乘法（WLS）与可行广义最小二乘法（FGLS）假设 $\operatorname{Var}(\varepsilon_i) = \sigma^2 / w_i$ 或更一般的 $\operatorname{Var}(\boldsymbol{\varepsilon}) = \sigma^2 \boldsymbol{\Omega}$ ，通过对异方差性建模获得更有效的估计量。FGLS 是渐近更优的方法，但需确保方差模型的正确设定——若方差函数指定错误，FGLS 可能反而不如稳健标准误下的 OLS 可靠。实践中，两类策略常互补使用：以 FGLS 追求效率，同时以稳健标准误作为推断的安全网。