知经 KNOWECON · 卓越的经济金融统计数学学习平台

误差项方差的无偏估计

# 误差项方差的无偏估计 (Unbiased Estimator of the Error Variance)

在{{{统计学}}}和{{{计量经济学}}}中,误差项方差的无偏估计是指在{{{线性回归模型}}}的框架下,对不可观测的{{{误差项}}}(或扰动项)的{{{方差}}} $\sigma^2$ 进行估计的一种方法。这个估计量通常记为 $\hat{\sigma}^2$ 或 $s^2$,其构造方式保证了它的{{{期望值}}}恰好等于真实的误差方差 $\sigma^2$。它是进行{{{假设检验}}}、构建{{{置信区间}}}以及评估模型拟合优度的关键组成部分。

标准的多重线性回归模型可以表示为:

$$ Y_i = \beta_0 + \beta_1 X_{i1} + \beta_2 X_{i2} + \dots + \beta_k X_{ik} + u_i $$

其中: * $Y_i$ 是第 $i$ 次观测的{{{因变量}}}。 * $X_{i1}, \dots, X_{ik}$ 是第 $i$ 次观测的 $k$ 个{{{自变量}}}。 * $\beta_0, \beta_1, \dots, \beta_k$ 是模型的{{{回归系数}}},是需要估计的未知参数。 * $u_i$ 是第 $i$ 次观测的{{{误差项}}},代表了所有未被模型中的自变量解释的、$Y_i$ 的变异来源。

在{{{经典线性模型}}} (Classical Linear Model, CLM) 的假设下,我们假定误差项的方差对于所有观测都是一个常数,即{{{同方差性}}} (Homoscedasticity) 假设:

$$ \text{Var}(u_i) = \sigma^2 \quad \text{for all } i=1, \dots, n $$

由于真实的误差项 $u_i$ 是不可观测的(因为它依赖于未知的真实系数 $\beta_j$),我们无法直接计算其方差。因此,我们必须使用模型估计后得到的{{{残差}}} (residuals),即 $\hat{u}_i$,来构造 $\sigma^2$ 的一个{{{估计量}}}。残差的定义是实际观测值与模型预测值之差:

$$ \hat{u}_i = Y_i - \hat{Y}_i = Y_i - (\hat{\beta}_0 + \hat{\beta}_1 X_{i1} + \dots + \hat{\beta}_k X_{ik}) $$

其中 $\hat{\beta}_j$ 是通过{{{普通最小二乘法}}} (Ordinary Least Squares, OLS) 得到的系数估计值。

## 为什么需要进行自由度调整

一个很自然的想法是直接计算残差的样本方差来估计 $\sigma^2$,即:

$$ \tilde{\sigma}^2 = \frac{\sum_{i=1}^n \hat{u}_i^2}{n} = \frac{SSR}{n} $$

其中 $SSR = \sum_{i=1}^n \hat{u}_i^2$ 是{{{残差平方和}}} (Sum of Squared Residuals)。然而,这个估计量 $\tilde{\sigma}^2$ 是一个 有偏估计量 (Biased Estimator)。具体来说,它的期望值小于真实的 $\sigma^2$,即 $E(\tilde{\sigma}^2) < \sigma^2$。

这种向下的偏误产生的原因在于,OLS估计的定义就是选择一组系数 $\hat{\beta}_j$ 使得残差平方和 $SSR$ 最小化。这个最小化过程使得残差 $\hat{u}_i$ 在整体上比真实的误差 $u_i$ "更小",从而导致 $SSR$ 系统性地低估了真实误差的波动程度。

为了修正这种偏误,我们需要对分母进行调整。这个调整基于{{{自由度}}} (Degrees of Freedom) 的概念。在多元回归中,我们有 $n$ 个观测数据,但在估计模型参数时 "消耗" 了一部分信息。具体来说,我们估计了 $k+1$ 个参数($k$ 个斜率系数和一个截距项 $\beta_0$)。因此,用于估计误差方差的有效信息量(即自由度)是 $n - (k+1)$。

## 无偏估计量的公式

通过将残差平方和除以其自由度,我们便得到了误差项方差 $\sigma^2$ 的 无偏估计量 $\hat{\sigma}^2$:

$$ \hat{\sigma}^2 = \frac{\sum_{i=1}^n \hat{u}_i^2}{n-k-1} = \frac{SSR}{n-k-1} $$

这个公式的数学性质是 $E(\hat{\sigma}^2) = \sigma^2$,即在大量重复抽样中,这个估计量的平均值会精确地等于真实的误差方差 $\sigma^2$。

特殊情况:简单线性回归 对于只包含一个自变量的{{{简单线性回归}}}模型 $Y_i = \beta_0 + \beta_1 X_i + u_i$,我们估计了两个参数($\beta_0$ 和 $\beta_1$),因此 $k=1$。此时,误差项方差的无偏估计公式为:

$$ \hat{\sigma}^2 = \frac{\sum_{i=1}^n \hat{u}_i^2}{n-2} $$

这是许多初级统计学课程中介绍的经典形式。

## 无偏性的证明(概述)

对 $\hat{\sigma}^2$ 的无偏性进行严格证明需要运用线性代数。证明的核心思路如下: 1. 将残差向量 $\hat{u}$ 表示为真实误差向量 $u$ 的线性变换:$\hat{u} = Mu$,其中 $M = I - X(X'X)^{-1}X'$ 是一个对称幂等矩阵(也称为残差生成矩阵)。 2. 残差平方和 $SSR$ 可以写成二次型 $SSR = \hat{u}'\hat{u} = u'M'Mu = u'Mu$(因为 $M$ 是对称且幂等的)。 3. 计算 $SSR$ 的期望值:$E(SSR) = E(u'Mu)$。根据{{{二次型}}}的期望公式,可得 $E(SSR) = \text{tr}(M) \sigma^2 + E(u)' M E(u)$。 4. 在 CLM 假设下,$E(u) = 0$,因此 $E(SSR) = \text{tr}(M) \sigma^2$。 5. 矩阵 $M$ 的迹 (trace) 等于 $n - (k+1)$。这是因为 $\text{tr}(M) = \text{tr}(I) - \text{tr}(X(X'X)^{-1}X') = n - \text{tr}((X'X)^{-1}X'X) = n - \text{tr}(I_{k+1}) = n - (k+1)$。 6. 因此,我们得到 $E(SSR) = (n-k-1)\sigma^2$。 7. 最后,我们计算 $\hat{\sigma}^2$ 的期望值: $$ E(\hat{\sigma}^2) = E\left(\frac{SSR}{n-k-1}\right) = \frac{E(SSR)}{n-k-1} = \frac{(n-k-1)\sigma^2}{n-k-1} = \sigma^2 $$ 这就证明了 $\hat{\sigma}^2$ 是 $\sigma^2$ 的一个{{{无偏估计量}}}。

## 应用与重要性

1. {{{回归标准误}}} (Standard Error of the Regression, SER): $\hat{\sigma}^2$ 的正平方根,即 $\hat{\sigma}$,被称为回归标准误。 $$ \hat{\sigma} = \sqrt{\frac{SSR}{n-k-1}} $$ SER 度量了样本数据点偏离回归线的平均距离,是评估模型拟合优度的重要指标之一。它也常被称为{{{均方根误差}}} (Root Mean Squared Error, RMSE),尽管在某些软件中 RMSE 的分母可能使用 $n$ 而不是 $n-k-1$。

2. 系数估计量的方差-协方差矩阵: 在 CLM 假设下,OLS 估计量 $\hat{\beta}$ 的方差-协方差矩阵为: $$ \text{Var}(\hat{\beta}) = \sigma^2 (X'X)^{-1} $$ 由于 $\sigma^2$ 未知,我们使用其无偏估计 $\hat{\sigma}^2$ 来估计这个矩阵: $$ \widehat{\text{Var}(\hat{\beta})} = \hat{\sigma}^2 (X'X)^{-1} $$ 该矩阵对角线上的元素的平方根就是各个回归系数 $\hat{\beta}_j$ 的{{{标准误}}} (Standard Errors)。

3. 统计推断: 没有 $\hat{\sigma}^2$,就无法计算系数的标准误,从而无法进行 t-检验(检验单个系数的{{{显著性}}})、F-检验(检验模型的整体显著性或系数的线性约束)以及构建系数的置信区间。因此,$\hat{\sigma}^2$ 是进行所有标准回归推断的基础。