知经 KNOWECON · 卓越的经济金融统计数学学习平台

OLS估计量的方差计算

# OLS估计量的方差 (Variance of OLS Estimators)

在线性回归分析中,{{{普通最小二乘法}}} (Ordinary Least Squares, OLS) 是一种用于估计模型参数的基石技术。然而,仅仅得到参数的点估计值(如斜率和截距)是不够的。为了评估这些估计值的可靠性或精度,我们必须计算它们的方差。OLS估计量的方差衡量了在不同的样本下,估计值围绕其真实值的波动程度。较小的方差意味着估计值更为精确。

本词条将详细推导和解释在经典的{{{高斯-马尔可夫假设}}} (Gauss-Markov Assumptions) 下,简单线性回归模型中OLS估计量的方差计算公式,并将其推广至多元线性回归模型。

## 经典线性模型假设

方差公式的推导严格依赖于一系列假设。在{{{横截面数据}}} (Cross-Sectional Data) 的背景下,这些核心假设(高斯-马尔可夫假设)包括:

1. 线性于参数 (Linear in Parameters): 总体模型可以写作 $y = \beta_0 + \beta_1 x + u$,其中 $\beta_0$ 和 $\beta_1$ 是未知的总体参数,$u$ 是误差项。 2. 随机抽样 (Random Sampling): 我们从总体中随机抽取了一个包含 $n$ 个观测值的样本 $\{(x_i, y_i): i=1, $...$, n\}$。 3. 解释变量的样本变异 (Sample Variation in the Explanatory Variable): 样本中的 $x_i$ 值不完全相同,即 $\sum_{i=1}^{n}(x_i - \bar{x})^2 > 0$。 4. 零条件均值 (Zero Conditional Mean): 误差项 $u$ 的期望值在给定任何解释变量 $x$ 的值时都为零,即 $E(u|x) = 0$。这个假设保证了OLS估计量的{{{无偏性}}} (Unbiasedness)。 5. {{{同方差性}}} (Homoskedasticity): 误差项 $u$ 的方差在给定任何解释变量 $x$ 的值时都是一个常数 $\sigma^2$,即 $Var(u|x) = \sigma^2$。这是计算标准方差公式的关键。如果此假设不成立(即存在{{{异方差性}}} (Heteroskedasticity)),则需要使用更复杂的稳健标准误。

## 简单线性回归 (Simple Linear Regression)

考虑简单线性回归模型: $y_i = \beta_0 + \beta_1 x_i + u_i$。

### 斜率估计量 $\hat{\beta}_1$ 的方差

首先,我们写出斜率的OLS估计量 $\hat{\beta}_1$ 的公式: $$ \hat{\beta}_1 = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n}(x_i - \bar{x})^2} $$ 为了计算其方差,我们将 $y_i$ 的表达式代入。一个更便捷的步骤是先将 $\hat{\beta}_1$ 表达为真实参数 $\beta_1$ 和误差项 $u_i$ 的函数。经过代数运算(分子中的 $\bar{y}$ 可以被替换和化简),可得: $$ \hat{\beta}_1 = \beta_1 + \frac{\sum_{i=1}^{n}(x_i - \bar{x})u_i}{\sum_{i=1}^{n}(x_i - \bar{x})^2} $$ 这个表达式清晰地表明,估计值 $\hat{\beta}_1$ 等于真实值 $\beta_1$ 加上一个由误差项 $u_i$ 构成的加权平均。

现在我们来计算其方差。在计算过程中,我们将解释变量 $x_i$ 视为给定的(或非随机的)。由于 $\beta_1$ 是一个常数,它的方差为零。因此: $$ Var(\hat{\beta}_1) = Var \left( \beta_1 + \frac{\sum_{i=1}^{n}(x_i - \bar{x})u_i}{SST_x} \right) = Var \left( \frac{\sum_{i=1}^{n}(x_i - \bar{x})u_i}{SST_x} \right) $$ 其中 $SST_x = \sum_{i=1}^{n}(x_i - \bar{x})^2$ 是 $x$ 的总平方和,也被视为一个常数。 $$ Var(\hat{\beta}_1) = \frac{1}{(SST_x)^2} Var \left( \sum_{i=1}^{n}(x_i - \bar{x})u_i \right) $$ 根据随机抽样假设,不同观测值的误差项 $u_i$ 和 $u_j$ (其中 $i \neq j$) 是不相关的,即 $Cov(u_i, u_j) = 0$。因此,和的方差等于方差的和: $$ Var(\hat{\beta}_1) = \frac{1}{(SST_x)^2} \sum_{i=1}^{n} Var((x_i - \bar{x})u_i) = \frac{1}{(SST_x)^2} \sum_{i=1}^{n} (x_i - \bar{x})^2 Var(u_i) $$ 此时,我们使用同方差性假设,$Var(u_i) = \sigma^2$ 对所有 $i$ 成立: $$ Var(\hat{\beta}_1) = \frac{1}{(SST_x)^2} \sum_{i=1}^{n} (x_i - \bar{x})^2 \sigma^2 = \frac{\sigma^2}{(SST_x)^2} \sum_{i=1}^{n} (x_i - \bar{x})^2 $$ 由于 $\sum_{i=1}^{n}(x_i - \bar{x})^2 = SST_x$,上式可以完美地化简为: $$ \mathbf{Var(\hat{\beta}_1) = \frac{\sigma^2}{\sum_{i=1}^{n}(x_i - \bar{x})^2} = \frac{\sigma^2}{SST_x}} $$

公式解读: * 误差方差 ($\sigma^2$): $\sigma^2$ 越大,表示数据点围绕真实回归线的散布程度越高(即{{{噪声}}}越大),这会导致 $\hat{\beta}_1$ 的方差增大,估计的精确度下降。 * 解释变量的总平方和 ($SST_x$): $SST_x$ 越大,表示 $x$ 的取值范围越广、越分散。这会减小 $\hat{\beta}_1$ 的方差,提高估计的精确度。直观上,更分散的 $x$ 值为我们确定直线的斜率提供了更多的“杠杆作用”。增加样本量 $n$ 通常也能增大 $SST_x$。

### 截距估计量 $\hat{\beta}_0$ 的方差

截距的OLS估计量为 $\hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x}$。为了求其方差,我们首先将其表示成一个关于 $y_i$ 的线性组合,或者通过以下方式推导: 我们知道 $\bar{y} = \beta_0 + \beta_1 \bar{x} + \bar{u}$。代入 $\hat{\beta}_0$ 的表达式: $$ \hat{\beta}_0 = (\beta_0 + \beta_1 \bar{x} + \bar{u}) - \hat{\beta}_1 \bar{x} = \beta_0 + \bar{u} - (\hat{\beta}_1 - \beta_1) \bar{x} $$ 计算其方差: $$ Var(\hat{\beta}_0) = Var(\bar{u} - (\hat{\beta}_1 - \beta_1)\bar{x}) = Var(\bar{u}) + \bar{x}^2 Var(\hat{\beta}_1) - 2\bar{x}Cov(\bar{u}, \hat{\beta}_1) $$ 在经典假设下,可以证明 $Cov(\bar{u}, \hat{\beta}_1) = 0$。因此,上式简化为: $$ Var(\hat{\beta}_0) = Var(\bar{u}) + \bar{x}^2 Var(\hat{\beta}_1) $$ 我们知道 $Var(\bar{u}) = Var(\frac{1}{n}\sum u_i) = \frac{1}{n^2}\sum Var(u_i) = \frac{n\sigma^2}{n^2} = \frac{\sigma^2}{n}$。代入已知结果: $$ \mathbf{Var(\hat{\beta}_0) = \frac{\sigma^2}{n} + \bar{x}^2 \frac{\sigma^2}{SST_x} = \sigma^2 \left( \frac{1}{n} + \frac{\bar{x}^2}{\sum_{i=1}^{n}(x_i - \bar{x})^2} \right)} $$ 这个公式也可以写成等价形式: $Var(\hat{\beta}_0) = \frac{\sigma^2 \sum x_i^2}{n \sum(x_i - \bar{x})^2}$。

公式解读: * $\hat{\beta}_0$ 的方差同样与误差方差 $\sigma^2$ 成正比,与样本量 $n$ 和 $SST_x$ 成反比。 * 一个特殊的因素是 $\bar{x}^2$。当 $x$ 的样本均值 $\bar{x}$ 离0越远,$\hat{\beta}_0$ 的方差越大。这是因为截距是 $x=0$ 时 $y$ 的预测值。如果我们的数据中心($\bar{x}$)距离 $x=0$ 很远,那么对截距的估计就成了一种{{{外推}}} (extrapolation),其不确定性自然会增加。

## 估计误差方差 $\sigma^2$

上述方差公式中的 $\sigma^2$ 是未知的总体参数,必须使用样本数据进行估计。$\sigma^2$ 的一个无偏估计量是: $$ \hat{\sigma}^2 = \frac{\sum_{i=1}^{n}\hat{u}_i^2}{n-k-1} $$ 其中 $\hat{u}_i = y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i$ 是OLS{{{残差}}} (residuals),$n$ 是样本量,$k$ 是解释变量的个数。在简单回归中,$k=1$,因此分母是 $n-2$。$n-2$ 被称为{{{自由度}}} (Degrees of Freedom)。

$\hat{\sigma}$($\hat{\sigma}^2$的平方根)被称为{{{回归标准误}}} (Standard Error of the Regression, SER)

将 $\hat{\sigma}^2$ 替换公式中的 $\sigma^2$,我们便得到估计量方差的估计值,其平方根就是估计量的{{{标准误}}} (Standard Error): * $\hat{\beta}_1$ 的标准误: $$ se(\hat{\beta}_1) = \sqrt{\frac{\hat{\sigma}^2}{SST_x}} = \frac{\hat{\sigma}}{\sqrt{\sum(x_i - \bar{x})^2}} $$ * $\hat{\beta}_0$ 的标准误: $$ se(\hat{\beta}_0) = \sqrt{\hat{\sigma}^2 \left( \frac{1}{n} + \frac{\bar{x}^2}{\sum(x_i - \bar{x})^2} \right)} $$ 这些标准误是进行{{{假设检验}}}(如t检验)和构造{{{置信区间}}} (Confidence Interval) 的基础。

## 多元线性回归 (Multiple Linear Regression)

当模型包含多个解释变量时,如 $y = \beta_0 + \beta_1 x_1 + \dots + \beta_k x_k + u$,使用{{{矩阵代数}}} (Matrix Algebra) 会使表达更为简洁。模型可写为: $$ \mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \mathbf{u} $$ OLS估计量向量为 $\hat{\boldsymbol{\beta}} = (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{y}$。

在同方差和无序列相关的假设下,$Var(\mathbf{u}|\mathbf{X}) = \sigma^2 \mathbf{I}_n$,其中 $\mathbf{I}_n$ 是 $n \times n$ 的单位矩阵。$\hat{\boldsymbol{\beta}}$ 的方差-协方差矩阵为: $$ \mathbf{Var(\hat{\boldsymbol{\beta}}|\mathbf{X})} = \sigma^2 (\mathbf{X}'\mathbf{X})^{-1} $$ 这个矩阵的对角线元素给出了每个系数估计量 $\hat{\beta}_j$ 的方差,而非对角线元素则给出了不同系数估计量之间的协方差。

对于任意一个斜率估计量 $\hat{\beta}_j$ ($j=1, \dots, k$),其方差可以表示为: $$ Var(\hat{\beta}_j) = \frac{\sigma^2}{SST_j(1-R_j^2)} $$ * $SST_j = \sum_{i=1}^{n}(x_{ij} - \bar{x}_j)^2$ 是解释变量 $x_j$ 的总平方和。 * $R_j^2$ 是将 $x_j$ 对所有其他解释变量(包括截距)进行回归所得到的{{{决定系数}}} (R-squared)。

这个公式揭示了一个重要概念:{{{多重共线性}}} (Multicollinearity)。当 $x_j$ 能被其他解释变量高度线性表示时,$R_j^2$ 会接近1。这会导致分母 $1-R_j^2$ 趋近于0,从而使 $Var(\hat{\beta}_j)$ 急剧增大,即所谓的“方差膨胀”。此时,尽管模型整体可能拟合良好,但对单个变量 $\beta_j$ 的估计会非常不精确。衡量这种现象的指标是{{{方差膨胀因子}}} (Variance Inflation Factor, VIF),其定义为 $VIF_j = \frac{1}{1-R_j^2}$。