知经 KNOWECON · 卓越的经济金融统计数学学习平台

回归系数的分布

# 回归系数的分布 (Distribution of Regression Coefficients)

回归系数的分布 是指在{{{回归分析}}}中,通过{{{普通最小二乘法 (OLS)}}}或其他方法估计出的回归系数(如 $\hat{\beta_0}, \hat{\beta_1}, \dots, \hat{\beta_k}$)自身的{{{概率分布}}}。理解这一点至关重要,因为回归系数是从一个随机样本中计算出来的,因此,它们本身也是{{{随机变量}}}。分析它们的分布是进行{{{假设检验}}}、构建{{{置信区间}}}以及评估模型精度的基础。

本讲义主要基于{{{经典线性回归模型 (CLRM)}}}的假设来推导和解释该分布。

## 为什么回归系数是随机变量?

在一个{{{简单线性回归 (SLR)}}}模型 $y = \beta_0 + \beta_1 x + \epsilon$ 中,我们使用样本数据 $(x_i, y_i)$ 来计算斜率系数的估计量 $\hat{\beta_1}$ 和截距系数的估计量 $\hat{\beta_0}$。以斜率估计量为例,其计算公式为: $$ \hat{\beta_1} = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^n (x_i - \bar{x})^2} $$ 我们可以将此公式重写为: $$ \hat{\beta_1} = \sum_{i=1}^n w_i y_i \quad \text{其中} \quad w_i = \frac{x_i - \bar{x}}{\sum_{j=1}^n (x_j - \bar{x})^2} $$ 在这个形式中,权重 $w_i$ 仅依赖于自变量 $x_i$ 的值,在多数分析中可视为固定的。然而,因变量 $y_i$ 是一个随机变量,因为它包含了随机的{{{误差项}}} $\epsilon_i$ ($y_i = \beta_0 + \beta_1 x_i + \epsilon_i$)。由于 $\hat{\beta_1}$ 是随机变量 $y_i$ 的线性组合,所以 $\hat{\beta_1}$ 本身也是一个随机变量。

因此,如果我们从同一个总体中抽取不同的样本,每次计算出的 $\hat{\beta_1}$ 值都会有所不同,这些不同的值会形成一个特定的概率分布。回归系数分布的研究,就是为了刻画这个分布的形状、中心和离散程度。

## 回归系数分布的性质 (有限样本性质)

为了推导回归系数的分布,我们需要依赖于经典线性回归模型 (CLRM) 的一系列假设。

#### CLRM 假设: 1. 线性于参数:模型 $y = \beta_0 + \beta_1 x + \epsilon$ 是参数 $\beta_0, \beta_1$ 的线性函数。 2. 随机抽样:样本 $\{ (x_i, y_i) : i=1, \dots, n \}$ 是从总体中随机抽取的。 3. 不存在完全{{{多重共线性}}}:自变量之间不存在完全的线性关系 (在多元回归中)。对于简单回归,这意味着自变量 $x$ 至少需要有一些变异,即 $\sum(x_i - \bar{x})^2 > 0$。 4. 零条件均值:给定任何自变量的值,误差项的{{{期望值}}}为零,即 $E(\epsilon | x) = 0$。这是确保{{{无偏性}}}的关键。 5. {{{同方差性}}}:误差项的{{{方差}}}是恒定的,不随 $x$ 的值而改变,即 $Var(\epsilon | x) = \sigma^2$。

基于以上 1-5 条假设,我们可以推导出 OLS 估计量的均值和方差。

### 1. 均值 (无偏性)

OLS 估计量是{{{无偏的}}} (Unbiased),意味着其分布的中心就是真实的、未知的总体参数值。 $$ E(\hat{\beta_j}) = \beta_j \quad \text{for } j=0, 1, \dots, k $$ 对于简单线性回归中的斜率系数 $\hat{\beta_1}$,我们可以证明: $$ E(\hat{\beta_1}) = E \left( \frac{\sum (x_i - \bar{x}) y_i}{\sum (x_i - \bar{x})^2} \right) $$ 将 $y_i = \beta_0 + \beta_1 x_i + \epsilon_i$ 代入,经过一系列代数运算并利用 $E(\epsilon_i|x) = 0$ 的假设,最终可以得到 $E(\hat{\beta_1}) = \beta_1$。无偏性是一个理想的性质,它表明我们的估计在平均意义上是准确的。

### 2. 方差

OLS 估计量的方差衡量了其分布的离散程度,即估计值的波动性。方差越小,估计就越精确。 对于简单线性回归的斜率系数 $\hat{\beta_1}$,其方差为: $$ Var(\hat{\beta_1}) = \frac{\sigma^2}{\sum_{i=1}^n (x_i - \bar{x})^2} = \frac{\sigma^2}{SST_x} $$ 其中: * $\sigma^2$ 是误差项的方差。误差的随机性越大,我们对系数的估计就越不精确。 * $\sum_{i=1}^n (x_i - \bar{x})^2$ 是自变量 $x$ 的总平方和 ($SST_x$),它衡量了 $x$ 的变异程度。$x$ 的变异程度越大,我们用来“描绘”回归线的数据点就越分散,从而对斜率的估计就越精确。

对于截距系数 $\hat{\beta_0}$,其方差为: $$ Var(\hat{\beta_0}) = \sigma^2 \left[ \frac{1}{n} + \frac{\bar{x}^2}{\sum_{i=1}^n (x_i - \bar{x})^2} \right] $$ 这个方差同样与误差方差 $\sigma^2$ 成正比,与样本量 $n$ 和自变量的变异程度成反比。

### 3. 高斯-马尔可夫定理

{{{高斯-马尔可夫定理}}} (Gauss-Markov Theorem) 是 OLS 的一个核心结论。它指出,在 CLRM 假设 1-5 成立的条件下,OLS 估计量是最佳线性无偏估计量 (Best Linear Unbiased Estimator, BLUE)。“最佳”意味着在所有线性和无偏的估计量中,OLS 估计量的方差是最小的。

## 回归系数的精确分布 (正态性假设)

为了从均值和方差更进一步到完整的分布形式,我们需要引入 CLRM 的第六个假设:

6. {{{正态性}}}:误差项 $\epsilon$ 独立于自变量 $x$ 并且服从均值为 0、方差为 $\sigma^2$ 的{{{正态分布}}},即 $\epsilon \sim N(0, \sigma^2)$。

由于 OLS 估计量 $\hat{\beta_j}$ 是 $y_i$ 的线性组合,而 $y_i$ 又是正态随机变量 $\epsilon_i$ 的线性函数,因此 $y_i$ 也服从正态分布。正态随机变量的线性组合仍然是正态随机变量。因此,我们可以得出结论: $$ \hat{\beta_1} \sim N\left(\beta_1, \frac{\sigma^2}{\sum_{i=1}^n (x_i - \bar{x})^2}\right) $$ $$ \hat{\beta_0} \sim N\left(\beta_0, \sigma^2 \left[ \frac{1}{n} + \frac{\bar{x}^2}{\sum_{i=1}^n (x_i - \bar{x})^2} \right]\right) $$ 这一结论非常强大,因为它为我们提供了进行精确统计推断的理论基础。

### 从正态分布到 t 分布

上述的正态分布结论有一个实践上的障碍:它依赖于未知的总体误差方差 $\sigma^2$。在实际应用中,我们必须使用它的无偏估计量,即误差方差的估计量 $\hat{\sigma}^2$: $$ \hat{\sigma}^2 = \frac{\sum_{i=1}^n \hat{\epsilon}_i^2}{n-k-1} = \frac{SSR}{n-k-1} $$ 其中 $\hat{\epsilon}_i$ 是{{{残差}}},$SSR$ 是残差平方和,$k$ 是自变量的数量,$n-k-1$ 是{{{自由度}}}。

当我们用 $\hat{\sigma}^2$ 替代 $\sigma^2$ 来标准化回归系数时,得到的统计量不再服从标准正态分布,而是服从{{{t分布}}}。我们构造的 t 统计量为: $$ t = \frac{\hat{\beta_j} - \beta_j}{se(\hat{\beta_j})} \sim t_{n-k-1} $$ 其中 $se(\hat{\beta_j})$ 是 $\hat{\beta_j}$ 的{{{标准误}}} (standard error),即其估计的标准差: $$ se(\hat{\beta_1}) = \sqrt{\frac{\hat{\sigma}^2}{\sum (x_i - \bar{x})^2}} $$ 这个 t 统计量构成了对回归系数进行假设检验(例如,检验 $\beta__j = 0$)和构建置信区间的基础。

## 回归系数的渐近分布 (大样本性质)

CLRM 的正态性假设 (假设6) 有时在现实中过于严格。幸运的是,即使误差项不服从正态分布,我们仍然可以依赖大样本性质来进行统计推断。

根据{{{中心极限定理 (CLT)}}} 的一个变体,只要 CLRM 的前五个假设成立,当样本容量 $n$ 趋于无穷大时,OLS 估计量的分布会{{{渐近}}}于正态分布。 $$ \frac{\hat{\beta_j} - \beta_j}{se(\hat{\beta_j})} \xrightarrow{d} N(0, 1) \quad \text{as } n \to \infty $$ 这意味着,在拥有足够大的样本时(通常 $n > 30$ 或 $n > 50$ 被认为是一个经验法则),即使我们不确定误差项是否为正态分布,我们仍然可以近似地使用 t 检验和置信区间,因为 t 分布在自由度很大时会趋近于标准正态分布。这使得 OLS 方法在实践中具有极强的稳健性和广泛的应用价值。

## 多元回归中的系数分布

以上概念可以无缝推广到{{{多元线性回归 (MLR)}}}中。在矩阵形式下,模型为 $\mathbf{y} = X\boldsymbol{\beta} + \boldsymbol{\epsilon}$。 * OLS 估计量向量为 $\hat{\boldsymbol{\beta}} = (X'X)^{-1}X'\mathbf{y}$。 * 其均值为 $E(\hat{\boldsymbol{\beta}}) = \boldsymbol{\beta}$ (无偏性依然成立)。 * 其{{{方差-协方差矩阵}}}为: $$ Var(\hat{\boldsymbol{\beta}}) = \sigma^2(X'X)^{-1} $$ 该矩阵的对角线元素给出了每个单独系数 $\hat{\beta_j}$ 的方差。 * 在正态性假设下,系数向量服从多元正态分布: $$ \hat{\boldsymbol{\beta}} \sim N(\boldsymbol{\beta}, \sigma^2(X'X)^{-1}) $$ * 对单个系数 $\beta_j$ 的检验,其 t 统计量 $\frac{\hat{\beta_j} - \beta_j}{se(\hat{\beta_j})}$ 依然服从自由度为 $n-k-1$ 的 t 分布。