ARTICLE

回归系数的分布

回归系数的分布 (Distribution of Regression Coefficients) 回归系数的分布是指在回归分析中，通过普通最小二乘法 (OLS)或其他方法估计出的回归系数（如公式）自身的概率分布。理解这一点至关重要，因为回归系数是从一个随机样本中计算出来的，因此，它们本身也是随机变量。分析它们的分布是进行假设检验、构建置信区间以及评估

浏览 21 更新 2025-10-25

回归系数的分布 (Distribution of Regression Coefficients)

回归系数的分布 是指在回归分析中，通过普通最小二乘法 (OLS)或其他方法估计出的回归系数（如 $\hat{\beta_0}, \hat{\beta_1}, \dots, \hat{\beta_k}$ ）自身的概率分布。理解这一点至关重要，因为回归系数是从一个随机样本中计算出来的，因此，它们本身也是随机变量。分析它们的分布是进行假设检验、构建置信区间以及评估模型精度的基础。

本讲义主要基于经典线性回归模型 (CLRM)的假设来推导和解释该分布。

为什么回归系数是随机变量？

在一个简单线性回归 (SLR)模型 $y = \beta_0 + \beta_1 x + \epsilon$ 中，我们使用样本数据 $(x_i, y_i)$ 来计算斜率系数的估计量 $\hat{\beta_1}$ 和截距系数的估计量 $\hat{\beta_0}$ 。以斜率估计量为例，其计算公式为：

\hat{\beta_1} = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^n (x_i - \bar{x})^2}

我们可以将此公式重写为：

\hat{\beta_1} = \sum_{i=1}^n w_i y_i \quad \text{其中} \quad w_i = \frac{x_i - \bar{x}}{\sum_{j=1}^n (x_j - \bar{x})^2}

在这个形式中，权重 $w_i$ 仅依赖于自变量 $x_i$ 的值，在多数分析中可视为固定的。然而，因变量 $y_i$ 是一个随机变量，因为它包含了随机的误差项 $\epsilon_i$ ( $y_i = \beta_0 + \beta_1 x_i + \epsilon_i$ )。由于 $\hat{\beta_1}$ 是随机变量 $y_i$ 的线性组合，所以 $\hat{\beta_1}$ 本身也是一个随机变量。

因此，如果我们从同一个总体中抽取不同的样本，每次计算出的 $\hat{\beta_1}$ 值都会有所不同，这些不同的值会形成一个特定的概率分布。回归系数分布的研究，就是为了刻画这个分布的形状、中心和离散程度。

回归系数分布的性质 (有限样本性质)

为了推导回归系数的分布，我们需要依赖于经典线性回归模型 (CLRM) 的一系列假设。

CLRM 假设：

线性于参数：模型 $y = \beta_0 + \beta_1 x + \epsilon$ 是参数 $\beta_0, \beta_1$ 的线性函数。
随机抽样：样本 $\{ (x_i, y_i) : i=1, \dots, n \}$ 是从总体中随机抽取的。
不存在完全多重共线性：自变量之间不存在完全的线性关系 (在多元回归中)。对于简单回归，这意味着自变量 $x$ 至少需要有一些变异，即 $\sum(x_i - \bar{x})^2 > 0$ 。
零条件均值：给定任何自变量的值，误差项的期望值为零，即 $E(\epsilon | x) = 0$ 。这是确保无偏性的关键。
同方差性：误差项的方差是恒定的，不随 $x$ 的值而改变，即 $Var(\epsilon | x) = \sigma^2$ 。

基于以上 1-5 条假设，我们可以推导出 OLS 估计量的均值和方差。

1. 均值 (无偏性)

OLS 估计量是无偏的 (Unbiased)，意味着其分布的中心就是真实的、未知的总体参数值。

E(\hat{\beta_j}) = \beta_j \quad \text{for } j=0, 1, \dots, k

对于简单线性回归中的斜率系数 $\hat{\beta_1}$ ，我们可以证明：

E(\hat{\beta_1}) = E \left( \frac{\sum (x_i - \bar{x}) y_i}{\sum (x_i - \bar{x})^2} \right)

将 $y_i = \beta_0 + \beta_1 x_i + \epsilon_i$ 代入，经过一系列代数运算并利用 $E(\epsilon_i|x) = 0$ 的假设，最终可以得到 $E(\hat{\beta_1}) = \beta_1$ 。无偏性是一个理想的性质，它表明我们的估计在平均意义上是准确的。

2. 方差

OLS 估计量的方差衡量了其分布的离散程度，即估计值的波动性。方差越小，估计就越精确。对于简单线性回归的斜率系数 $\hat{\beta_1}$ ，其方差为：

Var(\hat{\beta_1}) = \frac{\sigma^2}{\sum_{i=1}^n (x_i - \bar{x})^2} = \frac{\sigma^2}{SST_x}

其中：

$\sigma^2$ 是误差项的方差。误差的随机性越大，我们对系数的估计就越不精确。
$\sum_{i=1}^n (x_i - \bar{x})^2$ 是自变量 $x$ 的总平方和 ( $SST_x$ )，它衡量了 $x$ 的变异程度。 $x$ 的变异程度越大，我们用来“描绘”回归线的数据点就越分散，从而对斜率的估计就越精确。

对于截距系数 $\hat{\beta_0}$ ，其方差为：

Var(\hat{\beta_0}) = \sigma^2 \left[ \frac{1}{n} + \frac{\bar{x}^2}{\sum_{i=1}^n (x_i - \bar{x})^2} \right]

这个方差同样与误差方差 $\sigma^2$ 成正比，与样本量 $n$ 和自变量的变异程度成反比。

3. 高斯-马尔可夫定理

高斯-马尔可夫定理 (Gauss-Markov Theorem) 是 OLS 的一个核心结论。它指出，在 CLRM 假设 1-5 成立的条件下，OLS 估计量是最佳线性无偏估计量 (Best Linear Unbiased Estimator, BLUE)。“最佳”意味着在所有线性和无偏的估计量中，OLS 估计量的方差是最小的。

回归系数的精确分布 (正态性假设)

为了从均值和方差更进一步到完整的分布形式，我们需要引入 CLRM 的第六个假设：

正态性：误差项 $\epsilon$ 独立于自变量 $x$ 并且服从均值为 0、方差为 $\sigma^2$ 的正态分布，即 $\epsilon \sim N(0, \sigma^2)$ 。

由于 OLS 估计量 $\hat{\beta_j}$ 是 $y_i$ 的线性组合，而 $y_i$ 又是正态随机变量 $\epsilon_i$ 的线性函数，因此 $y_i$ 也服从正态分布。正态随机变量的线性组合仍然是正态随机变量。因此，我们可以得出结论：

\hat{\beta_1} \sim N\left(\beta_1, \frac{\sigma^2}{\sum_{i=1}^n (x_i - \bar{x})^2}\right)

\hat{\beta_0} \sim N\left(\beta_0, \sigma^2 \left[ \frac{1}{n} + \frac{\bar{x}^2}{\sum_{i=1}^n (x_i - \bar{x})^2} \right]\right)

这一结论非常强大，因为它为我们提供了进行精确统计推断的理论基础。

从正态分布到 t 分布

上述的正态分布结论有一个实践上的障碍：它依赖于未知的总体误差方差 $\sigma^2$ 。在实际应用中，我们必须使用它的无偏估计量，即误差方差的估计量 $\hat{\sigma}^2$ ：

\hat{\sigma}^2 = \frac{\sum_{i=1}^n \hat{\epsilon}_i^2}{n-k-1} = \frac{SSR}{n-k-1}

其中 $\hat{\epsilon}_i$ 是残差， $SSR$ 是残差平方和， $k$ 是自变量的数量， $n-k-1$ 是自由度。

当我们用 $\hat{\sigma}^2$ 替代 $\sigma^2$ 来标准化回归系数时，得到的统计量不再服从标准正态分布，而是服从t分布。我们构造的 t 统计量为：

t = \frac{\hat{\beta_j} - \beta_j}{se(\hat{\beta_j})} \sim t_{n-k-1}

其中 $se(\hat{\beta_j})$ 是 $\hat{\beta_j}$ 的标准误 (standard error)，即其估计的标准差：

se(\hat{\beta_1}) = \sqrt{\frac{\hat{\sigma}^2}{\sum (x_i - \bar{x})^2}}

这个 t 统计量构成了对回归系数进行假设检验（例如，检验公式暂不可显示）和构建置信区间的基础。

回归系数的渐近分布 (大样本性质)

CLRM 的正态性假设 (假设6) 有时在现实中过于严格。幸运的是，即使误差项不服从正态分布，我们仍然可以依赖大样本性质来进行统计推断。

根据中心极限定理 (CLT) 的一个变体，只要 CLRM 的前五个假设成立，当样本容量 $n$ 趋于无穷大时，OLS 估计量的分布会渐近于正态分布。

\frac{\hat{\beta_j} - \beta_j}{se(\hat{\beta_j})} \xrightarrow{d} N(0, 1) \quad \text{as } n \to \infty

这意味着，在拥有足够大的样本时（通常 $n > 30$ 或 $n > 50$ 被认为是一个经验法则），即使我们不确定误差项是否为正态分布，我们仍然可以近似地使用 t 检验和置信区间，因为 t 分布在自由度很大时会趋近于标准正态分布。这使得 OLS 方法在实践中具有极强的稳健性和广泛的应用价值。

多元回归中的系数分布

以上概念可以无缝推广到多元线性回归 (MLR)中。在矩阵形式下，模型为 $\mathbf{y} = X\boldsymbol{\beta} + \boldsymbol{\epsilon}$ 。

OLS 估计量向量为 $\hat{\boldsymbol{\beta}} = (X'X)^{-1}X'\mathbf{y}$ 。
其均值为 $E(\hat{\boldsymbol{\beta}}) = \boldsymbol{\beta}$ (无偏性依然成立)。
其方差-协方差矩阵为:

Var(\hat{\boldsymbol{\beta}}) = \sigma^2(X'X)^{-1}

该矩阵的对角线元素给出了每个单独系数 $\hat{\beta_j}$ 的方差。

在正态性假设下，系数向量服从多元正态分布:

\hat{\boldsymbol{\beta}} \sim N(\boldsymbol{\beta}, \sigma^2(X'X)^{-1})

对单个系数 $\beta_j$ 的检验，其 t 统计量 $\frac{\hat{\beta_j} - \beta_j}{se(\hat{\beta_j})}$ 依然服从自由度为 $n-k-1$ 的 t 分布。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。