回归系数的分布 (Distribution of Regression Coefficients)
回归系数的分布 是指在回归分析中,通过普通最小二乘法 (OLS)或其他方法估计出的回归系数(如 β0^,β1^,…,βk^)自身的概率分布。理解这一点至关重要,因为回归系数是从一个随机样本中计算出来的,因此,它们本身也是随机变量。分析它们的分布是进行假设检验、构建置信区间以及评估模型精度的基础。
本讲义主要基于经典线性回归模型 (CLRM)的假设来推导和解释该分布。
为什么回归系数是随机变量?
在一个简单线性回归 (SLR)模型 y=β0+β1x+ϵ 中,我们使用样本数据 (xi,yi) 来计算斜率系数的估计量 β1^ 和截距系数的估计量 β0^。以斜率估计量为例,其计算公式为:
β1^=∑i=1n(xi−xˉ)2∑i=1n(xi−xˉ)(yi−yˉ)
我们可以将此公式重写为:
β1^=i=1∑nwiyi其中wi=∑j=1n(xj−xˉ)2xi−xˉ
在这个形式中,权重 wi 仅依赖于自变量 xi 的值,在多数分析中可视为固定的。然而,因变量 yi 是一个随机变量,因为它包含了随机的误差项 ϵi (yi=β0+β1xi+ϵi)。由于 β1^ 是随机变量 yi 的线性组合,所以 β1^ 本身也是一个随机变量。
因此,如果我们从同一个总体中抽取不同的样本,每次计算出的 β1^ 值都会有所不同,这些不同的值会形成一个特定的概率分布。回归系数分布的研究,就是为了刻画这个分布的形状、中心和离散程度。
回归系数分布的性质 (有限样本性质)
为了推导回归系数的分布,我们需要依赖于经典线性回归模型 (CLRM) 的一系列假设。
CLRM 假设:
- 线性于参数:模型 y=β0+β1x+ϵ 是参数 β0,β1 的线性函数。
- 随机抽样:样本 {(xi,yi):i=1,…,n} 是从总体中随机抽取的。
- 不存在完全多重共线性:自变量之间不存在完全的线性关系 (在多元回归中)。对于简单回归,这意味着自变量 x 至少需要有一些变异,即 ∑(xi−xˉ)2>0。
- 零条件均值:给定任何自变量的值,误差项的期望值为零,即 E(ϵ∣x)=0。这是确保无偏性的关键。
- 同方差性:误差项的方差是恒定的,不随 x 的值而改变,即 Var(ϵ∣x)=σ2。
基于以上 1-5 条假设,我们可以推导出 OLS 估计量的均值和方差。
1. 均值 (无偏性)
OLS 估计量是无偏的 (Unbiased),意味着其分布的中心就是真实的、未知的总体参数值。
E(βj^)=βjfor j=0,1,…,k
对于简单线性回归中的斜率系数 β1^,我们可以证明:
E(β1^)=E(∑(xi−xˉ)2∑(xi−xˉ)yi)
将 yi=β0+β1xi+ϵi 代入,经过一系列代数运算并利用 E(ϵi∣x)=0 的假设,最终可以得到 E(β1^)=β1。无偏性是一个理想的性质,它表明我们的估计在平均意义上是准确的。
2. 方差
OLS 估计量的方差衡量了其分布的离散程度,即估计值的波动性。方差越小,估计就越精确。 对于简单线性回归的斜率系数 β1^,其方差为:
Var(β1^)=∑i=1n(xi−xˉ)2σ2=SSTxσ2
其中:
- σ2 是误差项的方差。误差的随机性越大,我们对系数的估计就越不精确。
- ∑i=1n(xi−xˉ)2 是自变量 x 的总平方和 (SSTx),它衡量了 x 的变异程度。x 的变异程度越大,我们用来“描绘”回归线的数据点就越分散,从而对斜率的估计就越精确。
对于截距系数 β0^,其方差为:
Var(β0^)=σ2[n1+∑i=1n(xi−xˉ)2xˉ2]
这个方差同样与误差方差 σ2 成正比,与样本量 n 和自变量的变异程度成反比。
3. 高斯-马尔可夫定理
高斯-马尔可夫定理 (Gauss-Markov Theorem) 是 OLS 的一个核心结论。它指出,在 CLRM 假设 1-5 成立的条件下,OLS 估计量是最佳线性无偏估计量 (Best Linear Unbiased Estimator, BLUE)。“最佳”意味着在所有线性和无偏的估计量中,OLS 估计量的方差是最小的。
回归系数的精确分布 (正态性假设)
为了从均值和方差更进一步到完整的分布形式,我们需要引入 CLRM 的第六个假设:
- 正态性:误差项 ϵ 独立于自变量 x 并且服从均值为 0、方差为 σ2 的正态分布,即 ϵ∼N(0,σ2)。
由于 OLS 估计量 βj^ 是 yi 的线性组合,而 yi 又是正态随机变量 ϵi 的线性函数,因此 yi 也服从正态分布。正态随机变量的线性组合仍然是正态随机变量。因此,我们可以得出结论:
β1^∼N(β1,∑i=1n(xi−xˉ)2σ2)
β0^∼N(β0,σ2[n1+∑i=1n(xi−xˉ)2xˉ2])
这一结论非常强大,因为它为我们提供了进行精确统计推断的理论基础。
从正态分布到 t 分布
上述的正态分布结论有一个实践上的障碍:它依赖于未知的总体误差方差 σ2。在实际应用中,我们必须使用它的无偏估计量,即误差方差的估计量 σ^2:
σ^2=n−k−1∑i=1nϵ^i2=n−k−1SSR
其中 ϵ^i 是残差,SSR 是残差平方和,k 是自变量的数量,n−k−1 是自由度。
当我们用 σ^2 替代 σ2 来标准化回归系数时,得到的统计量不再服从标准正态分布,而是服从t分布。我们构造的 t 统计量为:
t=se(βj^)βj^−βj∼tn−k−1
其中 se(βj^) 是 βj^ 的标准误 (standard error),即其估计的标准差:
se(β1^)=∑(xi−xˉ)2σ^2
这个 t 统计量构成了对回归系数进行假设检验(例如,检验 \beta__j = 0 )和构建置信区间的基础。
回归系数的渐近分布 (大样本性质)
CLRM 的正态性假设 (假设6) 有时在现实中过于严格。幸运的是,即使误差项不服从正态分布,我们仍然可以依赖大样本性质来进行统计推断。
根据中心极限定理 (CLT) 的一个变体,只要 CLRM 的前五个假设成立,当样本容量 n 趋于无穷大时,OLS 估计量的分布会渐近于正态分布。
se(βj^)βj^−βjdN(0,1)as n→∞
这意味着,在拥有足够大的样本时(通常 n>30 或 n>50 被认为是一个经验法则),即使我们不确定误差项是否为正态分布,我们仍然可以近似地使用 t 检验和置信区间,因为 t 分布在自由度很大时会趋近于标准正态分布。这使得 OLS 方法在实践中具有极强的稳健性和广泛的应用价值。
多元回归中的系数分布
以上概念可以无缝推广到多元线性回归 (MLR)中。在矩阵形式下,模型为 y=Xβ+ϵ。
- OLS 估计量向量为 β^=(X′X)−1X′y。
- 其均值为 E(β^)=β (无偏性依然成立)。
- 其方差-协方差矩阵为:
Var(β^)=σ2(X′X)−1
该矩阵的对角线元素给出了每个单独系数 βj^ 的方差。
β^∼N(β,σ2(X′X)−1)
- 对单个系数 βj 的检验,其 t 统计量 se(βj^)βj^−βj 依然服从自由度为 n−k−1 的 t 分布。