# 加权最小二乘法 (Weighted Least Squares)
加权最小二乘法 (Weighted Least Squares, WLS) 是{{{回归分析}}}中一种重要的估计方法,它是{{{普通最小二乘法}}} (Ordinary Least Squares, OLS) 的一种推广。WLS主要用于解决线性回归模型中{{{误差项}}}存在{{{异方差性}}} (Heteroscedasticity) 的问题。其核心思想是为每个观测值分配一个不同的权重,使得方差较小(信息更可靠)的观测值在拟合回归线时起更大的作用,而方差较大(信息噪声更多)的观测值起较小的作用。
## OLS的局限性与异方差问题
在学习WLS之前,我们必须首先理解为什么需要它。标准的{{{普通最小二乘法}}} (OLS) 是建立在一系列假设之上的,这些假设统称为{{{经典线性回归模型}}} (Classical Linear Regression Model, CLRM) 的假设。其中一个关键假设是同方差性 (Homoscedasticity)。
* {{{同方差性}}}: 假定模型中的随机误差项 $\epsilon_i$ 对于所有观测值都具有相同的方差,即: $$ Var(\epsilon_i) = \sigma^2 \quad \text{for all } i $$ 这意味着无论自变量 $X$ 取何值,因变量 $Y$ 的值围绕回归线的波动程度是恒定的。
* {{{异方差性}}}: 当同方差性假设不成立时,我们称模型存在异方差性。此时,误差项的方差不再是一个常数,而是随着观测值的不同而变化,通常依赖于自变量 $X$ 的值。 $$ Var(\epsilon_i) = \sigma_i^2 $$ 例如,在研究家庭收入对消费支出的影响时,高收入家庭的消费选择范围更广,其消费支出的波动性(方差)可能远大于低收入家庭。
当异方差性存在时,如果仍然使用OLS进行估计,会产生以下严重后果: 1. 估计量仍然是{{{无偏}}} (Unbiased) 和{{{一致}}} (Consistent) 的:OLS估计出的回归系数在期望上仍然是正确的。 2. 但估计量不再是有效的:OLS估计量不再是{{{最佳线性无偏估计量}}} (Best Linear Unbiased Estimator, BLUE)。这意味着存在比OLS更有效的其他线性无偏估计量(即WLS估计量),其方差更小。 3. 标准误和假设检验失效:OLS计算出的系数{{{标准误}}}是错误的(通常是偏低的),这导致基于{{{t检验}}}和{{{F检验}}}的{{{假设检验}}}以及{{{置信区间}}}的构建都是无效和不可靠的。
为了克服这些问题,加权最小二乘法应运而生。
## WLS 的基本原理与目标函数
WLS通过引入权重来修正OLS的目标函数。OLS的目标是最小化{{{残差平方和}}} (Sum of Squared Residuals, SSR): $$ \min \sum_{i=1}^{n} e_i^2 = \min \sum_{i=1}^{n} (Y_i - \hat{\beta}_0 - \hat{\beta}_1 X_i)^2 $$
而WLS的目标是最小化加权残差平方和 (Weighted Sum of Squared Residuals, WSSR): $$ \min \sum_{i=1}^{n} w_i e_i^2 = \min \sum_{i=1}^{n} w_i (Y_i - \hat{\beta}_0^{WLS} - \hat{\beta}_1^{WLS} X_i)^2 $$ 其中,$w_i$ 是分配给第 $i$ 个观测值的权重。
权重的选择是WLS的核心。为了抵消异方差的影响,最优的权重应与误差项方差的倒数成正比。通常,我们选择: $$ w_i = \frac{1}{\sigma_i^2} $$ 这个选择的直观意义是: * 如果第 $i$ 个观测值的误差方差 $\sigma_i^2$ 很大,说明该点包含的“噪声”较多,其信息不可靠,因此我们给它一个较小的权重 $w_i$。 * 反之,如果 $\sigma_i^2$ 很小,说明该点非常接近真实的回归关系,信息可靠,我们给它一个较大的权重 $w_i$。
通过这种方式,WLS在回归拟合中更加倚重那些高质量、低方差的数据点。
## WLS 的实现:数据变换方法
从数学上讲,WLS可以看作是对原始数据进行某种变换,然后对变换后的数据应用OLS。这个过程清晰地揭示了WLS是如何消除异方差的。
假设我们有存在异方差的原始模型: $$ Y_i = \beta_0 + \beta_1 X_i + \epsilon_i, \quad \text{其中 } E(\epsilon_i)=0, \text{ 且 } Var(\epsilon_i) = \sigma_i^2 $$ 我们假定 $\sigma_i^2$ 是已知的。现在,我们将方程两边同时除以 $\sigma_i$: $$ \frac{Y_i}{\sigma_i} = \beta_0 \left(\frac{1}{\sigma_i}\right) + \beta_1 \left(\frac{X_i}{\sigma_i}\right) + \frac{\epsilon_i}{\sigma_i} $$ 我们定义一组新的、变换后的变量: * $Y_i^* = Y_i / \sigma_i$ * $X_{i0}^* = 1 / \sigma_i$ * $X_{i1}^* = X_i / \sigma_i$ * $\epsilon_i^* = \epsilon_i / \sigma_i$
这样,我们就得到了一个变换后的新模型: $$ Y_i^* = \beta_0 X_{i0}^* + \beta_1 X_{i1}^* + \epsilon_i^* $$ 现在我们来考察这个新模型的误差项 $\epsilon_i^*$ 的方差: $$ Var(\epsilon_i^*) = Var\left(\frac{\epsilon_i}{\sigma_i}\right) = \frac{1}{\sigma_i^2} Var(\epsilon_i) = \frac{1}{\sigma_i^2} \cdot \sigma_i^2 = 1 $$ 这是一个惊人的结果:变换后的模型,其误差项的方差为常数1,即满足同方差性。
因此,我们可以对这个变换后的模型放心使用OLS来估计参数 $\beta_0$ 和 $\beta_1$。对变换后的模型使用OLS,其最小化的残差平方和为: $$ \min \sum_{i=1}^{n} (e_i^*)^2 = \min \sum_{i=1}^{n} \left(\frac{e_i}{\sigma_i}\right)^2 = \min \sum_{i=1}^{n} \frac{1}{\sigma_i^2} e_i^2 $$ 这与我们之前定义的WLS目标函数(当 $w_i = 1/\sigma_i^2$ 时)完全相同。这证明了加权最小二乘法等价于对经过权重调整的数据应用普通最小二乘法。通过这种变换,WLS得到的估计量 $\hat{\beta}^{WLS}$ 恢复了BLUE的优良特性。
## WLS的实践应用:可行加权最小二乘法 (FGLS)
在理论推导中,我们假设误差方差 $\sigma_i^2$ 是已知的,但在现实世界中,它几乎总是未知的。因此,我们无法直接计算出最优权重 $w_i = 1/\sigma_i^2$。
为了解决这个问题,我们使用一种称为{{{可行加权最小二乘法}}} (Feasible Weighted Least Squares, FGLS) 或 可行广义最小二乘法 (Feasible Generalized Least Squares) 的多步估计程序。WLS是FGLS在误差项不相关的特例。
FGLS的执行步骤如下: 1. 运行初始OLS回归:首先,忽略异方差问题,对原始模型 $Y_i = \beta_0 + \beta_1 X_i + \epsilon_i$ 运行OLS,得到一组{{{残差}}} $e_i$。这些残差 $e_i$ 是真实误差项 $\epsilon_i$ 的一个(尽管不完美)估计。
2. 建立方差模型:分析残差的行为,以确定异方差的结构。我们需要对方差 $\sigma_i^2$ 的形式做出假设,通常假设它与某个或某些自变量 $X$ 相关。例如,一个常见的假设是: $$ \sigma_i^2 = \exp(\alpha_0 + \alpha_1 \ln(X_{1i}) + \dots) $$ 为了估计这个关系,我们可以运行一个辅助回归,例如: $$ \ln(e_i^2) = \alpha_0 + \alpha_1 \ln(X_{1i}) + v_i $$ 其中 $v_i$ 是一个符合OLS假设的误差项。
3. 估计方差并构造权重:利用步骤2中辅助回归的拟合结果,得到方差的预测值 $\hat{\sigma}_i^2$。 $$ \widehat{\ln(e_i^2)} = \hat{\alpha}_0 + \hat{\alpha}_1 \ln(X_{1i}) $$ 然后,计算每个观测值的方差估计: $$ \hat{\sigma}_i^2 = \exp(\widehat{\ln(e_i^2)}) $$ 最后,构造FGLS的权重: $$ \hat{w}_i = \frac{1}{\hat{\sigma}_i^2} $$
4. 运行WLS回归:使用上一步计算出的权重 $\hat{w}_i$,对原始模型进行加权最小二乘估计。现在,大多数统计软件(如{{{R (programming language)}}}、{{{Stata}}}、{{{Python (programming language)}}})都内置了WLS功能,可以直接指定权重变量来完成此步骤。
由于FGLS使用的权重是估计出来的而非真实的,其估计量的优良性质(如有效性)是在大样本下才成立的,我们称之为{{{渐近有效}}} (Asymptotically Efficient)。在小样本中,FGLS的性质并不确定,如果方差模型设定错误,其结果甚至可能比OLS更差。
## WLS 与 稳健标准误
处理异方差的另一种常用方法是继续使用OLS估计系数,但对其标准误进行修正,这种修正后的标准误称为{{{异方差-稳健标准误}}} (Heteroscedasticity-Consistent Standard Errors),或{{{怀特标准误}}} (White's standard errors)。
* WLS/FGLS:修改了系数的估计方法,以求得更有效(方差更小)的系数估计量。如果权重设定正确,WLS在系数估计的准确性上优于OLS。 * 稳健标准误:不改变OLS的系数估计值,仅仅修正其标准误的计算公式,使得在存在异方差时,假设检验和置信区间仍然有效。
选择策略: * 如果研究者认为OLS的系数估计已经足够好,主要关心的是进行正确的统计推断,那么使用OLS配合稳健标准误是一个简单、直接且稳健的选择。 * 如果研究者相信能够较好地刻画异方差的结构,并且追求更高效的系数估计,那么FGLS/WLS是更好的选择。然而,这也带来了模型设定错误的风险。
在现代计量经济学实践中,由于其简单性和对异方差形式的未知性的稳健性,使用OLS加稳健标准误的方法非常普遍。