普通最小二乘法 (Ordinary Least Squares, OLS)
普通最小二乘法 是估计线性回归模型未知参数的核心方法,由高斯 (Carl Friedrich Gauss) 和勒让德 (Adrien-Marie Legendre) 在19世纪初独立提出。其基本思想是:选择回归系数使得残差平方和 (Residual Sum of Squares, RSS) 最小化。在经典线性回归假设下,OLS 估计量具有最优线性无偏估计 (Best Linear Unbiased Estimator, BLUE) 的性质。
模型设定与目标函数
考虑总体线性回归模型:
\begin{equation}
\[
y_i = \beta_0 + \beta_1 x_{i1} + \cdots + \beta_k x_{ik} + \varepsilon_i, \quad i = 1, \ldots, n
\]
\end{equation}
其矩阵形式为 y = X β + ε \mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon} y = X β + ε ,其中 y \mathbf{y} y 为 n × 1 n \times 1 n × 1 被解释变量向量,X \mathbf{X} X 为 n × ( k + 1 ) n \times (k+1) n × ( k + 1 ) 设计矩阵(第一列通常为全1向量),β \boldsymbol{\beta} β 为 ( k + 1 ) × 1 (k+1) \times 1 ( k + 1 ) × 1 系数向量,ε \boldsymbol{\varepsilon} ε 为误差项向量。
OLS 的目标是最小化残差平方和:
\begin{equation}
\(\text{RSS}\)(\(\boldsymbol{\beta}\)) = \(\sum_{i=1}^{n}\) (\(y_i\) - \(\mathbf{x}_i\)'\(\boldsymbol{\beta}\))^2 = (\(\mathbf{y}\) - \(\mathbf{X}\)\(\boldsymbol{\beta}\))'(\(\mathbf{y}\) - \(\mathbf{X}\)\(\boldsymbol{\beta}\))
\end{equation}
代数推导与正规方程
对 RSS 关于 β \boldsymbol{\beta} β 求一阶导数并设为零,得到正规方程 (Normal Equations):
\begin{equation}
\[
\frac{\partial \text{RSS}}{\partial \boldsymbol{\beta}} = -2\mathbf{X}'\mathbf{y} + 2\mathbf{X}'\mathbf{X}\boldsymbol{\beta} = 0 \quad \Rightarrow \quad \mathbf{X}'\mathbf{X}\boldsymbol{\beta} = \mathbf{X}'\mathbf{y}
\]
\end{equation}
在 X ′ X \mathbf{X}'\mathbf{X} X ′ X 可逆(即不存在完全多重共线性)的条件下,OLS 估计量为:
\begin{equation}
\(\hat\){\(\boldsymbol{\beta}\)}\_{\(\text{OLS}\)} = (\(\mathbf{X}\)'\(\mathbf{X}\))^{-1}\(\mathbf{X}\)'\(\mathbf{y}\)
\end{equation}
拟合值为 y ^ = X β ^ = P y \hat{\mathbf{y}} = \mathbf{X}\hat{\boldsymbol{\beta}} = \mathbf{P}\mathbf{y} y ^ = X β ^ = Py ,其中 P = X ( X ′ X ) − 1 X ′ \mathbf{P} = \mathbf{X}(\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}' P = X ( X ′ X ) − 1 X ′ 为投影矩阵 (Projection Matrix),将 y \mathbf{y} y 正交投影到 X \mathbf{X} X 的列空间上。残差向量 ε ^ = y − y ^ = ( I − P ) y = M y \hat{\boldsymbol{\varepsilon}} = \mathbf{y} - \hat{\mathbf{y}} = (\mathbf{I} - \mathbf{P})\mathbf{y} = \mathbf{M}\mathbf{y} ε ^ = y − y ^ = ( I − P ) y = My ,其中 M = I − P \mathbf{M} = \mathbf{I} - \mathbf{P} M = I − P 为残差生成矩阵 (Annihilator Matrix)。由构造可知 X ′ ε ^ = 0 \mathbf{X}'\hat{\boldsymbol{\varepsilon}} = \mathbf{0} X ′ ε ^ = 0 ,即残差与所有解释变量正交。
高斯-马尔可夫定理
在以下经典假设下,OLS 估计量具有最优线性无偏性 (BLUE):
线性性 (Linearity):模型关于参数是线性的,即 y = X β + ε y = \mathbf{X}\boldsymbol{\beta} + \varepsilon y = X β + ε 。严格外生性 (Strict Exogeneity):E [ ε i ∣ X ] = 0 \mathbb{E}[\varepsilon_i \mid \mathbf{X}] = 0 E [ ε i ∣ X ] = 0 对所有 i i i 成立。这意味着误差项与所有观测的解释变量不相关,是比同期外生性 (E [ ε i ∣ x i ] = 0 \mathbb{E}[\varepsilon_i \mid \mathbf{x}_i] = 0 E [ ε i ∣ x i ] = 0 ) 更强的条件。无完全多重共线性 (No Perfect Multicollinearity):X ′ X \mathbf{X}'\mathbf{X} X ′ X 满秩,即 rank ( X ) = k + 1 \text{rank}(\mathbf{X}) = k+1 rank ( X ) = k + 1 。球面误差方差 (Spherical Error Variance):Var ( ε ∣ X ) = σ 2 I n \text{Var}(\boldsymbol{\varepsilon} \mid \mathbf{X}) = \sigma^2 \mathbf{I}_n Var ( ε ∣ X ) = σ 2 I n ,即同方差 (Var ( ε i ) = σ 2 \text{Var}(\varepsilon_i) = \sigma^2 Var ( ε i ) = σ 2 ) 且无自相关 (Cov ( ε i , ε j ) = 0 \text{Cov}(\varepsilon_i, \varepsilon_j) = 0 Cov ( ε i , ε j ) = 0 对 i ≠ j i \neq j i = j )。
高斯-马尔可夫定理 (Gauss-Markov Theorem) 断言:在上述假设下,对任意线性无偏估计量 β ~ = C y \tilde{\boldsymbol{\beta}} = \mathbf{C}\mathbf{y} β ~ = Cy (满足 E [ β ~ ] = β \mathbb{E}[\tilde{\boldsymbol{\beta}}] = \boldsymbol{\beta} E [ β ~ ] = β ),Var ( β ^ OLS ) ≤ Var ( β ~ ) \text{Var}(\hat{\boldsymbol{\beta}}_{\text{OLS}}) \leq \text{Var}(\tilde{\boldsymbol{\beta}}) Var ( β ^ OLS ) ≤ Var ( β ~ ) 在矩阵意义上成立,即 β ^ OLS \hat{\boldsymbol{\beta}}_{\text{OLS}} β ^ OLS 具有最小方差。
OLS 估计量的有限样本性质为:
\begin{align}
\(\mathbb{E}\)[\(\hat\){\(\boldsymbol{\beta}\)} \mid \(\mathbf{X}\)] \&= \(\boldsymbol{\beta}\) \quad \(\text{(无偏性)}\) \\
\(\text{Var}\)(\(\hat\){\(\boldsymbol{\beta}\)} \mid \(\mathbf{X}\)) \&= \(\sigma^2\) (\(\mathbf{X}\)'\(\mathbf{X}\))^{-1}
\end{align}
误差方差的无偏估计量为 σ ^ 2 = ε ^ ′ ε ^ n − k − 1 = RSS n − k − 1 \hat{\sigma}^2 = \frac{\hat{\boldsymbol{\varepsilon}}'\hat{\boldsymbol{\varepsilon}}}{n - k - 1} = \frac{\text{RSS}}{n - k - 1} σ ^ 2 = n − k − 1 ε ^ ′ ε ^ = n − k − 1 RSS ,其中分母 n − k − 1 n - k - 1 n − k − 1 为自由度校正。
拟合优度
总平方和 (Total Sum of Squares, SST)、解释平方和 (Explained Sum of Squares, SSE) 和残差平方和 (RSS) 构成方差分解:
\begin{equation}
\underbrace{\(\sum_{i=1}^{n}\) (\(y_i\) - \(\bar{y}\))^2}\_{\(\text{SST}\)} = \underbrace{\(\sum_{i=1}^{n}\) (\(\hat{y}_i\) - \(\bar{y}\))^2}\_{\(\text{SSE}\)} + \underbrace{\(\sum_{i=1}^{n}\) \(\hat{\varepsilon}_i^2\)}\_{\(\text{RSS}\)}
\end{equation}
判定系数 R 2 = SSE / SST = 1 − RSS / SST R^2 = \text{SSE}/\text{SST} = 1 - \text{RSS}/\text{SST} R 2 = SSE / SST = 1 − RSS / SST 衡量模型对被解释变量变异的解释比例。由于增加变量时 R 2 R^2 R 2 永不下降,引入自由度调整的调整 R 2 R^2 R 2 :
\begin{equation}
\(\bar{R}^2\) = 1 - \(\frac\){\(\text{RSS}\) / (n - k - 1)}{\(\text{SST}\) / (n - 1)}
\end{equation}
假设检验
若进一步假设误差项服从正态分布 ε ∣ X ∼ N ( 0 , σ 2 I n ) \boldsymbol{\varepsilon} \mid \mathbf{X} \sim N(\mathbf{0}, \sigma^2 \mathbf{I}_n) ε ∣ X ∼ N ( 0 , σ 2 I n ) ,则可进行有限样本推断:
单个系数检验 :对 H 0 : β j = c H_0: \beta_j = c H 0 : β j = c ,使用 t t t 统计量 t = ( β ^ j − c ) / SE ( β ^ j ) ∼ t n − k − 1 t = (\hat{\beta}_j - c) / \text{SE}(\hat{\beta}_j) \sim t_{n-k-1} t = ( β ^ j − c ) / SE ( β ^ j ) ∼ t n − k − 1 。联合假设检验 :对线性约束 H 0 : R β = r H_0: \mathbf{R}\boldsymbol{\beta} = \mathbf{r} H 0 : R β = r ,使用 F F F 统计量。特别的,检验除截距外所有系数为零 (H 0 : β 1 = ⋯ = β k = 0 H_0: \beta_1 = \cdots = \beta_k = 0 H 0 : β 1 = ⋯ = β k = 0 ) 的总体显著性 F F F 检验等价于 F = R 2 / k ( 1 − R 2 ) / ( n − k − 1 ) F = \frac{R^2/k}{(1-R^2)/(n-k-1)} F = ( 1 − R 2 ) / ( n − k − 1 ) R 2 / k 。置信区间 :β ^ j ± t n − k − 1 , α / 2 ⋅ SE ( β ^ j ) \hat{\beta}_j \pm t_{n-k-1, \alpha/2} \cdot \text{SE}(\hat{\beta}_j) β ^ j ± t n − k − 1 , α /2 ⋅ SE ( β ^ j ) 。
大样本下,即使没有正态性假设,借助中心极限定理可证 β ^ → d N ( β , σ 2 Q − 1 ) \hat{\boldsymbol{\beta}} \xrightarrow{d} N(\boldsymbol{\beta}, \sigma^2 \mathbf{Q}^{-1}) β ^ d N ( β , σ 2 Q − 1 ) ,其中 Q = plim 1 n X ′ X \mathbf{Q} = \text{plim } \frac{1}{n}\mathbf{X}'\mathbf{X} Q = plim n 1 X ′ X ,因此可使用渐近正态推断。
常见问题与补救措施
异方差 (Heteroskedasticity):当 Var ( ε i ∣ X ) \text{Var}(\varepsilon_i \mid \mathbf{X}) Var ( ε i ∣ X ) 不是常数时,OLS 仍然无偏且一致,但标准误有偏,导致 t t t 检验和 F F F 检验失效。补救方案:(a) 使用 怀特 (White, 1980) 异方差稳健标准误;(b) 采用加权最小二乘法 (WLS) 或可行广义最小二乘法 (FGLS)。自相关 (Autocorrelation):常见于时间序列数据,Cov ( ε t , ε t − 1 ) ≠ 0 \text{Cov}(\varepsilon_t, \varepsilon_{t-1}) \neq 0 Cov ( ε t , ε t − 1 ) = 0 。德宾-沃森 (Durbin-Watson) 统计量用于检验一阶自相关。补救方案包括尼威-韦斯特 (Newey-West) HAC 标准误或Cochrane-Orcutt 迭代。多重共线性 (Multicollinearity):解释变量间高度相关导致 ( X ′ X ) − 1 (\mathbf{X}'\mathbf{X})^{-1} ( X ′ X ) − 1 对角元素膨胀,系数标准误增大,估计不稳定。通过方差膨胀因子 (VIF) 诊断。补救方案:增删变量、主成分回归 或岭回归 。内生性 (Endogeneity):当 E [ x i ε i ] ≠ 0 \mathbb{E}[\mathbf{x}_i \varepsilon_i] \neq \mathbf{0} E [ x i ε i ] = 0 时,OLS 不一致。内生性的三大经典来源:(a) 遗漏变量 :与解释变量相关且影响 y y y 的变量未纳入模型;(b) 测量误差 :解释变量存在测量误差时产生衰减偏误 (Attenuation Bias);(c) 联立性 :y y y 与 x \mathbf{x} x 互为因果。解决方案为工具变量法 (IV) / 两阶段最小二乘法 (2SLS),其关键在于寻找满足相关性和外生性的有效工具变量。异常值与杠杆点 :个别观测可能过度影响回归结果。通过库克距离 (Cook's Distance)、DFBETAS 和学生化残差进行诊断。
几何解释与弗里希-沃-洛弗尔定理
OLS 有清晰的几何含义:y ^ = P y \hat{\mathbf{y}} = \mathbf{P}\mathbf{y} y ^ = Py 是 y \mathbf{y} y 在 X \mathbf{X} X 列空间 C ( X ) \mathcal{C}(\mathbf{X}) C ( X ) 上的正交投影。残差 ε ^ \hat{\boldsymbol{\varepsilon}} ε ^ 垂直于 C ( X ) \mathcal{C}(\mathbf{X}) C ( X ) ,因此 ε ^ ⊥ y ^ \hat{\boldsymbol{\varepsilon}} \perp \hat{\mathbf{y}} ε ^ ⊥ y ^ 。这一正交分解是方差分解 SST = SSE + RSS 的几何基础。
弗里希-沃-洛弗尔定理 (Frisch-Waugh-Lovell Theorem) 进一步揭示了多元回归的结构:在模型 y = X 1 β 1 + X 2 β 2 + ε \mathbf{y} = \mathbf{X}_1\boldsymbol{\beta}_1 + \mathbf{X}_2\boldsymbol{\beta}_2 + \boldsymbol{\varepsilon} y = X 1 β 1 + X 2 β 2 + ε 中,β ^ 2 \hat{\boldsymbol{\beta}}_2 β ^ 2 等价于先用 X 1 \mathbf{X}_1 X 1 分别对 y \mathbf{y} y 和 X 2 \mathbf{X}_2 X 2 的每一列做回归取残差,再将 y \mathbf{y} y 的残差对 X 2 \mathbf{X}_2 X 2 的残差做回归所得的系数。用残差生成矩阵表达:若 M 1 = I − X 1 ( X 1 ′ X 1 ) − 1 X 1 ′ \mathbf{M}_1 = \mathbf{I} - \mathbf{X}_1(\mathbf{X}_1'\mathbf{X}_1)^{-1}\mathbf{X}_1' M 1 = I − X 1 ( X 1 ′ X 1 ) − 1 X 1 ′ ,则 β ^ 2 = ( X 2 ′ M 1 X 2 ) − 1 X 2 ′ M 1 y \hat{\boldsymbol{\beta}}_2 = (\mathbf{X}_2'\mathbf{M}_1\mathbf{X}_2)^{-1}\mathbf{X}_2'\mathbf{M}_1\mathbf{y} β ^ 2 = ( X 2 ′ M 1 X 2 ) − 1 X 2 ′ M 1 y 。这一定理深刻说明了"控制其他变量不变"在代数和几何上的确切含义,也是理解固定效应估计量和去均值回归的理论基础。
拓展与变体
加权最小二乘法 (WLS) :当异方差形式已知时,对观测进行加权以获得有效估计。广义最小二乘法 (GLS) :当 Var ( ε ) = σ 2 Ω \text{Var}(\boldsymbol{\varepsilon}) = \sigma^2 \boldsymbol{\Omega} Var ( ε ) = σ 2 Ω 时,β ^ GLS = ( X ′ Ω − 1 X ) − 1 X ′ Ω − 1 y \hat{\boldsymbol{\beta}}_{\text{GLS}} = (\mathbf{X}'\boldsymbol{\Omega}^{-1}\mathbf{X})^{-1}\mathbf{X}'\boldsymbol{\Omega}^{-1}\mathbf{y} β ^ GLS = ( X ′ Ω − 1 X ) − 1 X ′ Ω − 1 y 是 BLUE。岭回归 (Ridge) 与 Lasso :在 X ′ X \mathbf{X}'\mathbf{X} X ′ X 近奇异时引入惩罚项,以偏差换取方差缩减,是处理高维数据的基本方法。分位数回归 :最小化非对称绝对损失,估计条件分位数而非条件均值,对异常值稳健。
经济学应用与局限
OLS 是计量经济学 的基石,其应用贯穿经济学各个领域。在劳动经济学中,明瑟收入方程 以受教育年限和工作经验的对数线性形式估计教育回报率,是 OLS 最经典的实证范式之一。在金融学中,资本资产定价模型 (CAPM) 通过将资产超额收益对市场超额收益做 OLS 回归来估计系统风险系数 β \beta β 。在宏观经济学中,菲利普斯曲线 的经验检验、消费函数的估计以及增长回归 (Barro 回归) 均大量依赖 OLS。
在因果推断 框架下,OLS 与潜在结果框架的衔接尤为关键。在条件独立假设 (CIA) 下——即 { Y ( 0 ) , Y ( 1 ) } ⊥ D ∣ X \{Y(0), Y(1)\} \perp D \mid \mathbf{X} { Y ( 0 ) , Y ( 1 )} ⊥ D ∣ X ,OLS 系数可解释为条件平均处理效应的加权平均。然而,当处理效应存在异质性时,OLS 估计的是方差加权的处理效应,可能与研究人员关心的无条件平均处理效应 (ATE) 或处理组平均处理效应 (ATT) 存在差异。这一识别细节在安格里斯特 和皮施克 (Angrist \& Pischke, 2009) 的"无害计量经济学"传统中得到了系统阐述。
OLS 的核心局限在于严格外生性的要求。在观测性经济数据中,个体根据预期收益自我选择处理状态(自选择偏差),或存在不可观测的混淆因素时,OLS 不再一致。此时研究者需转向 IV、双重差分 (DiD)、断点回归设计 (RDD)、合成控制法 或固定效应面板模型 等识别策略。然而,OLS 作为所有计量方法中理解"控制其他变量不变"这一思想的出发点,以及更复杂估计量的渐近基准,其教学和理论地位不可动摇。