ARTICLE

普通最小二乘法 (Ordinary Least Squares, OLS)

普通最小二乘法 (Ordinary Least Squares, OLS) 普通最小二乘法是估计线性回归模型未知参数的核心方法,由高斯 (Carl Friedrich Gauss) 和勒让德 (Adrien-Marie Legendre) 在19世纪初独立提出。其基本思想是:选择回归系数使得残差平方和 (Residual Sum of Squares, RS

浏览 0 更新 2025-12-15

普通最小二乘法 (Ordinary Least Squares, OLS)

普通最小二乘法是估计线性回归模型未知参数的核心方法,由高斯 (Carl Friedrich Gauss) 和勒让德 (Adrien-Marie Legendre) 在19世纪初独立提出。其基本思想是:选择回归系数使得残差平方和 (Residual Sum of Squares, RSS) 最小化。在经典线性回归假设下,OLS 估计量具有最优线性无偏估计 (Best Linear Unbiased Estimator, BLUE) 的性质。

模型设定与目标函数

考虑总体线性回归模型:

\begin{equation} \[ y_i = \beta_0 + \beta_1 x_{i1} + \cdots + \beta_k x_{ik} + \varepsilon_i, \quad i = 1, \ldots, n \] \end{equation}

其矩阵形式为 y=Xβ+ε \mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon} ,其中 y \mathbf{y} n×1 n \times 1 被解释变量向量,X \mathbf{X} n×(k+1) n \times (k+1) 设计矩阵(第一列通常为全1向量),β \boldsymbol{\beta} (k+1)×1 (k+1) \times 1 系数向量,ε \boldsymbol{\varepsilon} 为误差项向量。

OLS 的目标是最小化残差平方和:

\begin{equation} \(\text{RSS}\)(\(\boldsymbol{\beta}\)) = \(\sum_{i=1}^{n}\) (\(y_i\) - \(\mathbf{x}_i\)'\(\boldsymbol{\beta}\))^2 = (\(\mathbf{y}\) - \(\mathbf{X}\)\(\boldsymbol{\beta}\))'(\(\mathbf{y}\) - \(\mathbf{X}\)\(\boldsymbol{\beta}\)) \end{equation}

代数推导与正规方程

对 RSS 关于 β \boldsymbol{\beta} 求一阶导数并设为零,得到正规方程 (Normal Equations):

\begin{equation} \[ \frac{\partial \text{RSS}}{\partial \boldsymbol{\beta}} = -2\mathbf{X}'\mathbf{y} + 2\mathbf{X}'\mathbf{X}\boldsymbol{\beta} = 0 \quad \Rightarrow \quad \mathbf{X}'\mathbf{X}\boldsymbol{\beta} = \mathbf{X}'\mathbf{y} \] \end{equation}

XX \mathbf{X}'\mathbf{X} 可逆(即不存在完全多重共线性)的条件下,OLS 估计量为:

\begin{equation} \(\hat\){\(\boldsymbol{\beta}\)}\_{\(\text{OLS}\)} = (\(\mathbf{X}\)'\(\mathbf{X}\))^{-1}\(\mathbf{X}\)'\(\mathbf{y}\) \end{equation}

拟合值为 y^=Xβ^=Py \hat{\mathbf{y}} = \mathbf{X}\hat{\boldsymbol{\beta}} = \mathbf{P}\mathbf{y} ,其中 P=X(XX)1X \mathbf{P} = \mathbf{X}(\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}' 为投影矩阵 (Projection Matrix),将 y \mathbf{y} 正交投影到 X \mathbf{X} 的列空间上。残差向量 ε^=yy^=(IP)y=My \hat{\boldsymbol{\varepsilon}} = \mathbf{y} - \hat{\mathbf{y}} = (\mathbf{I} - \mathbf{P})\mathbf{y} = \mathbf{M}\mathbf{y} ,其中 M=IP \mathbf{M} = \mathbf{I} - \mathbf{P} 为残差生成矩阵 (Annihilator Matrix)。由构造可知 Xε^=0 \mathbf{X}'\hat{\boldsymbol{\varepsilon}} = \mathbf{0} ,即残差与所有解释变量正交。

高斯-马尔可夫定理

在以下经典假设下,OLS 估计量具有最优线性无偏性 (BLUE):

  1. 线性性 (Linearity):模型关于参数是线性的,即 y=Xβ+ε y = \mathbf{X}\boldsymbol{\beta} + \varepsilon
  2. 严格外生性 (Strict Exogeneity):E[εiX]=0 \mathbb{E}[\varepsilon_i \mid \mathbf{X}] = 0 对所有 i i 成立。这意味着误差项与所有观测的解释变量不相关,是比同期外生性 (E[εixi]=0 \mathbb{E}[\varepsilon_i \mid \mathbf{x}_i] = 0 ) 更强的条件。
  3. 无完全多重共线性 (No Perfect Multicollinearity):XX \mathbf{X}'\mathbf{X} 满秩,即 rank(X)=k+1 \text{rank}(\mathbf{X}) = k+1
  4. 球面误差方差 (Spherical Error Variance):Var(εX)=σ2In \text{Var}(\boldsymbol{\varepsilon} \mid \mathbf{X}) = \sigma^2 \mathbf{I}_n ,即同方差 (Var(εi)=σ2 \text{Var}(\varepsilon_i) = \sigma^2 ) 且无自相关 (Cov(εi,εj)=0 \text{Cov}(\varepsilon_i, \varepsilon_j) = 0 ij i \neq j )。

高斯-马尔可夫定理 (Gauss-Markov Theorem) 断言:在上述假设下,对任意线性无偏估计量 β~=Cy \tilde{\boldsymbol{\beta}} = \mathbf{C}\mathbf{y} (满足 E[β~]=β \mathbb{E}[\tilde{\boldsymbol{\beta}}] = \boldsymbol{\beta} ),Var(β^OLS)Var(β~) \text{Var}(\hat{\boldsymbol{\beta}}_{\text{OLS}}) \leq \text{Var}(\tilde{\boldsymbol{\beta}}) 在矩阵意义上成立,即 β^OLS \hat{\boldsymbol{\beta}}_{\text{OLS}} 具有最小方差。

OLS 估计量的有限样本性质为:

\begin{align} \(\mathbb{E}\)[\(\hat\){\(\boldsymbol{\beta}\)} \mid \(\mathbf{X}\)] \&= \(\boldsymbol{\beta}\) \quad \(\text{(无偏性)}\) \\ \(\text{Var}\)(\(\hat\){\(\boldsymbol{\beta}\)} \mid \(\mathbf{X}\)) \&= \(\sigma^2\) (\(\mathbf{X}\)'\(\mathbf{X}\))^{-1} \end{align}

误差方差的无偏估计量为 σ^2=ε^ε^nk1=RSSnk1 \hat{\sigma}^2 = \frac{\hat{\boldsymbol{\varepsilon}}'\hat{\boldsymbol{\varepsilon}}}{n - k - 1} = \frac{\text{RSS}}{n - k - 1} ,其中分母 nk1 n - k - 1 为自由度校正。

拟合优度

总平方和 (Total Sum of Squares, SST)、解释平方和 (Explained Sum of Squares, SSE) 和残差平方和 (RSS) 构成方差分解:

\begin{equation} \underbrace{\(\sum_{i=1}^{n}\) (\(y_i\) - \(\bar{y}\))^2}\_{\(\text{SST}\)} = \underbrace{\(\sum_{i=1}^{n}\) (\(\hat{y}_i\) - \(\bar{y}\))^2}\_{\(\text{SSE}\)} + \underbrace{\(\sum_{i=1}^{n}\) \(\hat{\varepsilon}_i^2\)}\_{\(\text{RSS}\)} \end{equation}

判定系数 R2=SSE/SST=1RSS/SST R^2 = \text{SSE}/\text{SST} = 1 - \text{RSS}/\text{SST} 衡量模型对被解释变量变异的解释比例。由于增加变量时 R2 R^2 永不下降,引入自由度调整的调整 R2 R^2

\begin{equation} \(\bar{R}^2\) = 1 - \(\frac\){\(\text{RSS}\) / (n - k - 1)}{\(\text{SST}\) / (n - 1)} \end{equation}

假设检验

若进一步假设误差项服从正态分布 εXN(0,σ2In) \boldsymbol{\varepsilon} \mid \mathbf{X} \sim N(\mathbf{0}, \sigma^2 \mathbf{I}_n) ,则可进行有限样本推断:

  • 单个系数检验:对 H0:βj=c H_0: \beta_j = c ,使用 t t 统计量 t=(β^jc)/SE(β^j)tnk1 t = (\hat{\beta}_j - c) / \text{SE}(\hat{\beta}_j) \sim t_{n-k-1}
  • 联合假设检验:对线性约束 H0:Rβ=r H_0: \mathbf{R}\boldsymbol{\beta} = \mathbf{r} ,使用 F F 统计量。特别的,检验除截距外所有系数为零 (H0:β1==βk=0 H_0: \beta_1 = \cdots = \beta_k = 0 ) 的总体显著性 F F 检验等价于 F=R2/k(1R2)/(nk1) F = \frac{R^2/k}{(1-R^2)/(n-k-1)}
  • 置信区间β^j±tnk1,α/2SE(β^j) \hat{\beta}_j \pm t_{n-k-1, \alpha/2} \cdot \text{SE}(\hat{\beta}_j)

大样本下,即使没有正态性假设,借助中心极限定理可证 β^dN(β,σ2Q1) \hat{\boldsymbol{\beta}} \xrightarrow{d} N(\boldsymbol{\beta}, \sigma^2 \mathbf{Q}^{-1}) ,其中 Q=plim 1nXX \mathbf{Q} = \text{plim } \frac{1}{n}\mathbf{X}'\mathbf{X} ,因此可使用渐近正态推断。

常见问题与补救措施

  1. 异方差 (Heteroskedasticity):当 Var(εiX) \text{Var}(\varepsilon_i \mid \mathbf{X}) 不是常数时,OLS 仍然无偏且一致,但标准误有偏,导致 t t 检验和 F F 检验失效。补救方案:(a) 使用 怀特 (White, 1980) 异方差稳健标准误;(b) 采用加权最小二乘法 (WLS) 或可行广义最小二乘法 (FGLS)。
  2. 自相关 (Autocorrelation):常见于时间序列数据,Cov(εt,εt1)0 \text{Cov}(\varepsilon_t, \varepsilon_{t-1}) \neq 0 德宾-沃森 (Durbin-Watson) 统计量用于检验一阶自相关。补救方案包括尼威-韦斯特 (Newey-West) HAC 标准误或Cochrane-Orcutt 迭代。
  3. 多重共线性 (Multicollinearity):解释变量间高度相关导致 (XX)1 (\mathbf{X}'\mathbf{X})^{-1} 对角元素膨胀,系数标准误增大,估计不稳定。通过方差膨胀因子 (VIF) 诊断。补救方案:增删变量、主成分回归岭回归
  4. 内生性 (Endogeneity):当 E[xiεi]0 \mathbb{E}[\mathbf{x}_i \varepsilon_i] \neq \mathbf{0} 时,OLS 不一致。内生性的三大经典来源:(a) 遗漏变量:与解释变量相关且影响 y y 的变量未纳入模型;(b) 测量误差:解释变量存在测量误差时产生衰减偏误 (Attenuation Bias);(c) 联立性y y x \mathbf{x} 互为因果。解决方案为工具变量法 (IV) / 两阶段最小二乘法 (2SLS),其关键在于寻找满足相关性和外生性的有效工具变量。
  5. 异常值与杠杆点:个别观测可能过度影响回归结果。通过库克距离 (Cook's Distance)、DFBETAS 和学生化残差进行诊断。

几何解释与弗里希-沃-洛弗尔定理

OLS 有清晰的几何含义:y^=Py \hat{\mathbf{y}} = \mathbf{P}\mathbf{y} y \mathbf{y} X \mathbf{X} 列空间 C(X) \mathcal{C}(\mathbf{X}) 上的正交投影。残差 ε^ \hat{\boldsymbol{\varepsilon}} 垂直于 C(X) \mathcal{C}(\mathbf{X}) ,因此 ε^y^ \hat{\boldsymbol{\varepsilon}} \perp \hat{\mathbf{y}} 。这一正交分解是方差分解 SST = SSE + RSS 的几何基础。

弗里希-沃-洛弗尔定理 (Frisch-Waugh-Lovell Theorem) 进一步揭示了多元回归的结构:在模型 y=X1β1+X2β2+ε \mathbf{y} = \mathbf{X}_1\boldsymbol{\beta}_1 + \mathbf{X}_2\boldsymbol{\beta}_2 + \boldsymbol{\varepsilon} 中,β^2 \hat{\boldsymbol{\beta}}_2 等价于先用 X1 \mathbf{X}_1 分别对 y \mathbf{y} X2 \mathbf{X}_2 的每一列做回归取残差,再将 y \mathbf{y} 的残差对 X2 \mathbf{X}_2 的残差做回归所得的系数。用残差生成矩阵表达:若 M1=IX1(X1X1)1X1 \mathbf{M}_1 = \mathbf{I} - \mathbf{X}_1(\mathbf{X}_1'\mathbf{X}_1)^{-1}\mathbf{X}_1' ,则 β^2=(X2M1X2)1X2M1y \hat{\boldsymbol{\beta}}_2 = (\mathbf{X}_2'\mathbf{M}_1\mathbf{X}_2)^{-1}\mathbf{X}_2'\mathbf{M}_1\mathbf{y} 。这一定理深刻说明了"控制其他变量不变"在代数和几何上的确切含义,也是理解固定效应估计量和去均值回归的理论基础。

拓展与变体

  • 加权最小二乘法 (WLS):当异方差形式已知时,对观测进行加权以获得有效估计。
  • 广义最小二乘法 (GLS):当 Var(ε)=σ2Ω \text{Var}(\boldsymbol{\varepsilon}) = \sigma^2 \boldsymbol{\Omega} 时,β^GLS=(XΩ1X)1XΩ1y \hat{\boldsymbol{\beta}}_{\text{GLS}} = (\mathbf{X}'\boldsymbol{\Omega}^{-1}\mathbf{X})^{-1}\mathbf{X}'\boldsymbol{\Omega}^{-1}\mathbf{y} 是 BLUE。
  • 岭回归 (Ridge)Lasso:在 XX \mathbf{X}'\mathbf{X} 近奇异时引入惩罚项,以偏差换取方差缩减,是处理高维数据的基本方法。
  • 分位数回归:最小化非对称绝对损失,估计条件分位数而非条件均值,对异常值稳健。

经济学应用与局限

OLS 是计量经济学的基石,其应用贯穿经济学各个领域。在劳动经济学中,明瑟收入方程以受教育年限和工作经验的对数线性形式估计教育回报率,是 OLS 最经典的实证范式之一。在金融学中,资本资产定价模型 (CAPM) 通过将资产超额收益对市场超额收益做 OLS 回归来估计系统风险系数 β \beta 。在宏观经济学中,菲利普斯曲线的经验检验、消费函数的估计以及增长回归 (Barro 回归) 均大量依赖 OLS。

因果推断框架下,OLS 与潜在结果框架的衔接尤为关键。在条件独立假设 (CIA) 下——即 {Y(0),Y(1)}DX \{Y(0), Y(1)\} \perp D \mid \mathbf{X} ,OLS 系数可解释为条件平均处理效应的加权平均。然而,当处理效应存在异质性时,OLS 估计的是方差加权的处理效应,可能与研究人员关心的无条件平均处理效应 (ATE) 或处理组平均处理效应 (ATT) 存在差异。这一识别细节在安格里斯特皮施克 (Angrist \& Pischke, 2009) 的"无害计量经济学"传统中得到了系统阐述。

OLS 的核心局限在于严格外生性的要求。在观测性经济数据中,个体根据预期收益自我选择处理状态(自选择偏差),或存在不可观测的混淆因素时,OLS 不再一致。此时研究者需转向 IV、双重差分 (DiD)、断点回归设计 (RDD)、合成控制法固定效应面板模型等识别策略。然而,OLS 作为所有计量方法中理解"控制其他变量不变"这一思想的出发点,以及更复杂估计量的渐近基准,其教学和理论地位不可动摇。