最小二乘法 (Ordinary Least Squares, OLS)
最小二乘法 (Ordinary Least Squares,简称 OLS)是计量经济学 和统计学 中最基础、应用最广泛的参数估计方法。其核心思想是:在线性回归模型 的框架下,通过最小化残差平方和(Sum of Squared Residuals, SSR)来寻找回归系数的最优估计量。OLS 不仅是理解更复杂估计方法(如广义最小二乘法 、最大似然估计 、工具变量法 )的理论起点,也是实证研究中默认的基准估计策略。
核心思想与几何直觉
给定一组观测数据 { ( Y i , X i 1 , … , X i k ) } i = 1 n \{(Y_i, X_{i1}, \dots, X_{ik})\}_{i=1}^n {( Y i , X i 1 , … , X ik ) } i = 1 n ,我们假设因变量 Y i Y_i Y i 与自变量 X i 1 , … , X i k X_{i1}, \dots, X_{ik} X i 1 , … , X ik 之间存在线性关系:
Y i = β 0 + β 1 X i 1 + ⋯ + β k X i k + u i , i = 1 , … , n Y_i = \beta_0 + \beta_1 X_{i1} + \cdots + \beta_k X_{ik} + u_i, \quad i = 1, \dots, n Y i = β 0 + β 1 X i 1 + ⋯ + β k X ik + u i , i = 1 , … , n
其中 u i u_i u i 为不可观测的扰动项(误差项)。OLS 的目标是找到一组系数 β ^ 0 , β ^ 1 , … , β ^ k \hat{\beta}_0, \hat{\beta}_1, \dots, \hat{\beta}_k β ^ 0 , β ^ 1 , … , β ^ k ,使得拟合值 Y ^ i = β ^ 0 + β ^ 1 X i 1 + ⋯ + β ^ k X i k \hat{Y}_i = \hat{\beta}_0 + \hat{\beta}_1 X_{i1} + \cdots + \hat{\beta}_k X_{ik} Y ^ i = β ^ 0 + β ^ 1 X i 1 + ⋯ + β ^ k X ik 与实际观测值 Y i Y_i Y i 之间差距的平方和最小:
min β ^ 0 , … , β ^ k ∑ i = 1 n ( Y i − Y ^ i ) 2 = min β ^ 0 , … , β ^ k ∑ i = 1 n u ^ i 2 \min_{\hat{\beta}_0, \dots, \hat{\beta}_k} \sum_{i=1}^n \left(Y_i - \hat{Y}_i\right)^2 = \min_{\hat{\beta}_0, \dots, \hat{\beta}_k} \sum_{i=1}^n \hat{u}_i^2 β ^ 0 , … , β ^ k min i = 1 ∑ n ( Y i − Y ^ i ) 2 = β ^ 0 , … , β ^ k min i = 1 ∑ n u ^ i 2
其中 u ^ i = Y i − Y ^ i \hat{u}_i = Y_i - \hat{Y}_i u ^ i = Y i − Y ^ i 称为残差。从几何角度看,OLS 等价于在 n n n 维观测空间中,将因变量向量 Y \mathbf{Y} Y 投影到由自变量列向量张成的子空间上,残差向量 u ^ \hat{\mathbf{u}} u ^ 与该子空间正交。这一正交性条件直接导出 OLS 的正规方程组。
一元线性回归的推导
在最简单的一元情形 Y i = β 0 + β 1 X i + u i Y_i = \beta_0 + \beta_1 X_i + u_i Y i = β 0 + β 1 X i + u i 中,最小化目标函数 S ( β ^ 0 , β ^ 1 ) = ∑ i = 1 n ( Y i − β ^ 0 − β ^ 1 X i ) 2 S(\hat{\beta}_0, \hat{\beta}_1) = \sum_{i=1}^n (Y_i - \hat{\beta}_0 - \hat{\beta}_1 X_i)^2 S ( β ^ 0 , β ^ 1 ) = ∑ i = 1 n ( Y i − β ^ 0 − β ^ 1 X i ) 2 。对 β ^ 0 \hat{\beta}_0 β ^ 0 和 β ^ 1 \hat{\beta}_1 β ^ 1 分别求一阶导数并令其为零:
∂ S ∂ β ^ 0 = − 2 ∑ i = 1 n ( Y i − β ^ 0 − β ^ 1 X i ) = 0 \frac{\partial S}{\partial \hat{\beta}_0} = -2\sum_{i=1}^n (Y_i - \hat{\beta}_0 - \hat{\beta}_1 X_i) = 0 ∂ β ^ 0 ∂ S = − 2 i = 1 ∑ n ( Y i − β ^ 0 − β ^ 1 X i ) = 0
∂ S ∂ β ^ 1 = − 2 ∑ i = 1 n X i ( Y i − β ^ 0 − β ^ 1 X i ) = 0 \frac{\partial S}{\partial \hat{\beta}_1} = -2\sum_{i=1}^n X_i(Y_i - \hat{\beta}_0 - \hat{\beta}_1 X_i) = 0 ∂ β ^ 1 ∂ S = − 2 i = 1 ∑ n X i ( Y i − β ^ 0 − β ^ 1 X i ) = 0
解此正规方程组,得到著名的 OLS 估计量:
β ^ 1 = ∑ i = 1 n ( X i − X ˉ ) ( Y i − Y ˉ ) ∑ i = 1 n ( X i − X ˉ ) 2 = Cov ^ ( X , Y ) Var ^ ( X ) \hat{\beta}_1 = \frac{\sum_{i=1}^n (X_i - \bar{X})(Y_i - \bar{Y})}{\sum_{i=1}^n (X_i - \bar{X})^2} = \frac{\widehat{\operatorname{Cov}}(X, Y)}{\widehat{\operatorname{Var}}(X)} β ^ 1 = ∑ i = 1 n ( X i − X ˉ ) 2 ∑ i = 1 n ( X i − X ˉ ) ( Y i − Y ˉ ) = Var ( X ) Cov ( X , Y )
β ^ 0 = Y ˉ − β ^ 1 X ˉ \hat{\beta}_0 = \bar{Y} - \hat{\beta}_1 \bar{X} β ^ 0 = Y ˉ − β ^ 1 X ˉ
斜率估计量 β ^ 1 \hat{\beta}_1 β ^ 1 具有直观的经济含义:X X X 每变动一个单位,Y Y Y 平均变动 β ^ 1 \hat{\beta}_1 β ^ 1 个单位。截距 β ^ 0 \hat{\beta}_0 β ^ 0 确保回归线通过样本均值点 ( X ˉ , Y ˉ ) (\bar{X}, \bar{Y}) ( X ˉ , Y ˉ ) 。
矩阵形式的OLS
对于多元回归,使用矩阵代数可以给出简洁的表示。令 Y \mathbf{Y} Y 为 n × 1 n \times 1 n × 1 因变量向量,X \mathbf{X} X 为 n × ( k + 1 ) n \times (k+1) n × ( k + 1 ) 设计矩阵(第一列全为 1,对应截距项),β \boldsymbol{\beta} β 为 ( k + 1 ) × 1 (k+1) \times 1 ( k + 1 ) × 1 参数向量,u \mathbf{u} u 为扰动项向量。模型写为:
Y = X β + u \mathbf{Y} = \mathbf{X}\boldsymbol{\beta} + \mathbf{u} Y = X β + u
残差平方和为 u ^ ′ u ^ = ( Y − X β ^ ) ′ ( Y − X β ^ ) \hat{\mathbf{u}}'\hat{\mathbf{u}} = (\mathbf{Y} - \mathbf{X}\hat{\boldsymbol{\beta}})'(\mathbf{Y} - \mathbf{X}\hat{\boldsymbol{\beta}}) u ^ ′ u ^ = ( Y − X β ^ ) ′ ( Y − X β ^ ) 。对 β ^ \hat{\boldsymbol{\beta}} β ^ 求导并令其为零向量,得到正规方程:
X ′ X β ^ = X ′ Y \mathbf{X}'\mathbf{X}\hat{\boldsymbol{\beta}} = \mathbf{X}'\mathbf{Y} X ′ X β ^ = X ′ Y
假设 X ′ X \mathbf{X}'\mathbf{X} X ′ X 可逆(即无完全多重共线性),则 OLS 估计量的矩阵表达式为:
β ^ = ( X ′ X ) − 1 X ′ Y \hat{\boldsymbol{\beta}} = (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{Y} β ^ = ( X ′ X ) − 1 X ′ Y
这一紧凑形式是所有后续推导的基础。矩阵 P = X ( X ′ X ) − 1 X ′ \mathbf{P} = \mathbf{X}(\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}' P = X ( X ′ X ) − 1 X ′ 被称为投影矩阵(或"帽子矩阵"),因为 Y ^ = P Y \hat{\mathbf{Y}} = \mathbf{P}\mathbf{Y} Y ^ = PY ;而 M = I − P \mathbf{M} = \mathbf{I} - \mathbf{P} M = I − P 是残差生成矩阵,满足 u ^ = M Y \hat{\mathbf{u}} = \mathbf{M}\mathbf{Y} u ^ = MY 。
高斯-马尔可夫定理
在满足以下经典线性回归模型假设的条件下,OLS 估计量是最佳线性无偏估计量 (Best Linear Unbiased Estimator, BLUE):
线性性: 模型关于参数是线性的,即 Y i = β 0 + β 1 X i 1 + ⋯ + β k X i k + u i Y_i = \beta_0 + \beta_1 X_{i1} + \cdots + \beta_k X_{ik} + u_i Y i = β 0 + β 1 X i 1 + ⋯ + β k X ik + u i 。随机抽样: 观测样本 { ( Y i , X i 1 , … , X i k ) } \{(Y_i, X_{i1}, \dots, X_{ik})\} {( Y i , X i 1 , … , X ik )} 是从总体中随机抽取的。无完全多重共线性: 自变量之间不存在精确的线性关系,即 X ′ X \mathbf{X}'\mathbf{X} X ′ X 满秩可逆。零条件均值: E [ u i ∣ X i 1 , … , X i k ] = 0 E[u_i \mid X_{i1}, \dots, X_{ik}] = 0 E [ u i ∣ X i 1 , … , X ik ] = 0 。这是最关键的外生性假设,保证了解释变量与扰动项不相关。同方差性: Var ( u i ∣ X i 1 , … , X i k ) = σ 2 \operatorname{Var}(u_i \mid X_{i1}, \dots, X_{ik}) = \sigma^2 Var ( u i ∣ X i 1 , … , X ik ) = σ 2 (常数方差)。
若假设 1-4 成立,OLS 是无偏且一致的。若假设 5 也成立,则 OLS 在所有线性无偏估计量中具有最小方差,即高斯-马尔可夫定理成立。若同方差假设被违背(即存在异方差性 ),OLS 仍然无偏且一致,但不再是有效的;此时应使用异方差稳健标准误(如White 标准误 )进行推断。
OLS 估计量的统计性质
方差-协方差矩阵
在假设 1-5 下,OLS 估计量的方差-协方差矩阵为:
Var ( β ^ ∣ X ) = σ 2 ( X ′ X ) − 1 \operatorname{Var}(\hat{\boldsymbol{\beta}} \mid \mathbf{X}) = \sigma^2 (\mathbf{X}'\mathbf{X})^{-1} Var ( β ^ ∣ X ) = σ 2 ( X ′ X ) − 1
其中 σ 2 \sigma^2 σ 2 是扰动项方差的无偏估计量:σ ^ 2 = u ^ ′ u ^ n − k − 1 = SSR n − k − 1 \hat{\sigma}^2 = \frac{\hat{\mathbf{u}}'\hat{\mathbf{u}}}{n - k - 1} = \frac{\text{SSR}}{n - k - 1} σ ^ 2 = n − k − 1 u ^ ′ u ^ = n − k − 1 SSR 。分母中的 n − k − 1 n - k - 1 n − k − 1 是自由度修正。单个系数 β ^ j \hat{\beta}_j β ^ j 的标准误为 SE ( β ^ j ) = σ ^ [ ( X ′ X ) − 1 ] j j \operatorname{SE}(\hat{\beta}_j) = \hat{\sigma} \sqrt{[(\mathbf{X}'\mathbf{X})^{-1}]_{jj}} SE ( β ^ j ) = σ ^ [( X ′ X ) − 1 ] jj 。
拟合优度:R 2 R^2 R 2
决定系数 R 2 R^2 R 2 衡量模型对数据变异的解释比例:
R 2 = 1 − SSR SST = 1 − ∑ i = 1 n u ^ i 2 ∑ i = 1 n ( Y i − Y ˉ ) 2 R^2 = 1 - \frac{\text{SSR}}{\text{SST}} = 1 - \frac{\sum_{i=1}^n \hat{u}_i^2}{\sum_{i=1}^n (Y_i - \bar{Y})^2} R 2 = 1 − SST SSR = 1 − ∑ i = 1 n ( Y i − Y ˉ ) 2 ∑ i = 1 n u ^ i 2
R 2 R^2 R 2 的取值范围为 [ 0 , 1 ] [0, 1] [ 0 , 1 ] ,越接近 1 表示模型拟合越好。然而,R 2 R^2 R 2 的一个缺陷是:只要向模型中加入任何新变量(即使与 Y Y Y 无关),R 2 R^2 R 2 都不会下降。调整后 R 方 (R ˉ 2 = 1 − SSR / ( n − k − 1 ) SST / ( n − 1 ) \bar{R}^2 = 1 - \frac{\text{SSR}/(n-k-1)}{\text{SST}/(n-1)} R ˉ 2 = 1 − SST / ( n − 1 ) SSR / ( n − k − 1 ) )通过自由度惩罚额外变量,是更合理的模型比较指标。
OLSE 的大样本性质
在小样本假设之外,OLS 估计量还具有优良的大样本(渐近)性质。在假设 1-4 成立(不强求同方差和正态性)时:
一致性: β ^ → p β \hat{\boldsymbol{\beta}} \xrightarrow{p} \boldsymbol{\beta} β ^ p β ,即随着样本量增大,估计量以概率收敛到真实参数值。渐近正态性: n ( β ^ − β ) → d N ( 0 , V ) \sqrt{n}(\hat{\boldsymbol{\beta}} - \boldsymbol{\beta}) \xrightarrow{d} N(\mathbf{0}, \mathbf{V}) n ( β ^ − β ) d N ( 0 , V ) ,其中 V \mathbf{V} V 是渐近方差-协方差矩阵。这一性质使得在大样本下可以用正态分布进行t 检验 和F 检验 ,即使扰动项不服从正态分布。
假设检验
在扰动项正态性假设 u i ∣ X ∼ N ( 0 , σ 2 ) u_i \mid \mathbf{X} \sim N(0, \sigma^2) u i ∣ X ∼ N ( 0 , σ 2 ) 下,OLS 估计量服从精确的正态分布,可以进行有限样本推断:
单系数检验(t 检验): 检验 H 0 : β j = 0 H_0: \beta_j = 0 H 0 : β j = 0 ,构造 t 统计量 t = β ^ j / SE ( β ^ j ) ∼ t n − k − 1 t = \hat{\beta}_j / \operatorname{SE}(\hat{\beta}_j) \sim t_{n-k-1} t = β ^ j / SE ( β ^ j ) ∼ t n − k − 1 。多系数联合检验(F 检验): 检验 H 0 : β k − q + 1 = ⋯ = β k = 0 H_0: \beta_{k-q+1} = \cdots = \beta_k = 0 H 0 : β k − q + 1 = ⋯ = β k = 0 (排除性约束),构造 F 统计量: \[ F = \frac{(\text{SSR}_{\text{restricted}} - \text{SSR}_{\text{unrestricted}}) / q}{\text{SSR}_{\text{unrestricted}} / (n - k - 1)} \sim F_{q, n-k-1} \]
OLS 的局限性与扩展
尽管 OLS 是实证工作的基石,其局限性也十分明确。首先,若零条件均值假设被违背(例如遗漏变量、联立性偏误 或测量误差 ),OLS 估计量将是有偏且不一致的。此时需要诉诸工具变量法 (两阶段最小二乘法,2SLS)。其次,OLS 对异常值和杠杆点 高度敏感,单个极端观测可能大幅扭曲回归线。稳健回归 方法(如 Huber 的 M-估计、分位数回归)可减轻此问题。
最后,当因变量为二分变量、计数变量或截断变量时,线性概率模型的 OLS 估计会系统性地错误——Logit 模型 、Probit 模型 、泊松回归 和Tobit 模型 等非线性估计方法应运而生。然而,所有这些广义模型的核心思想——通过某种目标函数的极值化寻找参数——都可以追溯到 OLS 的最小化残差平方和原则上。
OLS 之所以经久不衰,不仅因为它在满足假设时的优良统计性质,更因为它为理解参数估计的权衡——偏差与方差、简单与灵活、假设与稳健——提供了一个不可替代的分析框架。掌握 OLS 的假设、推导和局限,是深入学习一切计量经济学方法的前提。