ARTICLE

普通最小二乘法

普通最小二乘法 (Ordinary Least Squares, OLS) 普通最小二乘法 (Ordinary Least Squares, OLS),是计量经济学和统计学中最基本、最常用的一种参数估计方法,主要用于线性回归模型。其核心目标是找到一组参数,使得模型预测值与真实观测值之差(即残差)的平方和达到最小。通过这种方法得到的回归线被认为是数据的“最佳拟

浏览 100 更新 2025-10-23

普通最小二乘法 (Ordinary Least Squares, OLS)

普通最小二乘法 (Ordinary Least Squares, OLS),是计量经济学统计学中最基本、最常用的一种参数估计方法,主要用于线性回归模型。其核心目标是找到一组参数,使得模型预测值与真实观测值之差(即残差)的平方和达到最小。通过这种方法得到的回归线被认为是数据的“最佳拟合线”。

OLS不仅是一种计算技术,它也是一套理论框架的基础。理解OLS是学习更高级回归技术(如广义最小二乘法、工具变量法等)的基石。

核心思想:最小化残差平方和

假设我们有一个简单的线性回归模型,用以描述变量 X X 自变量或解释变量)和变量 Y Y 因变量或被解释变量)之间的关系:

Yi=β0+β1Xi+uiY_i = \beta_0 + \beta_1 X_i + u_i

其中:

  • Yi Y_i 是第 i i 个观测的因变量值。
  • Xi X_i 是第 i i 个观测的自变量值。
  • β0 \beta_0 是模型的截距 (intercept),代表当 X=0 X=0 Y Y 的期望值。
  • β1 \beta_1 是模型的斜率 (slope),代表 X X 每增加一个单位,Y Y 的期望变化量。
  • ui u_i 误差项 (error term) 或扰动项,代表所有其他未被模型包含但影响 Y Y 的因素,以及固有的随机性。

我们的目标是利用一组样本数据 (Xi,Yi) (X_i, Y_i) ,来估计未知的真实参数 β0 \beta_0 β1 \beta_1 。我们将估计得到的值记为 β^0 \hat{\beta}_0 β^1 \hat{\beta}_1

对于任意一组估计值 β^0 \hat{\beta}_0 β^1 \hat{\beta}_1 ,我们可以得到一个拟合(或预测)的 Yi Y_i 值:

Y^i=β^0+β^1Xi\hat{Y}_i = \hat{\beta}_0 + \hat{\beta}_1 X_i

真实值 Yi Y_i 和拟合值 Y^i \hat{Y}_i 之间的差异被称为残差 (residual),记为 ei e_i

ei=YiY^i=Yi(β^0+β^1Xi)e_i = Y_i - \hat{Y}_i = Y_i - (\hat{\beta}_0 + \hat{\beta}_1 X_i)

OLS的直观思想是,我们应该选择这样的一组 β^0 \hat{\beta}_0 β^1 \hat{\beta}_1 ,使得这条回归线“尽可能地”接近所有的样本点。OLS将“接近”定义为所有样本点的残差平方和 (Sum of Squared Residuals, SSR) 最小。

选择残差的平方和,而不是残差本身的和,有以下几个原因:

  1. 残差有正有负,直接相加会相互抵消,无法衡量整体的拟合优度。
  2. 平方项使得较大的残差被赋予更高的“惩罚”,从而使模型对异常值更敏感。
  3. 从数学上讲,平方和函数是凸函数,易于求导和求解最小值。

因此,OLS的优化问题可以写成:

minβ^0,β^1SSR(β^0,β^1)=i=1nei2=i=1n(Yiβ^0β^1Xi)2\min_{\hat{\beta}_0, \hat{\beta}_1} SSR(\hat{\beta}_0, \hat{\beta}_1) = \sum_{i=1}^{n} e_i^2 = \sum_{i=1}^{n} (Y_i - \hat{\beta}_0 - \hat{\beta}_1 X_i)^2

其中 n n 是样本容量。

数学推导

为了找到使 SSR SSR 最小的 β^0 \hat{\beta}_0 β^1 \hat{\beta}_1 ,我们使用微积分中的方法,即对 SSR SSR 分别求关于 β^0 \hat{\beta}_0 β^1 \hat{\beta}_1 的偏导数,并令其等于零。这被称为一阶条件 (First-Order Conditions, FOCs)。

  1. β^0 \hat{\beta}_0 求偏导:
SSRβ^0=i=1n2(Yiβ^0β^1Xi)(1)=2i=1n(Yiβ^0β^1Xi)=0\frac{\partial SSR}{\partial \hat{\beta}_0} = \sum_{i=1}^{n} 2(Y_i - \hat{\beta}_0 - \hat{\beta}_1 X_i)(-1) = -2 \sum_{i=1}^{n} (Y_i - \hat{\beta}_0 - \hat{\beta}_1 X_i) = 0

简化后得到:

i=1nYi=nβ^0+β^1i=1nXi\sum_{i=1}^{n} Y_i = n\hat{\beta}_0 + \hat{\beta}_1 \sum_{i=1}^{n} X_i

两边同除以 n n ,得到:

Yˉ=β^0+β^1Xˉ    β^0=Yˉβ^1Xˉ\bar{Y} = \hat{\beta}_0 + \hat{\beta}_1 \bar{X} \implies \hat{\beta}_0 = \bar{Y} - \hat{\beta}_1 \bar{X}

其中 Yˉ \bar{Y} Xˉ \bar{X} 分别是 Y Y X X 的样本均值。这个结果表明,OLS回归线必然通过样本均值点 (Xˉ,Yˉ) (\bar{X}, \bar{Y})

  1. β^1 \hat{\beta}_1 求偏导:
SSRβ^1=i=1n2(Yiβ^0β^1Xi)(Xi)=2i=1nXi(Yiβ^0β^1Xi)=0\frac{\partial SSR}{\partial \hat{\beta}_1} = \sum_{i=1}^{n} 2(Y_i - \hat{\beta}_0 - \hat{\beta}_1 X_i)(-X_i) = -2 \sum_{i=1}^{n} X_i(Y_i - \hat{\beta}_0 - \hat{\beta}_1 X_i) = 0

简化后得到:

i=1nXiYi=β^0i=1nXi+β^1i=1nXi2\sum_{i=1}^{n} X_i Y_i = \hat{\beta}_0 \sum_{i=1}^{n} X_i + \hat{\beta}_1 \sum_{i=1}^{n} X_i^2

β^0=Yˉβ^1Xˉ \hat{\beta}_0 = \bar{Y} - \hat{\beta}_1 \bar{X} 代入上式并整理,经过一系列代数运算,我们可以得到 β^1 \hat{\beta}_1 的解:

β^1=i=1n(XiXˉ)(YiYˉ)i=1n(XiXˉ)2=Cov(X,Y)Var(X)\hat{\beta}_1 = \frac{\sum_{i=1}^{n}(X_i - \bar{X})(Y_i - \bar{Y})}{\sum_{i=1}^{n}(X_i - \bar{X})^2} = \frac{\text{Cov}(X, Y)}{\text{Var}(X)}

这个公式直观地表示,斜率估计值是 X X Y Y 的样本协方差X X 的样本方差之比。

矩阵形式 (Matrix Form)

对于包含 k k 个自变量的多元线性回归模型:

Yi=β0+β1X1i+β2X2i++βkXki+uiY_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + \dots + \beta_k X_{ki} + u_i

使用矩阵表示会更为简洁。模型可以写为:

y=Xβ+u\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \mathbf{u}

其中:

  • y \mathbf{y} 是一个 n×1 n \times 1 的因变量观测值向量。
  • X \mathbf{X} 是一个 n×(k+1) n \times (k+1) 的自变量数据矩阵(第一列通常是1,对应截距项)。
  • β \boldsymbol{\beta} 是一个 (k+1)×1 (k+1) \times 1 的未知参数向量。
  • u \mathbf{u} 是一个 n×1 n \times 1 的误差项向量。

OLS的目标是最小化残差平方和 SSR=ee=(yXβ^)(yXβ^) SSR = \mathbf{e}'\mathbf{e} = (\mathbf{y} - \mathbf{X}\hat{\boldsymbol{\beta}})'(\mathbf{y} - \mathbf{X}\hat{\boldsymbol{\beta}}) 。 通过矩阵求导并令其为零,可以得到OLS估计量的矩阵表达式:

β^=(XX)1Xy\hat{\boldsymbol{\beta}} = (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{y}

这个公式是计量经济学中最重要的公式之一,它为计算任意多元线性回归模型的系数提供了通用的解决方案。

OLS的经典假设 (高斯-马尔可夫假设)

OLS估计量具有一些优良的统计性质,但这些性质的成立依赖于一组被称为高斯-马尔可夫 (Gauss-Markov) 假设的经典假定。当这些假设成立时,OLS估计量是最佳线性无偏估计量 (Best Linear Unbiased Estimator, BLUE)

  1. 线性于参数 (Linearity in Parameters):模型 Y=β0+β1X+u Y = \beta_0 + \beta_1 X + u 必须是关于参数 β0 \beta_0 β1 \beta_1 的线性函数。变量本身可以是非线性的(例如,Y=β0+β1log(X)+u Y = \beta_0 + \beta_1 \log(X) + u 仍然是线性模型)。
  1. 随机抽样 (Random Sampling):样本数据 {(Xi,Yi):i=1,,n} \{(X_i, Y_i): i=1, \dots, n\} 是从总体中随机抽取的。
  1. 不存在完全多重共线性 (No Perfect Multicollinearity):在多元回归中,任何一个自变量都不能是其他自变量的完全线性组合。这意味着矩阵 XX \mathbf{X}'\mathbf{X} 是可逆的。
  1. 零条件均值 (Zero Conditional Mean):误差项的期望值在给定任何自变量值的情况下都为零,即 E(uiX1i,,Xki)=0 E(u_i | X_{1i}, \dots, X_{ki}) = 0 。这是最关键的假设,它保证了OLS估计量的无偏性。如果这个假设不成立(例如,由于遗漏变量偏误联立性偏误),OLS估计量将是有偏的。
  1. 同方差 (Homoskedasticity):误差项的方差在给定任何自变量值的情况下都是一个常数,即 Var(uiX1i,,Xki)=σ2 \text{Var}(u_i | X_{1i}, \dots, X_{ki}) = \sigma^2 。如果方差随 X X 的变化而变化,则称存在异方差 (Heteroskedasticity)。
  1. 自相关 (No Serial Correlation / Autocorrelation):不同观测值的误差项之间不相关,即对于 ij i \neq j Cov(ui,ujX)=0 \text{Cov}(u_i, u_j | \mathbf{X}) = 0 。这个假设在处理时间序列数据时尤为重要。

OLS估计量的性质

在满足高斯-马尔可夫假设(前五个或前六个,取决于数据类型)的前提下,OLS估计量 β^ \hat{\beta} 具有以下良好性质:

  • 无偏性 (Unbiasedness)E(β^)=β E(\hat{\boldsymbol{\beta}}) = \boldsymbol{\beta} 。这意味着,如果我们反复从总体中抽样并进行回归,得到的估计值的平均值会等于真实的总体参数。
  • 有效性 (Efficiency):在所有的线性无偏估计量中,OLS估计量具有最小的方差。这就是高斯-马尔可夫定理的核心内容,即OLS是BLUE (Best Linear Unbiased Estimator)。
  • 一致性 (Consistency):当样本容量 n n \to \infty 时,OLS估计量 β^ \hat{\boldsymbol{\beta}} 依概率收敛于真实的参数 β \boldsymbol{\beta} 。这意味着随着样本量的增加,我们的估计会越来越接近真实值。

如果高斯-马尔可夫假设中的某一条被违反(例如出现异方差或自相关),OLS估计量可能不再是“最佳”的(即不再具有最小方差),但只要零条件均值假设(假设4)仍然成立,它通常仍然是无偏和一致的。在这种情况下,需要使用修正的标准误(如异方差稳健标准误)或采用更高级的估计方法(如广义最小二乘法)。