ARTICLE

普通最小二乘法 (OLS)

普通最小二乘法 (Ordinary Least Squares, OLS) 普通最小二乘法 (Ordinary Least Squares, OLS) 是统计学和计量经济学中用于估计线性回归模型参数的一种基础且极为重要的方法。其核心目标是找到一条能够最好地“拟合”一组数据点的直线(或在多维情况下为超平面)。“最好拟合”的定义是使观测到的因变量值与模型预测值之

浏览 20 更新 2025-10-26

普通最小二乘法 (Ordinary Least Squares, OLS)

普通最小二乘法 (Ordinary Least Squares, OLS) 是统计学计量经济学中用于估计线性回归模型参数的一种基础且极为重要的方法。其核心目标是找到一条能够最好地“拟合”一组数据点的直线(或在多维情况下为超平面)。“最好拟合”的定义是使观测到的因变量值与模型预测值之间的离差平方和(Sum of Squared Residuals)达到最小。

OLS是许多更复杂回归技术的基石,因其直观的原理、简洁的数学形式和在特定条件下优良的统计性质而被广泛应用。

线性回归模型的基础

为了理解OLS,我们首先需要定义一个简单的线性回归模型。假设我们想要探究一个自变量 XX 对一个因变量 YY 的影响,其关系可以用以下总体回归函数 (Population Regression Function, PRF) 表示:

Yi=β0+β1Xi+uiY_i = \beta_0 + \beta_1 X_i + u_i

其中:

  • YiY_i 是第 ii 个观测的因变量 (Dependent Variable)。
  • XiX_i 是第 ii 个观测的自变量 (Independent Variable),也称为解释变量 (Explanatory Variable) 或回归元 (Regressor)。
  • β0\beta_0截距项 (Intercept),代表当 X=0X=0YY 的期望值。
  • β1\beta_1斜率系数 (Slope Coefficient),衡量当 XX 变化一个单位时,YY 发生的平均变化,即 YYXX边际效应
  • uiu_i误差项 (Error Term) 或干扰项 (Disturbance),它代表了所有影响 YY 但未被模型包含的其他因素(如测量误差、被忽略的变量、纯粹的随机性等)。
  • β0\beta_0β1\beta_1 是未知的总体参数 (Population Parameters),是我们需要通过数据来估计的目标。

由于我们无法观测到整个总体,我们只能使用一个样本的数据来估计这些参数。基于样本数据,我们构建了样本回归函数 (Sample Regression Function, SRF)

Yi^=β0^+β1^Xi\hat{Y_i} = \hat{\beta_0} + \hat{\beta_1} X_i
  • Yi^\hat{Y_i} 是给定 XiX_iYiY_i拟合值 (Fitted Value) 或预测值。
  • β0^\hat{\beta_0}β1^\hat{\beta_1} 是对总体参数 β0\beta_0β1\beta_1估计量 (Estimators)

对于每一个观测值 YiY_i,它与模型预测值 Yi^\hat{Y_i} 之间的差异被称为残差 (Residual),记为 eie_i

ei=YiYi^e_i = Y_i - \hat{Y_i}

残差 eie_i 是总体误差项 uiu_i 的样本对应物。

OLS的优化准则

OLS方法的名称揭示了其核心思想。它通过选择参数估计值 β0^\hat{\beta_0}β1^\hat{\beta_1},来最小化所有观测值的残差平方和 (Sum of Squared Residuals, SSR)

数学上,OLS的目标是求解以下最小化问题:

minβ0^,β1^SSR=minβ0^,β1^i=1nei2=minβ0^,β1^i=1n(YiYi^)2=minβ0^,β1^i=1n(Yiβ0^β1^Xi)2\min_{\hat{\beta_0}, \hat{\beta_1}} \text{SSR} = \min_{\hat{\beta_0}, \hat{\beta_1}} \sum_{i=1}^{n} e_i^2 = \min_{\hat{\beta_0}, \hat{\beta_1}} \sum_{i=1}^{n} (Y_i - \hat{Y_i})^2 = \min_{\hat{\beta_0}, \hat{\beta_1}} \sum_{i=1}^{n} (Y_i - \hat{\beta_0} - \hat{\beta_1} X_i)^2

其中 nn 是样本量。

之所以选择“平方和”而不是其他形式(如绝对值和),主要有三个原因:

  1. 避免正负抵消:平方使得所有残差项都为非负数,从而避免了正的残差和负的残差相互抵消的问题。
  2. 对大误差的惩罚:平方运算不成比例地加重了大误差的权重。一个为4的残差对SSR的贡献(16)是一个为2的残差的贡献(4)的四倍。这使得回归线倾向于避免产生大的离群误差。
  3. 数学便利性:平方和函数是连续且可微的,这使得我们可以使用微积分的方法轻松地求得其最小值,并得到唯一的、具有闭合形式解(closed-form solution)的估计量。

OLS估计量的推导与公式

通过对SSR函数分别求关于 β0^\hat{\beta_0}β1^\hat{\beta_1}偏导数,并令它们等于零,我们可以得到一组求解 β0^\hat{\beta_0}β1^\hat{\beta_1} 的方程,这组方程被称为正规方程 (Normal Equations)

解这组方程,我们得到 β0^\hat{\beta_0}β1^\hat{\beta_1} 的OLS估计量公式:

β1^=i=1n(XiXˉ)(YiYˉ)i=1n(XiXˉ)2=SXYSXX\hat{\beta_1} = \frac{\sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y})}{\sum_{i=1}^{n} (X_i - \bar{X})^2} = \frac{S_{XY}}{S_{XX}}
β0^=Yˉβ1^Xˉ\hat{\beta_0} = \bar{Y} - \hat{\beta_1} \bar{X}

其中:

  • Xˉ\bar{X}Yˉ\bar{Y} 分别是变量 XXYY 的样本均值
  • SXYS_{XY}XXYY 的样本协方差 (Covariance) 乘以 (n1)(n-1)
  • SXXS_{XX}XX 的样本方差 (Variance) 乘以 (n1)(n-1)

因此,β1^\hat{\beta_1} 的公式可以直观地理解为 XXYY 的样本协方差与 XX 的样本方差之比。这个公式表明,XXYY 之间的线性关系越强(协方差越大),且 XX 本身的变异性越小,斜率系数的绝对值就越大。

β0^\hat{\beta_0} 的公式确保了样本回归线必定通过点 (Xˉ,Yˉ)(\bar{X}, \bar{Y}),即样本均值点。

OLS的经典假设(高斯-马尔可夫假设)

OLS估计量具有一些非常理想的统计性质,但这些性质的成立依赖于一系列关于模型和误差项的假设,这些假设被称为经典线性回归模型 (Classical Linear Regression Model, CLRM) 的假设,或高斯-马尔可夫假设 (Gauss-Markov Assumptions)

  1. 参数线性 (Linearity in Parameters):模型在参数 β0,β1,\beta_0, \beta_1, \ldots 上是线性的。这意味着模型可以写成 Y=β0+β1X1+Y = \beta_0 + \beta_1 X_1 + \cdots,变量本身可以是非线性的(如 X2X^2log(X)\log(X))。
  2. 随机抽样 (Random Sampling):数据集 {(Xi,Yi)}i=1n\{ (X_i, Y_i) \}_{i=1}^n 是从总体中随机抽取的。
  3. 不存在完全共线性 (No Perfect Collinearity):在样本中,自变量之间不存在精确的线性关系。对于简单回归,这仅意味着自变量 XX 必须有变异,即 Var(X)0\text{Var}(X) \neq 0
  4. 零条件均值 (Zero Conditional Mean)E(uiXi1,,Xik)=0E(u_i \mid X_{i1}, \ldots, X_{ik}) = 0。这是最关键的假设,它意味着误差项的期望值与所有自变量的值无关。换言之,所有未被模型捕捉的、影响 YY 的因素 uiu_i 与自变量 XiX_i 不相关。这一假设的违背(例如,由于遗漏变量偏误联立性)会导致内生性问题和有偏的估计。
  5. 同方差性 (Homoskedasticity):给定任意自变量的值,误差项的方差是恒定的,即 Var(uiXi1,,Xik)=σ2\text{Var}(u_i \mid X_{i1}, \ldots, X_{ik}) = \sigma^2。如果这个假设不成立,则存在异方差性 (Heteroskedasticity)。
  6. 误差项正态性 (Normality of Errors):误差项 uiu_i 独立于自变量,并且服从正态分布,即 uiN(0,σ2)u_i \sim N(0, \sigma^2)。这个假设对于证明OLS是BLUE不是必需的,但对于在小样本中进行精确的假设检验(如t检验和F检验)是必要的。在大样本中,依据中心极限定理,我们可以放宽这个假设。

OLS估计量的性质:高斯-马尔可夫定理

高斯-马尔可夫定理 (Gauss-Markov Theorem) 是计量经济学的核心定理之一。它指出:在假设1到5(即排除了正态性假设)成立的条件下,OLS估计量是最佳线性无偏估计量 (Best Linear Unbiased Estimator, BLUE)

  • 最佳 (Best):指在所有线性和无偏的估计量中,OLS估计量具有最小的方差。这意味着OLS提供了最精确的估计。
  • 线性 (Linear):指OLS估计量是因变量 YiY_i 的线性函数。
  • 无偏 (Unbiased):指估计量的期望值等于总体的真实参数值,即 E(βj^)=βjE(\hat{\beta_j}) = \beta_j。这意味着,如果反复进行抽样和估计,估计值的平均值会趋近于真实的参数值。

模型拟合优度

在得到OLS回归线之后,我们需要评估它对数据的拟合程度。最常用的指标是决定系数 (R2R^2)

R2R^2 衡量了因变量 YY 的总变异中,可以被自变量 XX 解释的比例。其计算公式为:

R2=ESSTSS=1SSRTSSR^2 = \frac{\text{ESS}}{\text{TSS}} = 1 - \frac{\text{SSR}}{\text{TSS}}

其中:

  • 总平方和 (Total Sum of Squares, TSS)TSS=(YiYˉ)2TSS = \sum (Y_i - \bar{Y})^2,衡量 YY 的总变异。
  • 解释平方和 (Explained Sum of Squares, ESS)ESS=(Yi^Yˉ)2ESS = \sum (\hat{Y_i} - \bar{Y})^2,衡量由回归模型解释的 YY 的变异部分。
  • 残差平方和 (Sum of Squared Residuals, SSR)SSR=(YiYi^)2SSR = \sum (Y_i - \hat{Y_i})^2,衡量未被模型解释的 YY 的变异部分。

R2R^2 的取值范围在0和1之间。R2R^2 越接近1,表明模型的解释能力越强;越接近0,则解释能力越弱。但是,一个高的 R2R^2 并不一定意味着模型是“好”的,它不能证明因果关系,并且在多元回归中增加自变量总会使其值上升(或不变),这导致了对调整R平方 (Adjusted R-squared) 的需求。