ARTICLE

最小二乘法 (OLS)

最小二乘法 (Ordinary Least Squares, OLS) 最小二乘法(Ordinary Least Squares, OLS)是计量经济学和统计学中最基本、最常用的参数估计方法。它广泛应用于线性回归模型,其核心思想是通过最小化观测值与模型预测值之间差值的平方和,来估计模型参数,从而获得数据的最佳拟合直线(或超平面)。 模型设定与核心思想 假设有

浏览 0 更新 2025-10-26

最小二乘法 (Ordinary Least Squares, OLS)

最小二乘法(Ordinary Least Squares, OLS)是计量经济学统计学中最基本、最常用的参数估计方法。它广泛应用于线性回归模型,其核心思想是通过最小化观测值与模型预测值之间差值的平方和,来估计模型参数,从而获得数据的最佳拟合直线(或超平面)。

模型设定与核心思想

假设有一个因变量 Y Y k k 自变量 X1,X2,,Xk X_1, X_2, \ldots, X_k 多元线性回归模型可表示为:

Yi=β0+β1X1i+β2X2i++βkXki+ui,i=1,2,,nY_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + \cdots + \beta_k X_{ki} + u_i, \quad i = 1, 2, \ldots, n

其中 βj \beta_j 是待估计的回归系数,ui u_i 误差项,代表模型未能解释的部分。OLS的目标是找到估计值 β^j \hat{\beta}_j ,使得残差平方和(Sum of Squared Residuals, SSR)最小化:

minβ^0,,β^kSSR=i=1nu^i2=i=1n(Yiβ^0β^1X1iβ^kXki)2\min_{\hat{\beta}_0, \ldots, \hat{\beta}_k} \, \text{SSR} = \sum_{i=1}^{n} \hat{u}_i^2 = \sum_{i=1}^{n} \left(Y_i - \hat{\beta}_0 - \hat{\beta}_1 X_{1i} - \cdots - \hat{\beta}_k X_{ki}\right)^2

OLS估计量的推导

通过微积分求解上述优化问题——对SSR求关于各 β^j \hat{\beta}_j 偏导数并令其为零——得到正规方程组。求解该方程组可得OLS估计量的解析表达式。

一元回归情形:对于模型 Yi=β0+β1Xi+ui Y_i = \beta_0 + \beta_1 X_i + u_i ,有

β^1=i=1n(XiXˉ)(YiYˉ)i=1n(XiXˉ)2=Cov(X,Y)Var(X),β^0=Yˉβ^1Xˉ\hat{\beta}_1 = \frac{\sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y})}{\sum_{i=1}^{n} (X_i - \bar{X})^2} = \frac{\text{Cov}(X, Y)}{\text{Var}(X)}, \quad \hat{\beta}_0 = \bar{Y} - \hat{\beta}_1 \bar{X}

多元回归情形:用矩阵表示更为简洁。模型为 Y=Xβ+u Y = X\beta + u ,其中 Y Y n×1 n \times 1 向量,X X n×(k+1) n \times (k+1) 设计矩阵,β \beta (k+1)×1 (k+1) \times 1 参数向量。OLS估计量为:

β^=(XX)1XY\hat{\beta} = (X'X)^{-1} X'Y

该公式要求 XX X'X 可逆,即自变量之间不存在完全多重共线性

高斯-马尔可夫定理与BLUE性质

高斯-马尔可夫定理(Gauss-Markov Theorem)是OLS的理论基石。在经典线性模型(CLM)假设下,OLS估计量是最佳线性无偏估计量(Best Linear Unbiased Estimator, BLUE)。

核心假设包括:

  1. 参数线性:模型是参数的线性函数。
  2. 随机抽样:样本来自总体的随机抽样。
  3. 无完全共线性:自变量之间不存在精确线性关系。
  4. 零条件均值E(uX)=0 E(u|X) = 0 ,即误差项与自变量无关——这是最关键的条件,违反它将导致内生性问题。
  5. 同方差性Var(uX)=σ2 \text{Var}(u|X) = \sigma^2 ,即误差项方差恒定;违反时存在异方差性

BLUE的含义:

  • 最佳(Best):在所有线性无偏估计量中方差最小,最为有效。
  • 线性(Linear)β^ \hat{\beta} Y Y 的线性组合。
  • 无偏(Unbiased)E(β^)=β E(\hat{\beta}) = \beta ,即平均而言估计准确。

模型评价与推断

拟合优度可决系数 R2 R^2 衡量自变量对因变量总变异的解释比例,取值在 [0,1] [0, 1] 之间。调整 R2 R^2 对自变量个数进行惩罚,防止盲目添加变量。

统计推断

  • t检验:检验单个回归系数是否显著不为零,原假设为 H0:βj=0 H_0: \beta_j = 0
  • F检验:检验所有自变量的联合显著性,原假设为所有斜率系数同时为零。
  • 置信区间:构造参数的真实值范围,通常使用95\%置信区间

常见问题与应对

  1. 异方差性:导致标准误估计有偏,使t检验和F检验失效。解决方法是使用稳健标准误(如Eicker-Huber-White标准误)或加权最小二乘法
  2. 多重共线性:自变量间高度相关时,估计量方差膨胀,系数不稳定。可通过方差膨胀因子(VIF)诊断。
  3. 内生性(如遗漏变量偏误联立性测量误差):导致OLS有偏且不一致,是最严重的问题。需使用工具变量法(IV)或两阶段最小二乘法(2SLS)。
  4. 异常值:OLS对极端值敏感,应通过残差诊断识别。

总结

最小二乘法是回归分析的基石。它原理直观、计算简便、在经典假设下具有最优性质,是经济学、金融学和社会科学实证研究中最广泛使用的估计方法。然而,实践中必须仔细检验模型假设是否成立,并在假设违背时采取适当的修正措施。