最小二乘法 (Ordinary Least Squares, OLS)
最小二乘法(Ordinary Least Squares, OLS)是计量经济学和统计学中最基本、最常用的参数估计方法。它广泛应用于线性回归模型,其核心思想是通过最小化观测值与模型预测值之间差值的平方和,来估计模型参数,从而获得数据的最佳拟合直线(或超平面)。
模型设定与核心思想
假设有一个因变量 Y 和 k 个自变量 X1,X2,…,Xk,多元线性回归模型可表示为:
Yi=β0+β1X1i+β2X2i+⋯+βkXki+ui,i=1,2,…,n
其中 βj 是待估计的回归系数,ui 是误差项,代表模型未能解释的部分。OLS的目标是找到估计值 β^j,使得残差平方和(Sum of Squared Residuals, SSR)最小化:
β^0,…,β^kminSSR=i=1∑nu^i2=i=1∑n(Yi−β^0−β^1X1i−⋯−β^kXki)2
OLS估计量的推导
通过微积分求解上述优化问题——对SSR求关于各 β^j 的偏导数并令其为零——得到正规方程组。求解该方程组可得OLS估计量的解析表达式。
一元回归情形:对于模型 Yi=β0+β1Xi+ui,有
β^1=∑i=1n(Xi−Xˉ)2∑i=1n(Xi−Xˉ)(Yi−Yˉ)=Var(X)Cov(X,Y),β^0=Yˉ−β^1Xˉ
多元回归情形:用矩阵表示更为简洁。模型为 Y=Xβ+u,其中 Y 是 n×1 向量,X 是 n×(k+1) 设计矩阵,β 是 (k+1)×1 参数向量。OLS估计量为:
β^=(X′X)−1X′Y
该公式要求 X′X 可逆,即自变量之间不存在完全多重共线性。
高斯-马尔可夫定理与BLUE性质
高斯-马尔可夫定理(Gauss-Markov Theorem)是OLS的理论基石。在经典线性模型(CLM)假设下,OLS估计量是最佳线性无偏估计量(Best Linear Unbiased Estimator, BLUE)。
核心假设包括:
- 参数线性:模型是参数的线性函数。
- 随机抽样:样本来自总体的随机抽样。
- 无完全共线性:自变量之间不存在精确线性关系。
- 零条件均值:E(u∣X)=0,即误差项与自变量无关——这是最关键的条件,违反它将导致内生性问题。
- 同方差性:Var(u∣X)=σ2,即误差项方差恒定;违反时存在异方差性。
BLUE的含义:
- 最佳(Best):在所有线性无偏估计量中方差最小,最为有效。
- 线性(Linear):β^ 是 Y 的线性组合。
- 无偏(Unbiased):E(β^)=β,即平均而言估计准确。
模型评价与推断
拟合优度:可决系数 R2 衡量自变量对因变量总变异的解释比例,取值在 [0,1] 之间。调整 R2 对自变量个数进行惩罚,防止盲目添加变量。
统计推断:
- t检验:检验单个回归系数是否显著不为零,原假设为 H0:βj=0。
- F检验:检验所有自变量的联合显著性,原假设为所有斜率系数同时为零。
- 置信区间:构造参数的真实值范围,通常使用95\%置信区间。
常见问题与应对
- 异方差性:导致标准误估计有偏,使t检验和F检验失效。解决方法是使用稳健标准误(如Eicker-Huber-White标准误)或加权最小二乘法。
- 多重共线性:自变量间高度相关时,估计量方差膨胀,系数不稳定。可通过方差膨胀因子(VIF)诊断。
- 内生性(如遗漏变量偏误、联立性、测量误差):导致OLS有偏且不一致,是最严重的问题。需使用工具变量法(IV)或两阶段最小二乘法(2SLS)。
- 异常值:OLS对极端值敏感,应通过残差诊断识别。
总结
最小二乘法是回归分析的基石。它原理直观、计算简便、在经典假设下具有最优性质,是经济学、金融学和社会科学实证研究中最广泛使用的估计方法。然而,实践中必须仔细检验模型假设是否成立,并在假设违背时采取适当的修正措施。