ARTICLE
OLS回归
OLS回归 OLS回归(Ordinary Least Squares Regression,普通最小二乘回归)是计量经济学和统计学中最核心的参数估计方法,由德国数学家卡尔·弗里德里希·高斯(Carl Friedrich Gauss)于19世纪初提出。其基本思想是:在给定样本数据的前提下,寻找一组参数估计值,使得模型预测值与实际观测值之间的残差平方和达到最小。
OLS回归
OLS回归(Ordinary Least Squares Regression,普通最小二乘回归)是计量经济学和统计学中最核心的参数估计方法,由德国数学家卡尔·弗里德里希·高斯(Carl Friedrich Gauss)于19世纪初提出。其基本思想是:在给定样本数据的前提下,寻找一组参数估计值,使得模型预测值与实际观测值之间的残差平方和达到最小。OLS回归广泛应用于经济学、金融学、社会科学、生物医学等领域的因果推断与预测建模中。
模型设定与数学表达
标准的线性回归模型可表示为矩阵形式:
其中, 为 维因变量向量, 为 维自变量矩阵(通常包含截距项), 为 维待估参数向量, 为 维误差项向量。OLS的目标函数为:
通过求解一阶条件 ,得到 OLS 估计量的解析表达式:
该表达式成立的前提是 可逆,即自变量矩阵满秩,意味着不存在完全的多重共线性。
高斯-马尔可夫假设
OLS估计量在小样本下具备优良性质,依赖于以下高斯-马尔可夫假设(Gauss-Markov Assumptions):
- 线性于参数:模型在参数 上是线性的,确保 OLS 具有闭合形式的解析解。这一假设允许变量本身进行非线性变换(如取对数、平方或交互项),只要变换后的模型仍保持参数线性即可。
- 严格外生性:,即误差项的条件均值为零。这意味着自变量 与误差项 在各期均不相关,是 OLS 无偏性的核心前提。若存在遗漏变量、测量误差或反向因果,则严格外生性被违反, 将产生偏误。
- 球形误差:,包含两个子条件。其一为同方差性(Homoskedasticity),即所有观测的误差项方差相同;其二为无自相关(No Autocorrelation),即不同观测的误差项互不相关,()。球形误差主要影响估计量的效率而非无偏性。
- 无完全共线性:自变量矩阵 的列向量线性无关,即 。若某一自变量可由其他自变量的线性组合近似表示(近似多重共线性),虽不影响无偏性,但会导致估计量的方差膨胀,降低推断精度。
在上述假设下,OLS估计量 是 的最佳线性无偏估计量(BLUE, Best Linear Unbiased Estimator),即在线性无偏估计量类中方差最小。这正是高斯-马尔可夫定理的核心结论。
统计推断与假设检验
获得参数估计值后,需对系数的统计显著性进行推断。 的方差-协方差矩阵为:
其中,误差项方差 由残差方差的估计值 替代(SSR为残差平方和)。单个系数的显著性可通过 t 检验进行:
多个线性约束的联合显著性则使用 F 检验:
其中, 和 分别为受约束模型和不受约束模型的残差平方和, 为约束个数。此外,回归模型的整体拟合优度由 衡量,表示自变量对因变量变异的解释比例;调整 则在 基础上对自变量个数进行惩罚,避免因增加无关变量而人为提高拟合度。
模型诊断与实际问题
在实证应用中,OLS回归面临多种挑战,需进行相应的诊断与处理:
- 异方差性(Heteroskedasticity):误差项方差随自变量变化,导致标准误估计有偏。可通过 White 检验或 Breusch-Pagan 检验诊断,并使用异方差稳健标准误(Heteroskedasticity-Consistent Standard Errors)加以修正,如 Huber-White 估计量。
- 多重共线性(Multicollinearity):自变量之间高度相关,使系数估计的方差膨胀。通常使用方差膨胀因子(VIF, Variance Inflation Factor)进行诊断,当 VIF > 10 时认为存在严重的多重共线性。处理方法包括剔除冗余变量、合并变量或使用岭回归等有偏估计方法。
- 异常值与强影响点(Outliers \& Influential Points):个别观测值可能对回归结果产生不成比例的影响。通过学生化残差、Cook距离、DFFITS等诊断统计量识别异常点。
- 模型设定偏误(Specification Error):包括遗漏重要变量、错误函数形式(如未考虑非线性关系)以及数据测量误差等。Ramsey RESET检验可用于检测函数形式的设定偏误,而遗漏变量问题通常需要借助工具变量法或面板数据模型加以解决。
- 内生性(Endogeneity):当 时,OLS估计量不一致。内生性的主要来源包括遗漏变量、测量误差和联立性(反向因果)。解决内生性的标准方法包括工具变量回归(IV/2SLS)、 Heckman 选择模型以及差分 GMM 等。
拓展与相关方法
OLS回归构成了计量经济学方法论的基石,多项重要拓展是在其基础上发展而来。当误差项违背球形假设时,广义最小二乘法(GLS)可提供更有效的估计;当因变量为二值变量时,Logit 和 Probit 模型取代了线性概率模型;当经典假设无法满足时,稳健标准误、聚类标准误和自相关稳健标准误等方法为正确推断提供了保障。此外,现代机器学习中的正则化回归方法(如岭回归、LASSO 和弹性网)在 OLS 的目标函数中加入惩罚项,以在高维数据场景下提升预测性能并实现变量选择。
总体而言,OLS回归凭借其简洁的解析解、良好的统计性质和直观的经济含义,至今仍是实证研究中最常用的工具之一,也是学习更高级计量方法的重要起点。