ARTICLE
OLS
普通最小二乘法 (Ordinary Least Squares, OLS) 普通最小二乘法 (Ordinary Least Squares, OLS) 是计量经济学和统计学中最基本、最常用的参数估计方法。它被广泛应用于线性回归模型中,旨在通过最小化观测值与模型预测值之间差值的平方和,来寻找一组最优的模型参数,从而得到一个「最佳拟合」的回归线(或超平面)。 O
普通最小二乘法 (Ordinary Least Squares, OLS)
普通最小二乘法 (Ordinary Least Squares, OLS) 是计量经济学和统计学中最基本、最常用的参数估计方法。它被广泛应用于线性回归模型中,旨在通过最小化观测值与模型预测值之间差值的平方和,来寻找一组最优的模型参数,从而得到一个「最佳拟合」的回归线(或超平面)。
OLS 的核心思想
假设我们有一组数据,包含一个因变量 和一个或多个自变量 。我们希望建立一个线性模型来描述 和 之间的关系。以最简单的一元线性回归模型为例:
其中:
- 是第 个观测的因变量值。
- 是第 个观测的自变量值。
- 是模型的 截距项 (intercept),代表当所有自变量为零时 的期望值。
- 是模型的 斜率系数 (slope coefficient),代表当 变化一个单位时, 的期望变化量。
- 是 误差项 (error term) 或扰动项,代表了所有无法被模型解释的因素对 的影响,包括随机性和被忽略的变量。
我们的目标是估计未知的真实参数 和 。OLS 方法通过找到估计值 和 来实现这一目标。这些估计值构成了我们的 拟合回归线 (fitted regression line):
对于每一个观测值 , 与其在回归线上的预测值 之间的差值被称为 残差 (residual),记为 :
OLS 的核心思想是:选择能够使所有残差的平方和 (Sum of Squared Residuals, SSR) 最小化的 和 。这个目标函数可以写作:
之所以选择最小化「平方和」而不是「和」(因为正负残差会相互抵消)或「绝对值和」(因为绝对值函数在数学上不易处理),是因为平方和具有良好的数学性质,可以方便地通过微积分求导找到最小值。
OLS 估计量的推导
为了找到最小化 SSR 的 和 ,我们对 SSR 分别求关于 和 的偏导数,并令其等于零。这会得到一个包含两个方程的方程组,称为 正规方程组 (Normal Equations)。
解这个方程组,我们可以得到 和 的解析解:
其中, 和 分别是 和 的样本均值, 是 和 的样本协方差, 是 的样本方差。
对于包含多个自变量的多元线性回归模型,OLS 的原理是相同的,只是数学表达更为复杂,通常使用矩阵代数来表示:
模型:
OLS 估计量:
高斯-马尔可夫定理与 OLS 的性质
OLS 估计量之所以如此重要,是因为它在所谓的 经典线性模型 (Classical Linear Model, CLM) 假设下具有非常优良的统计性质。这些性质由著名的 高斯-马尔可夫定理 (Gauss-Markov Theorem) 总结。
该定理指出,在满足一系列假设的前提下,OLS 估计量是 最佳线性无偏估计量 (Best Linear Unbiased Estimator, BLUE)。
经典线性模型 (CLM) 假设(也称高斯-马尔可夫假设)包括:
- 参数线性 (Linearity in Parameters):模型是参数 的线性函数。
- 随机抽样 (Random Sampling):数据集是来自总体的随机样本。
- 不存在完全共线性 (No Perfect Collinearity):任何一个自变量都不能表示为其他自变量的精确线性组合。
- 误差项的零条件均值 (Zero Conditional Mean of Error):给定任何自变量的值,误差项的期望值为零,即 。这是最关键的假设,违反该假设会导致内生性问题,使得 OLS 估计量有偏且不一致。
- 同方差性 (Homoscedasticity):给定任何自变量的值,误差项的方差是恒定的,即 。如果此假设不成立,则存在异方差性 (Heteroscedasticity)。
BLUE 的含义是:
- 最佳 (Best):指在所有线性无偏估计量中,OLS 估计量具有最小的方差。这意味着 OLS 估计量最有效、最精确。
- 线性 (Linear):指 是因变量 的线性函数。
- 无偏 (Unbiased):指估计量的期望值等于总体的真实参数值,即 。这意味着平均而言,OLS 估计可以准确地估计真实参数。
模型拟合优度与假设检验
在得到 OLS 估计量后,我们需要评估模型对数据的拟合程度以及参数的统计显著性。
- R-squared ():也称决定系数,衡量了因变量 的总变异中可以被自变量 解释的比例。其值介于 0 和 1 之间,越接近 1 说明模型拟合得越好。
- t检验 (t-test):用于检验单个回归系数的统计显著性,即检验某个自变量是否对因变量有显著的线性影响。其原假设通常是 。
- F检验 (F-test):用于检验整个模型的联合显著性,即检验所有自变量是否联合起来对因变量有显著的线性影响。
常见问题与局限性
尽管 OLS 应用广泛,但在实践中,CLM 假设常常被违背,导致 OLS 不再是 BLUE,甚至可能产生误导性的结果。
- 内生性 (Endogeneity):当出现遗漏变量偏误、联立性偏误或测量误差时,误差项的零条件均值假设被违背。这是最严重的问题,它使 OLS 估计量既有偏 (biased) 也不一致 (inconsistent)。此时需要使用工具变量法 (Instrumental Variables) 等更高级的方法。
- 异方差性 (Heteroscedasticity):当误差项的方差不恒定时,OLS 估计量虽然仍是无偏和一致的,但其标准误的计算是错误的,导致 t 检验和 F 检验失效。解决方法包括使用 稳健标准误 (robust standard errors) 或采用加权最小二乘法 (Weighted Least Squares, WLS)。
- 多重共线性 (Multicollinearity):当自变量之间存在高度相关性时,虽然 OLS 估计量仍然是无偏的,但其方差会变得非常大,导致估计结果不稳定且难以解释。
总而言之,普通最小二乘法是理解和应用回归分析的基石。然而,要正确地使用它,研究者必须深入理解其背后的假设,并在实际应用中对这些假设进行检验和修正。