# 普通最小二乘法 (Ordinary Least Squares, OLS)
普通最小二乘法 (Ordinary Least Squares, OLS) 是{{{计量经济学}}}和统计学中最基本、最常用的参数估计方法。它被广泛应用于{{{线性回归模型}}}中,旨在通过最小化观测值与模型预测值之间差值的平方和,来寻找一组最优的模型参数,从而得到一个"最佳拟合"的回归线(或超平面)。
## OLS的核心思想
假设我们有一组数据,包含一个{{{因变量}}} $Y$ 和一个或多个{{{自变量}}} $X$。我们希望建立一个线性模型来描述 $Y$ 和 $X$ 之间的关系。以最简单的{{{一元线性回归模型}}}为例:
$$ Y_i = \beta_0 + \beta_1 X_i + u_i $$
其中: * $Y_i$ 是第 $i$ 个观测的因变量值。 * $X_i$ 是第 $i$ 个观测的自变量值。 * $\beta_0$ 是模型的 截距项 (intercept),代表当所有自变量为零时 $Y$ 的期望值。 * $\beta_1$ 是模型的 斜率系数 (slope coefficient),代表当 $X$ 变化一个单位时,$Y$ 的期望变化量。 * $u_i$ 是 误差项 (error term) 或扰动项,代表了所有无法被模型解释的因素对 $Y_i$ 的影响,包括随机性和被忽略的变量。
我们的目标是估计未知的真实参数 $\beta_0$ 和 $\beta_1$。OLS方法通过找到估计值 $\hat{\beta}_0$ 和 $\hat{\beta}_1$ 来实现这一目标。这些估计值构成了我们的 拟合回归线 (fitted regression line):
$$ \hat{Y}_i = \hat{\beta}_0 + \hat{\beta}_1 X_i $$
对于每一个观测值 $i$,$Y_i$ 与其在回归线上的预测值 $\hat{Y}_i$ 之间的差值被称为 {{{残差}}} (residual),记为 $\hat{u}_i$:
$$ \hat{u}_i = Y_i - \hat{Y}_i $$
OLS的核心思想是:选择能够使所有残差的平方和 (Sum of Squared Residuals, SSR) 最小化的 $\hat{\beta}_0$ 和 $\hat{\beta}_1$。这个目标函数可以写作:
$$ \min_{\hat{\beta}_0, \hat{\beta}_1} SSR = \sum_{i=1}^{n} \hat{u}_i^2 = \sum_{i=1}^{n} (Y_i - \hat{\beta}_0 - \hat{\beta}_1 X_i)^2 $$
之所以选择最小化"平方和"而不是"和"(因为正负残差会相互抵消)或"绝对值和"(因为绝对值函数在数学上不易处理),是因为平方和具有良好的数学性质,可以方便地通过{{{微积分}}}求导找到最小值。
## OLS估计量的推导
为了找到最小化SSR的 $\hat{\beta}_0$ 和 $\hat{\beta}_1$,我们对SSR分别求关于 $\hat{\beta}_0$ 和 $\hat{\beta}_1$ 的{{{偏导数}}},并令其等于零。这会得到一个包含两个方程的方程组,称为 正规方程组 (Normal Equations)。
解这个方程组,我们可以得到 $\hat{\beta}_0$ 和 $\hat{\beta}_1$ 的解析解:
$$ \hat{\beta}_1 = \frac{\sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y})}{\sum_{i=1}^{n} (X_i - \bar{X})^2} = \frac{\text{Cov}(X, Y)}{\text{Var}(X)} $$
$$ \hat{\beta}_0 = \bar{Y} - \hat{\beta}_1 \bar{X} $$
其中,$\bar{X}$ 和 $\bar{Y}$ 分别是 $X$ 和 $Y$ 的样本均值,$\text{Cov(X, Y)}$ 是 $X$ 和 $Y$ 的样本{{{协方差}}},$\text{Var(X)}$ 是 $X$ 的样本{{{方差}}}。
对于包含多个自变量的{{{多元线性回归模型}}},OLS的原理是相同的,只是数学表达更为复杂,通常使用{{{矩阵}}}代数来表示:
模型:$Y = X\beta + u$ OLS估计量:$\hat{\beta} = (X'X)^{-1}X'Y$
## 高斯-马尔可夫定理与OLS的性质
OLS估计量之所以如此重要,是因为它在所谓的 经典线性模型 (Classical Linear Model, CLM) 假设 下具有非常优良的统计性质。这些性质由著名的 {{{高斯-马尔可夫定理}}} (Gauss-Markov Theorem) 总结。
该定理指出,在满足一系列假设的前提下,OLS估计量是 最佳线性无偏估计量 (Best Linear Unbiased Estimator, BLUE)。
经典线性模型 (CLM) 假设 (也称高斯-马尔可夫假设) 包括: 1. 参数线性 (Linearity in Parameters):模型是参数 $\beta_j$ 的线性函数。 2. 随机抽样 (Random Sampling): 数据集是来自总体的随机样本。 3. 不存在完全共线性 (No Perfect Collinearity): 任何一个自变量都不能表示为其他自变量的精确线性组合。 4. 误差项的零条件均值 (Zero Conditional Mean of Error): 给定任何自变量的值,误差项的期望值为零,即 $E(u|X) = 0$。这是最关键的假设,违反该假设会导致{{{内生性}}}问题,使得OLS估计量有偏且不一致。 5. 同方差性 (Homoscedasticity): 给定任何自变量的值,误差项的方差是恒定的,即 $Var(u|X) = \sigma^2$。如果此假设不成立,则存在{{{异方差性}}} (Heteroscedasticity)。
BLUE 的含义是: * 最佳 (Best):指在所有线性无偏估计量中,OLS估计量具有最小的方差。这意味着OLS估计量最有效、最精确。 * 线性 (Linear):指 $\hat{\beta}$ 是因变量 $Y$ 的线性函数。 * 无偏 (Unbiased):指估计量的期望值等于总体的真实参数值,即 $E(\hat{\beta}) = \beta$。这意味着平均而言,OLS估计可以准确地估计真实参数。
## 模型拟合优度与假设检验
在得到OLS估计量后,我们需要评估模型对数据的拟合程度以及参数的统计显著性。 * {{{R-squared}}} ($R^2$):也称决定系数,衡量了因变量 $Y$ 的总变异中可以被自变量 $X$ 解释的比例。其值介于0和1之间,越接近1说明模型拟合得越好。 * {{{t检验}}} (t-test):用于检验单个回归系数的统计显著性,即检验某个自变量是否对因变量有显著的线性影响。其{{{原假设}}}通常是 $H_0: \beta_j = 0$。 * {{{F检验}}} (F-test):用于检验整个模型的联合显著性,即检验所有自变量是否联合起来对因变量有显著的线性影响。
## 常见问题与局限性
尽管OLS应用广泛,但在实践中,CLM假设常常被违背,导致OLS不再是BLUE,甚至可能产生误导性的结果。 1. {{{内生性}}} (Endogeneity):当出现{{{遗漏变量偏误}}}、{{{联立性偏误}}}或{{{测量误差}}}时,误差项的零条件均值假设被违背。这是最严重的问题,它使OLS估计量既有偏 (biased) 也不一致 (inconsistent)。此时需要使用{{{工具变量法}}} (Instrumental Variables) 等更高级的方法。 2. {{{异方差性}}} (Heteroscedasticity):当误差项的方差不恒定时,OLS估计量虽然仍是无偏和一致的,但其标准误的计算是错误的,导致 t检验和 F检验失效。解决方法包括使用 稳健标准误 (robust standard errors) 或采用{{{加权最小二乘法}}} (Weighted Least Squares, WLS)。 3. {{{多重共线性}}} (Multicollinearity):当自变量之间存在高度相关性时,虽然OLS估计量仍然是无偏的,但其方差会变得非常大,导致估计结果不稳定且难以解释。
总而言之,普通最小二乘法是理解和应用回归分析的基石。然而,要正确地使用它,研究者必须深入理解其背后的假设,并在实际应用中对这些假设进行检验和修正。