知经 KNOWECON · 卓越的经济金融统计数学学习平台

最小二乘估计(OLS)

# 最小二乘估计 (Ordinary Least Squares, OLS)

最小二乘估计 (Ordinary Least Squares, OLS),常简称为 最小二乘法,是{{{统计学}}}和{{{计量经济学}}}中最基本和最广泛使用的参数估计方法。它被用于拟合{{{线性回归模型}}},其核心目标是找到一组参数,使得模型预测值与样本观测值之间的残差平方和(Sum of Squared Residuals, SSR)达到最小。由于其数学上的便利性和在特定假设下的优良统计性质,OLS 成为回归分析的基石。

## 线性回归模型设定

为了理解 OLS,我们首先需要定义一个理论模型。在最简单的情况下,即 简单线性回归模型 (Simple Linear Regression Model),我们假设因变量 $Y$ 与单个自变量 $X$ 之间存在线性关系:

$$ Y_i = \beta_0 + \beta_1 X_i + u_i $$

其中: * $Y_i$ 是第 $i$ 个观测的{{{因变量}}}(也称被解释变量、响应变量)。 * $X_i$ 是第 $i$ 个观测的{{{自变量}}}(也称解释变量、回归量)。 * $\beta_0$ 是模型的{{{截距项}}} (intercept),代表当 $X=0$ 时 $Y$ 的期望值。 * $\beta_1$ 是模型的{{{斜率系数}}} (slope coefficient),衡量当 $X$ 变化一个单位时,$Y$ 的期望变化量。 * $u_i$ 是第 $i$ 个观测的{{{误差项}}} (error term) 或扰动项,它代表了除 $X$ 之外所有能影响 $Y$ 的、但未被模型包含的因素(如测量误差、遗漏的变量、随机冲击等)。 * 下标 $i$ 表示样本中的第 $i$ 个观测,样本量为 $n$。

回归分析的目标是利用一组包含 $(X_i, Y_i)$ 的样本数据,来估计出未知的总体参数 $\beta_0$ 和 $\beta_1$。通过 OLS 方法得到的估计值通常用 $\hat{\beta}_0$ 和 $\hat{\beta}_1$ 表示。

## OLS 的核心思想:最小化残差平方和

一旦我们得到了参数的估计值 $\hat{\beta}_0$ 和 $\hat{\beta}_1$,我们就可以构建 样本回归函数 (Sample Regression Function, SRF),并计算出对于每一个 $X_i$, $Y_i$ 的拟合值(或预测值)$\hat{Y}_i$:

$$ \hat{Y}_i = \hat{\beta}_0 + \hat{\beta}_1 X_i $$

对于每个观测值,其真实值 $Y_i$ 和拟合值 $\hat{Y}_i$ 之间的差异被称为{{{残差}}} (residual),记为 $e_i$:

$$ e_i = Y_i - \hat{Y}_i = Y_i - (\hat{\beta}_0 + \hat{\beta}_1 X_i) $$

残差 $e_i$ 是总体误差项 $u_i$ 的样本对应物,代表了模型未能解释的部分。

OLS 方法的原则是选择能够使所有观测值的 残差平方和 (Sum of Squared Residuals, SSR) 最小化的 $\hat{\beta}_0$ 和 $\hat{\beta}_1$。其目标函数可以写作:

$$ \min_{\hat{\beta}_0, \hat{\beta}_1} SSR(\hat{\beta}_0, \hat{\beta}_1) = \sum_{i=1}^{n} e_i^2 = \sum_{i=1}^{n} (Y_i - \hat{Y}_i)^2 = \sum_{i=1}^{n} (Y_i - \hat{\beta}_0 - \hat{\beta}_1 X_i)^2 $$

之所以选择平方和,主要有以下几个原因: 1. 避免正负抵消:平方处理使得所有残差项都变为非负数,避免了正残差和负残差在求和过程中相互抵消。 2. 放大较大误差:平方项给予较大的残差比小的残差更大的权重,这意味着 OLS 对远离回归线的“离群点”非常敏感。 3. 数学便利性:目标函数是关于 $\hat{\beta}_0$ 和 $\hat{\beta}_1$ 的二次函数,其表面光滑、连续且可微,这使得利用{{{微积分}}}求解最小值变得非常直接和简单。

## OLS 估计量的推导

为了找到最小化 SSR 的 $\hat{\beta}_0$ 和 $\hat{\beta}_1$,我们使用{{{最优化}}}理论,对 SSR 分别求关于 $\hat{\beta}_0$ 和 $\hat{\beta}_1$ 的偏导数,并令其等于零。这个过程会得到两个方程,称为 正规方程 (Normal Equations)

1. 对 $\hat{\beta}_0$ 求偏导数: $$ \frac{\partial SSR}{\partial \hat{\beta}_0} = \sum_{i=1}^{n} 2(Y_i - \hat{\beta}_0 - \hat{\beta}_1 X_i)(-1) = -2 \sum_{i=1}^{n} (Y_i - \hat{\beta}_0 - \hat{\beta}_1 X_i) $$ 令其为 0,得到第一个正规方程: $$ \sum_{i=1}^{n} (Y_i - \hat{\beta}_0 - \hat{\beta}_1 X_i) = 0 \implies \sum_{i=1}^{n} Y_i = n\hat{\beta}_0 + \hat{\beta}_1 \sum_{i=1}^{n} X_i $$

2. 对 $\hat{\beta}_1$ 求偏导数: $$ \frac{\partial SSR}{\partial \hat{\beta}_1} = \sum_{i=1}^{n} 2(Y_i - \hat{\beta}_0 - \hat{\beta}_1 X_i)(-X_i) = -2 \sum_{i=1}^{n} X_i(Y_i - \hat{\beta}_0 - \hat{\beta}_1 X_i) $$ 令其为 0,得到第二个正规方程: $$ \sum_{i=1}^{n} X_i(Y_i - \hat{\beta}_0 - \hat{\beta}_1 X_i) = 0 \implies \sum_{i=1}^{n} X_i Y_i = \hat{\beta}_0 \sum_{i=1}^{n} X_i + \hat{\beta}_1 \sum_{i=1}^{n} X_i^2 $$

通过求解这两个联立方程,我们可以得到 $\hat{\beta}_0$ 和 $\hat{\beta}_1$ 的闭式解:

$$ \hat{\beta}_1 = \frac{\sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y})}{\sum_{i=1}^{n} (X_i - \bar{X})^2} = \frac{S_{XY}}{S_{XX}} $$ $$ \hat{\beta}_0 = \bar{Y} - \hat{\beta}_1 \bar{X} $$

其中 $\bar{X}$ 和 $\bar{Y}$ 分别是 $X$ 和 $Y$ 的样本均值,$S_{XY}$ 是 $X$ 和 $Y$ 的样本{{{协方差}}}乘以 $(n-1)$,$S_{XX}$ 是 $X$ 的样本{{{方差}}}乘以 $(n-1)$。这个结果直观地表明,斜率估计值与 $X$ 和 $Y$ 的协方差成正比,与 $X$ 的方差成反比。截距的公式则保证了回归线必然通过样本均值点 $(\bar{X}, \bar{Y})$。

对于包含多个自变量的 {{{多元线性回归}}} 模型 $Y = X\beta + u$,上述推导可以用{{{矩阵}}}代数更简洁地表示。其 OLS 估计量的解为: $$ \hat{\beta} = (X'X)^{-1}X'Y $$ 其中 $Y$ 是因变量向量, $X$ 是自变量矩阵,$\hat{\beta}$ 是待估参数向量。

## OLS 估计量的统计性质与高斯-马尔可夫定理

OLS 之所以如此重要,不仅因为其计算简单,更因为它在一组经典线性模型假设下具有优良的统计性质。这些性质由著名的 {{{高斯-马尔可夫定理}}} (Gauss-Markov Theorem) 概括。

该定理指出,在线性回归模型的一系列假设(称为高斯-马尔可夫假设)下,OLS 估计量是 最佳线性无偏估计量 (Best Linear Unbiased Estimator, BLUE)

* 线性 (Linear):$\hat{\beta}_0$ 和 $\hat{\beta}_1$ 是因变量 $Y_i$ 的线性组合。 * 无偏 (Unbiased):估计量的期望值等于总体的真实参数值,即 $E(\hat{\beta}_j) = \beta_j$。这意味着,在多次重复抽样中,OLS 估计值的平均值会趋近于真实值,不存在系统性高估或低估。 * 最佳 (Best):在所有线性和无偏的估计量中,OLS 估计量具有最小的方差。这说明 OLS 估计量是最有效的或最精确的。

高斯-马尔可夫定理成立所需的关键假设包括: 1. 参数线性:模型对参数 $\beta_j$ 是线性的。 2. 随机抽样:样本是从总体中随机抽取的。 3. 不存在完全共线性:自变量之间不存在完美的线性关系。在简单回归中,这简化为自变量 $X$ 必须有变化 ($Var(X)>0$)。 4. 零条件均值:给定任何自变量的值,误差项的期望值为零,即 $E(u | X) = 0$。这是最核心的假设,也称为{{{外生性}}}假设。若此假设不成立(例如存在{{{遗漏变量偏误}}}或{{{联立性偏误}}}),则会导致{{{内生性}}}问题,OLS 估计量将是有偏且不一致的。 5. 同方差性 (Homoskedasticity):对于所有自变量的值,误差项的方差都是一个常数 $\sigma^2$,即 $Var(u | X) = \sigma^2$。如果此假设不成立,则存在{{{异方差性}}} (Heteroskedasticity)。 6. 无自相关 (No Autocorrelation):不同观测的误差项之间不相关,特别是在{{{时间序列数据}}}中。

当这些假设满足时,OLS 提供了对线性关系最可靠的估计。当假设被违背时,可能需要使用其他估计方法,如{{{加权最小二乘法}}} (WLS)、{{{广义最小二乘法}}} (GLS) 或{{{工具变量法}}} (IV)。

## 模型拟合优度

在得到 OLS 估计值后,我们需要评估模型对数据的拟合程度。最常用的指标是 判定系数 (Coefficient of Determination),即 {{{R-squared}}} ($R^2$)。 $R^2$ 衡量了因变量 $Y$ 的总变异中,可以被自变量 $X$ 解释的比例。其计算公式为: $$ R^2 = \frac{SSE}{SST} = 1 - \frac{SSR}{SST} $$ 其中: * $SST = \sum (Y_i - \bar{Y})^2$ 是 总平方和 (Total Sum of Squares),代表 $Y$ 的总变异。 * $SSR = \sum (Y_i - \hat{Y}_i)^2$ 是 残差平方和 (Residual Sum of Squares),代表模型未解释的变异。 * $SSE = \sum (\hat{Y}_i - \bar{Y})^2$ 是 解释平方和 (Explained Sum of Squares),代表模型解释了的变异。

$R^2$ 的取值范围在 0 和 1 之间。$R^2$ 越接近 1,表示模型的解释能力越强;越接近 0,表示模型的解释能力越弱。然而,需要注意的是,$R^2$ 会随着自变量数量的增加而单调不减,因此在比较不同模型时,通常会使用{{{调整的R-squared}}}。