知经 KNOWECON · 卓越的经济金融统计数学学习平台

普通最小二乘法 (OLS)

# 普通最小二乘法 (Ordinary Least Squares, OLS)

普通最小二乘法 (Ordinary Least Squares, OLS) 是{{{统计学}}}和{{{计量经济学}}}中用于估计{{{线性回归}}}模型参数的一种基础且极为重要的方法。其核心目标是找到一条能够最好地“拟合”一组数据点的直线(或在多维情况下为超平面)。“最好拟合”的定义是使观测到的因变量值与模型预测值之间的离差平方和(Sum of Squared Residuals)达到最小。

OLS是许多更复杂回归技术的基石,因其直观的原理、简洁的数学形式和在特定条件下优良的统计性质而被广泛应用。

## 线性回归模型的基础

为了理解OLS,我们首先需要定义一个简单的{{{线性回归模型}}}。假设我们想要探究一个自变量 $X$ 对一个因变量 $Y$ 的影响,其关系可以用以下总体回归函数 (Population Regression Function, PRF) 表示:

$$ Y_i = \beta_0 + \beta_1 X_i + u_i $$

其中: * $Y_i$ 是第 $i$ 个观测的{{{因变量}}} (Dependent Variable)。 * $X_i$ 是第 $i$ 个观测的{{{自变量}}} (Independent Variable),也称为解释变量 (Explanatory Variable) 或回归元 (Regressor)。 * $\beta_0$ 是截距项 (Intercept),代表当 $X=0$ 时 $Y$ 的期望值。 * $\beta_1$ 是斜率系数 (Slope Coefficient),衡量当 $X$ 变化一个单位时,$Y$ 发生的平均变化,即 $Y$ 对 $X$ 的{{{边际效应}}}。 * $u_i$ 是误差项 (Error Term) 或干扰项 (Disturbance),它代表了所有影响 $Y$ 但未被模型包含的其他因素(如测量误差、被忽略的变量、纯粹的随机性等)。 * $\beta_0$ 和 $\beta_1$ 是未知的总体参数 (Population Parameters),是我们需要通过数据来估计的目标。

由于我们无法观测到整个总体,我们只能使用一个样本的数据来估计这些参数。基于样本数据,我们构建了样本回归函数 (Sample Regression Function, SRF)

$$ \hat{Y_i} = \hat{\beta_0} + \hat{\beta_1} X_i $$

* $\hat{Y_i}$ 是给定 $X_i$ 时 $Y_i$ 的拟合值 (Fitted Value) 或预测值。 * $\hat{\beta_0}$ 和 $\hat{\beta_1}$ 是对总体参数 $\beta_0$ 和 $\beta_1$ 的估计量 (Estimators)

对于每一个观测值 $Y_i$,它与模型预测值 $\hat{Y_i}$ 之间的差异被称为残差 (Residual),记为 $e_i$:

$$ e_i = Y_i - \hat{Y_i} $$

残差 $e_i$ 是总体误差项 $u_i$ 的样本对应物。

## OLS的优化准则

OLS方法的名称揭示了其核心思想。它通过选择参数估计值 $\hat{\beta_0}$ 和 $\hat{\beta_1}$,来最小化所有观测值的残差平方和 (Sum of Squared Residuals, SSR)

数学上,OLS的目标是求解以下最小化问题:

$$ \min_{\hat{\beta_0}, \hat{\beta_1}} \text{SSR} = \min_{\hat{\beta_0}, \hat{\beta_1}} \sum_{i=1}^{n} e_i^2 = \min_{\hat{\beta_0}, \hat{\beta_1}} \sum_{i=1}^{n} (Y_i - \hat{Y_i})^2 = \min_{\hat{\beta_0}, \hat{\beta_1}} \sum_{i=1}^{n} (Y_i - \hat{\beta_0} - \hat{\beta_1} X_i)^2 $$

其中 $n$ 是样本量。

之所以选择“平方和”而不是其他形式(如绝对值和),主要有三个原因: 1. 避免正负抵消:平方使得所有残差项都为非负数,从而避免了正的残差和负的残差相互抵消的问题。 2. 对大误差的惩罚:平方运算不成比例地加重了大误差的权重。一个为4的残差对SSR的贡献(16)是一个为2的残差的贡献(4)的四倍。这使得回归线倾向于避免产生大的离群误差。 3. 数学便利性:平方和函数是连续且可微的,这使得我们可以使用{{{微积分}}}的方法轻松地求得其最小值,并得到唯一的、具有闭合形式解(closed-form solution)的估计量。

## OLS估计量的推导与公式

通过对SSR函数分别求关于 $\hat{\beta_0}$ 和 $\hat{\beta_1}$ 的{{{偏导数}}},并令它们等于零,我们可以得到一组求解 $\hat{\beta_0}$ 和 $\hat{\beta_1}$ 的方程,这组方程被称为正规方程 (Normal Equations)

解这组方程,我们得到 $\hat{\beta_0}$ 和 $\hat{\beta_1}$ 的OLS估计量公式:

$$ \hat{\beta_1} = \frac{\sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y})}{\sum_{i=1}^{n} (X_i - \bar{X})^2} = \frac{S_{XY}}{S_{XX}} $$

$$ \hat{\beta_0} = \bar{Y} - \hat{\beta_1} \bar{X} $$

其中: * $\bar{X}$ 和 $\bar{Y}$ 分别是变量 $X$ 和 $Y$ 的样本{{{均值}}}。 * $S_{XY}$ 是 $X$ 和 $Y$ 的样本{{{协方差}}} (Covariance) 乘以 $(n-1)$。 * $S_{XX}$ 是 $X$ 的样本{{{方差}}} (Variance) 乘以 $(n-1)$。

因此,$\hat{\beta_1}$ 的公式可以直观地理解为 $X$ 和 $Y$ 的样本协方差与 $X$ 的样本方差之比。这个公式表明, $X$ 和 $Y$ 之间的线性关系越强(协方差越大),且 $X$ 本身的变异性越小,斜率系数的绝对值就越大。

$\hat{\beta_0}$ 的公式确保了样本回归线必定通过点 $(\bar{X}, \bar{Y})$,即样本均值点。

## OLS的经典假设 (高斯-马尔可夫假设)

OLS估计量具有一些非常理想的统计性质,但这些性质的成立依赖于一系列关于模型和误差项的假设,这些假设被称为经典线性回归模型 (Classical Linear Regression Model, CLRM) 的假设,或高斯-马尔可夫假设 (Gauss-Markov Assumptions)

1. 参数线性 (Linearity in Parameters):模型在参数 $\beta_0, \beta_1, $...$$ 上是线性的。这意味着模型可以写成 $Y = \beta_0 + \beta_1 X_1 + $...$$,变量本身可以是{{{非线性}}}的(如 $X^2$ 或 $\log(X)$)。 2. 随机抽样 (Random Sampling):数据集 $\{ (X_i, Y_i) \}_{i=1}^n$ 是从总体中随机抽取的。 3. 不存在完全共线性 (No Perfect Collinearity):在样本中,自变量之间不存在精确的线性关系。对于简单回归,这仅意味着自变量 $X$ 必须有变异,即 $\text{Var}(X) \neq 0$。 4. 零条件均值 (Zero Conditional Mean): $E(u_i | X_{i1}, $...$, X_{ik}) = 0$。这是最关键的假设,它意味着误差项的期望值与所有自变量的值无关。换言之,所有未被模型捕捉的、影响 $Y$ 的因素 $u_i$ 与自变量 $X_i$ 不相关。这一假设的违背(例如,由于{{{遗漏变量偏误}}}或{{{联立性}}})会导致{{{内生性}}}问题和有偏的估计。 5. 同方差性 (Homoskedasticity):给定任意自变量的值,误差项的方差是恒定的,即 $\text{Var}(u_i | X_{i1}, $...$, X_{ik}) = \sigma^2$。如果这个假设不成立,则存在{{{异方差性}}} (Heteroskedasticity)。 6. 误差项正态性 (Normality of Errors):误差项 $u_i$ 独立于自变量,并且服从{{{正态分布}}},即 $u_i \sim N(0, \sigma^2)$。这个假设对于证明OLS是BLUE不是必需的,但对于在小样本中进行精确的{{{假设检验}}}(如t检验和F检验)是必要的。在大样本中,依据{{{中心极限定理}}},我们可以放宽这个假设。

## OLS估计量的性质:高斯-马尔可夫定理

{{{高斯-马尔可夫定理}}} (Gauss-Markov Theorem) 是计量经济学的核心定理之一。它指出:

> 在假设1到5(即排除了正态性假设)成立的条件下,OLS估计量是最佳线性无偏估计量 (Best Linear Unbiased Estimator, BLUE)

* 最佳 (Best):指在所有线性和无偏的估计量中,OLS估计量具有最小的方差。这意味着OLS提供了最精确的估计。 * 线性 (Linear):指OLS估计量是因变量 $Y_i$ 的线性函数。 * 无偏 (Unbiased):指估计量的{{{期望值}}}等于总体的真实参数值,即 $E(\hat{\beta_j}) = \beta_j$。这意味着,如果反复进行抽样和估计,估计值的平均值会趋近于真实的参数值。

## 模型拟合优度

在得到OLS回归线之后,我们需要评估它对数据的拟合程度。最常用的指标是决定系数 ($R^2$)

$R^2$ 衡量了因变量 $Y$ 的总变异中,可以被自变量 $X$ 解释的比例。其计算公式为:

$$ R^2 = \frac{\text{ESS}}{\text{TSS}} = 1 - \frac{\text{SSR}}{\text{TSS}} $$

其中: * 总平方和 (Total Sum of Squares, TSS): $TSS = \sum (Y_i - \bar{Y})^2$,衡量 $Y$ 的总变异。 * 解释平方和 (Explained Sum of Squares, ESS): $ESS = \sum (\hat{Y_i} - \bar{Y})^2$,衡量由回归模型解释的 $Y$ 的变异部分。 * 残差平方和 (Sum of Squared Residuals, SSR): $SSR = \sum (Y_i - \hat{Y_i})^2$,衡量未被模型解释的 $Y$ 的变异部分。

$R^2$ 的取值范围在0和1之间。$R^2$ 越接近1,表明模型的解释能力越强;越接近0,则解释能力越弱。但是,一个高的 $R^2$ 并不一定意味着模型是“好”的,它不能证明因果关系,并且在多元回归中增加自变量总会使其值上升(或不变),这导致了对{{{调整R平方}}} (Adjusted R-squared) 的需求。

##