# 最小二乘法 (Least Squares Method)
最小二乘法 (Least Squares Method),也常称为 普通最小二乘法 (Ordinary Least Squares, OLS),是{{{数学}}}、{{{统计学}}}和{{{计量经济学}}}中使用最为广泛的一种参数估计方法。其核心思想是,寻找一组模型的{{{参数}}},使得模型预测值与实际观测值之差(即{{{残差}}})的平方和达到最小。这种方法为{{{回归分析}}}提供了一个基础且强大的工具,用以描述{{{自变量}}}与{{{因变量}}}之间的关系。
## 核心思想与直观理解
在数据分析中,我们常常希望用一个简单的数学函数(例如一条直线)来“拟合”或“解释”一组观测数据点。例如,我们可能想要研究学习时间(自变量 $x$)对考试成绩(因变量 $y$)的影响。我们收集了多组数据点 $(x_1, y_1), (x_2, y_2), \dots, (x_n, y_n)$。
最小二乘法的目标是找到一条“最佳拟合直线”,这条直线尽可能地贴近所有的样本数据点。但如何定义“最佳”呢?最小二乘法给出的定义是:这条直线应该使得所有数据点到该直线的 纵向距离(即残差)的平方和 最小。
如下图所示,对于一个给定的数据点 $(x_i, y_i)$ 和一条候选直线 $\hat{y} = \hat{\beta}_0 + \hat{\beta}_1 x$,残差 $e_i$ 被定义为实际观测值 $y_i$ 与直线在该 $x_i$ 处预测的值 $\hat{y}_i$ 之间的差值:
$$ e_i = y_i - \hat{y}_i $$
最小二乘法就是要找到直线的截距 $\hat{\beta}_0$ 和斜率 $\hat{\beta}_1$,使得所有这些残差的平方和 $S$ 最小化:
$$ \min_{\hat{\beta}_0, \hat{\beta}_1} S = \sum_{i=1}^{n} e_i^2 = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 = \sum_{i=1}^{n} (y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i)^2 $$
### 为什么使用平方?
1. 避免正负抵消:残差有正有负。如果直接求和,正负残差会相互抵消,无法准确衡量整体误差的大小。平方后所有项均为非负,保证了误差的累加效应。 2. 惩罚较大误差:平方操作对较大的误差给予了比小误差更大的“权重”或“惩罚”。这意味着该方法对远离拟合线的“异常点”非常敏感。 3. 数学便利性:平方和函数是一个光滑的、可微的凸函数。这使得我们可以方便地使用{{{微积分}}}中的求导方法来找到其最小值点,从而得到参数估计的解析解。相比之下,如果使用绝对值和({{{最小一乘法}}}),求解过程在数学上会更为复杂。
## OLS估计量的推导
为了找到使残差平方和 $S(\hat{\beta}_0, \hat{\beta}_1)$ 最小化的 $\hat{\beta}_0$ 和 $\hat{\beta}_1$,我们应用{{{微积分}}}中的最优化原理。具体来说,我们将 $S$ 分别对 $\hat{\beta}_0$ 和 $\hat{\beta}_1$ 求{{{偏导数}}},并令其等于零。
$$ S(\hat{\beta}_0, \hat{\beta}_1) = \sum_{i=1}^{n} (y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i)^2 $$
1. 对 $\hat{\beta}_0$ 求偏导数并令其为零: $$ \frac{\partial S}{\partial \hat{\beta}_0} = \sum_{i=1}^{n} 2(y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i)(-1) = -2 \sum_{i=1}^{n} (y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i) = 0 $$ 整理得: $$ \sum y_i - n\hat{\beta}_0 - \hat{\beta}_1 \sum x_i = 0 \quad \implies \quad n\hat{\beta}_0 = \sum y_i - \hat{\beta}_1 \sum x_i $$
2. 对 $\hat{\beta}_1$ 求偏导数并令其为零: $$ \frac{\partial S}{\partial \hat{\beta}_1} = \sum_{i=1}^{n} 2(y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i)(-x_i) = -2 \sum_{i=1}^{n} x_i(y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i) = 0 $$ 整理得: $$ \sum x_i y_i - \hat{\beta}_0 \sum x_i - \hat{\beta}_1 \sum x_i^2 = 0 $$
这两个方程组被称为 {{{正规方程}}} (Normal Equations)。联立求解这两个方程,我们可以得到 $\hat{\beta}_0$ 和 $\hat{\beta}_1$ 的{{{估计量}}}公式:
令 $\bar{x}$ 和 $\bar{y}$ 分别为 $x$ 和 $y$ 的{{{样本均值}}}。由第一个正规方程可推导出: $$ \hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x} $$ 这个公式有一个重要的几何意义:OLS回归线必然通过样本均值点 $(\bar{x}, \bar{y})$。
将 $\hat{\beta}_0$ 的表达式代入第二个正规方程,经过一系列代数运算,可以解出 $\hat{\beta}_1$: $$ \hat{\beta}_1 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n} (x_i - \bar{x})^2} $$ 这个公式也可以用样本{{{协方差}}}和样本{{{方差}}}表示: $$ \hat{\beta}_1 = \frac{\text{Cov}(x, y)}{\text{Var}(x)} $$ 至此,我们便获得了通过最小二乘法计算出的简单{{{线性回归}}}模型的参数估计值。
## OLS估计量的性质与高斯-马尔可夫定理
OLS之所以在理论和实践中如此重要,不仅因为它直观且易于计算,更因为它在某些理想条件下拥有优良的统计性质。这些性质由著名的 {{{高斯-马尔可夫定理}}} (Gauss-Markov Theorem) 进行了总结。
该定理指出,在线性回归模型的一系列经典假设下(例如,误差项的期望为零、误差项与自变量不相关、{{{同方差性}}}、无{{{自相关}}}等),普通最小二乘估计量是所有线性无偏估计量中方差最小的估计量。换言之,OLS是 {{{最佳线性无偏估计量}}} (Best Linear Unbiased Estimator, BLUE)。
* 最佳 (Best):指其具有最小的方差,意味着它的估计结果最稳定、最精确。这也被称为{{{有效性}}} (Efficiency)。 * 线性 (Linear):指估计量 $\hat{\beta}$ 是因变量 $y_i$ 的线性函数。 * 无偏 (Unbiased):指估计量的期望值等于总体中真实的参数值,即 $E(\hat{\beta}) = \beta$。这意味着从长期来看,OLS估计量既不会系统性地高估,也不会系统性地低估真实参数。
## 扩展与应用
最小二乘法的原理不仅限于简单的双变量线性回归,它可以被轻松扩展和应用于更复杂的场景:
* {{{多元线性回归}}} (Multiple Linear Regression):当模型包含多个自变量时,最小二乘法的目标函数变为 $S = \sum (y_i - \hat{\beta}_0 - \hat{\beta}_1 x_{1i} - \dots - \hat{\beta}_k x_{ki})^2$。虽然手算变得复杂,但使用{{{矩阵代数}}}可以得到一个简洁的通用解:$\mathbf{\hat{\beta}} = (\mathbf{X'X})^{-1}\mathbf{X'y}$。 * {{{加权最小二乘法}}} (Weighted Least Squares, WLS):当高斯-马尔可夫定理的{{{同方差性}}}假设不满足(即存在{{{异方差性}}})时,可以使用WLS。它通过对不同观测值赋予不同的权重来修正OLS,通常给方差较小的观测值更大的权重。 * {{{广义最小二乘法}}} (Generalized Least Squares, GLS):这是更为通用的方法,可以同时处理异方差性和误差项的{{{自相关}}}问题。 * 非线性最小二乘法 (Non-linear Least Squares):当模型对于参数是非线性时,虽然无法得到解析解,但仍可以应用最小二乘思想,通过迭代数值算法来寻找使残差平方和最小的参数。
总之,最小二乘法是现代数据科学的基石之一,为从数据中提取有意义的关系和建立预测模型提供了理论基础和实用工具。