ARTICLE

最小二乘法

最小二乘法 (Least Squares Method) 最小二乘法 (Least Squares Method)，也常称为普通最小二乘法 (Ordinary Least Squares, OLS)，是数学、统计学和计量经济学中使用最为广泛的一种参数估计方法。其核心思想是，寻找一组模型的参数，使得模型预测值与实际观测值之差（即残差）的平方和达到

浏览 43 更新 2025-10-26

最小二乘法 (Least Squares Method)

最小二乘法 (Least Squares Method)，也常称为 普通最小二乘法 (Ordinary Least Squares, OLS)，是数学、统计学和计量经济学中使用最为广泛的一种参数估计方法。其核心思想是，寻找一组模型的参数，使得模型预测值与实际观测值之差（即残差）的平方和达到最小。这种方法为回归分析提供了一个基础且强大的工具，用以描述自变量与因变量之间的关系。

核心思想与直观理解

在数据分析中，我们常常希望用一个简单的数学函数（例如一条直线）来"拟合"或"解释"一组观测数据点。例如，我们可能想要研究学习时间（自变量 $x$ ）对考试成绩（因变量 $y$ ）的影响。我们收集了多组数据点 $(x_1, y_1), (x_2, y_2), \dots, (x_n, y_n)$ 。

最小二乘法的目标是找到一条"最佳拟合直线"，这条直线尽可能地贴近所有的样本数据点。但如何定义"最佳"呢？最小二乘法给出的定义是：这条直线应该使得所有数据点到该直线的 纵向距离（即残差）的平方和 最小。

对于一个给定的数据点 $(x_i, y_i)$ 和一条候选直线 $\hat{y} = \hat{\beta}_0 + \hat{\beta}_1 x$ ，残差 $e_i$ 被定义为实际观测值 $y_i$ 与直线在该 $x_i$ 处预测的值 $\hat{y}_i$ 之间的差值：

e_i = y_i - \hat{y}_i

最小二乘法就是要找到直线的截距 $\hat{\beta}_0$ 和斜率 $\hat{\beta}_1$ ，使得所有这些残差的平方和 $S$ 最小化：

\min_{\hat{\beta}_0, \hat{\beta}_1} S = \sum_{i=1}^{n} e_i^2 = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 = \sum_{i=1}^{n} (y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i)^2

为什么使用平方？

避免正负抵消：残差有正有负。如果直接求和，正负残差会相互抵消，无法准确衡量整体误差的大小。平方后所有项均为非负，保证了误差的累加效应。
惩罚较大误差：平方操作对较大的误差给予了比小误差更大的"权重"或"惩罚"。这意味着该方法对远离拟合线的"异常点"非常敏感。
数学便利性：平方和函数是一个光滑的、可微的凸函数。这使得我们可以方便地使用微积分中的求导方法来找到其最小值点，从而得到参数估计的解析解。相比之下，如果使用绝对值和（最小一乘法），求解过程在数学上会更为复杂。

OLS估计量的推导

为了找到使残差平方和 $S(\hat{\beta}_0, \hat{\beta}_1)$ 最小化的 $\hat{\beta}_0$ 和 $\hat{\beta}_1$ ，我们应用微积分中的最优化原理：将 $S$ 分别对 $\hat{\beta}_0$ 和 $\hat{\beta}_1$ 求偏导数，并令其等于零。

S(\hat{\beta}_0, \hat{\beta}_1) = \sum_{i=1}^{n} (y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i)^2

对 $\hat{\beta}_0$ 求偏导数并令其为零：

\frac{\partial S}{\partial \hat{\beta}_0} = \sum_{i=1}^{n} 2(y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i)(-1) = -2 \sum_{i=1}^{n} (y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i) = 0

整理得：

\sum y_i - n\hat{\beta}_0 - \hat{\beta}_1 \sum x_i = 0 \quad \implies \quad n\hat{\beta}_0 = \sum y_i - \hat{\beta}_1 \sum x_i

对 $\hat{\beta}_1$ 求偏导数并令其为零：

\frac{\partial S}{\partial \hat{\beta}_1} = \sum_{i=1}^{n} 2(y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i)(-x_i) = -2 \sum_{i=1}^{n} x_i(y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i) = 0

整理得：

\sum x_i y_i - \hat{\beta}_0 \sum x_i - \hat{\beta}_1 \sum x_i^2 = 0

这两个方程组被称为 正规方程 (Normal Equations)。联立求解，令 $\bar{x}$ 和 $\bar{y}$ 分别为 $x$ 和 $y$ 的样本均值：

\hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x}

此公式有重要的几何意义：OLS回归线必然通过样本均值点 $(\bar{x}, \bar{y})$ 。代入第二个正规方程，解出 $\hat{\beta}_1$ ：

\hat{\beta}_1 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n} (x_i - \bar{x})^2}

用样本协方差和样本方差表示为：

\hat{\beta}_1 = \frac{\operatorname{Cov}(x, y)}{\operatorname{Var}(x)}

至此，获得了通过最小二乘法计算出的简单线性回归模型的参数估计值。

OLS估计量的性质与高斯-马尔可夫定理

OLS之所以在理论和实践中如此重要，不仅因为它直观且易于计算，更因为它在某些理想条件下拥有优良的统计性质。这些性质由著名的 高斯-马尔可夫定理 (Gauss-Markov Theorem) 进行了总结。

该定理指出，在线性回归模型的一系列经典假设下（误差项的期望为零、误差项与自变量不相关、同方差性、无自相关等），普通最小二乘估计量是所有线性无偏估计量中方差最小的估计量。换言之，OLS是 最佳线性无偏估计量 (Best Linear Unbiased Estimator, BLUE)。

最佳 (Best)：指其具有最小的方差，意味着它的估计结果最稳定、最精确，这也被称为有效性 (Efficiency)。
线性 (Linear)：指估计量 $\hat{\beta}$ 是因变量 $y_i$ 的线性函数。
无偏 (Unbiased)：指估计量的期望值等于总体中真实的参数值，即 $E(\hat{\beta}) = \beta$ 。从长期来看，OLS估计量既不会系统性地高估，也不会系统性地低估真实参数。

扩展与应用

最小二乘法的原理不仅限于简单的双变量线性回归，可以被轻松扩展至更复杂的场景：

多元线性回归 (Multiple Linear Regression)：当模型包含多个自变量时，目标函数变为 $S = \sum (y_i - \hat{\beta}_0 - \hat{\beta}_1 x_{1i} - \dots - \hat{\beta}_k x_{ki})^2$ 。使用矩阵代数可得简洁的通用解： $\boldsymbol{\hat{\beta}} = (\mathbf{X}^{\top}\mathbf{X})^{-1}\mathbf{X}^{\top}\mathbf{y}$ 。
加权最小二乘法 (Weighted Least Squares, WLS)：当高斯-马尔可夫定理的同方差性假设不满足（即存在异方差性）时，WLS通过对不同观测值赋予不同权重来修正OLS，通常给方差较小的观测值更大的权重。
广义最小二乘法 (Generalized Least Squares, GLS)：更为通用的方法，可同时处理异方差性和误差项的自相关问题。
非线性最小二乘法 (Non-linear Least Squares)：当模型对于参数是非线性时，虽无法得到解析解，但仍可应用最小二乘思想，通过迭代数值算法来寻找使残差平方和最小的参数。

总之，最小二乘法是现代数据科学的基石之一，为从数据中提取有意义的关系和建立预测模型提供了理论基础和实用工具。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。