ARTICLE

最小二乘解

最小二乘解（Least Squares Solution）是指在给定的线性系统 A x b 中，使得残差平方和 \| b - A x\|^2 达到最小的向量 x。当方程组无精确解时——即方程个数多于未知数个数，或数据受到噪声污染时——最小二乘解提供了「最佳近似解」的明确定义与计算方法。自高斯于1795年提出这一思想以来，最小二乘法已成为数据分析、参数估计与信

浏览 0 更新 2025-11-09

最小二乘解（Least Squares Solution）是指在给定的线性系统 $A\mathbf{x} \approx \mathbf{b}$ 中，使得残差平方和 $\|\mathbf{b} - A\mathbf{x}\|^2$ 达到最小的向量 $\mathbf{x}$ 。当方程组无精确解时——即方程个数多于未知数个数，或数据受到噪声污染时——最小二乘解提供了「最佳近似解」的明确定义与计算方法。自高斯于1795年提出这一思想以来，最小二乘法已成为数据分析、参数估计与信号处理中最基础也最广泛使用的工具之一。

一、问题的来源

最小二乘解的产生背景是超定系统（Overdetermined System）。在科学实验与工程测量中，研究者通常采集多于未知参数个数的数据点，期望通过冗余信息提高估计的可靠性。例如，测量某物理量时进行多次独立观测，或在线性回归中收集多个样本点以拟合一条直线，其数学形式均为 $A\mathbf{x} = \mathbf{b}$ 且 $A$ 的行数大于列数。

然而，由于测量误差、模型近似或数据噪声的存在，这样的系统通常在经典意义下无解——不存在 $\mathbf{x}$ 同时满足所有方程。高斯在解决天体轨道预测问题时首次系统性地处理了这一困境：他不再要求方程组精确成立，而是寻找能使所有方程的总体偏差最小的解。高斯于1809年在《天体运动论》中正式发表此方法，并指出这一准则在误差服从正态分布的假设下具有最优统计性质。

从几何视角看，最小二乘解具有清晰的直观含义：向量 $\mathbf{b}$ 通常不在矩阵 $A$ 的列空间（Column Space）中，因此无法精确表示为 $A$ 各列的线性组合。最小二乘解正是在列空间中寻找与 $\mathbf{b}$ 距离最近的点，即 $\mathbf{b}$ 在列空间上的正交投影。残差向量 $\mathbf{r} = \mathbf{b} - A\hat{\mathbf{x}}$ 必须与列空间正交，这一条件被称为正交性原理（Orthogonality Principle），它直接导出了最小二乘解的核心方程。

二、正规方程与解析解

将正交性原理转化为代数条件，得到正规方程组（Normal Equations）：

A^T A \hat{\mathbf{x}} = A^T \mathbf{b}

若 $A^T A$ 可逆（这要求 $A$ 列满秩），则最小二乘解为：

\hat{\mathbf{x}} = (A^T A)^{-1} A^T \mathbf{b}

其中 $(A^T A)^{-1} A^T$ 称为 $A$ 的伪逆（Pseudoinverse），记作 $A^+$ ，这是 Moore-Penrose 伪逆在满秩列情况下的特例。该公式是线性回归分析中最核心的结果——针对多元线性回归模型 $\mathbf{y} = X\boldsymbol{\beta} + \boldsymbol{\varepsilon}$ ，最小二乘估计量即为 $\hat{\boldsymbol{\beta}} = (X^T X)^{-1} X^T \mathbf{y}$ ，这正是高斯-马尔可夫定理所确立的最佳线性无偏估计量。

正规方程的求解可直接通过矩阵运算完成，但在实际计算中，直接求逆 $(A^T A)^{-1}$ 并非数值稳定的首选方法。当矩阵 $A$ 的条件数较大时， $A^T A$ 的求逆会放大舍入误差，导致严重精度损失。更为稳健的方法是使用QR分解：将 $A$ 分解为 $A = QR$ ，其中 $Q$ 为正交矩阵、 $R$ 为上三角矩阵，则正规方程简化为 $R \hat{\mathbf{x}} = Q^T \mathbf{b}$ 。由于 $R$ 为上三角矩阵，此系统可通过回代求解，计算复杂度为 $O(n^3)$ ，且数值稳定性显著优于直接求解正规方程。

对于极端病态问题，奇异值分解（SVD）提供了最通用且最稳健的解法。将 $A$ 分解为 $A = U \Sigma V^T$ ，则最小二乘解为 $\hat{\mathbf{x}} = V \Sigma^+ U^T \mathbf{b}$ ，其中 $\Sigma^+$ 是 $\Sigma$ 的伪逆——将非零奇异值取倒数后转置得到。SVD 的优势在于：即使 $A$ 不满秩，也能给出唯一的最小范数最小二乘解；同时，可通过截断小奇异值得到正则化解，在病态问题中大幅提升解的稳定性。

三、统计解释与性质

在统计学的框架下，最小二乘解对应着高斯-马尔可夫定理的经典结论：在误差项满足零均值、同方差且互不相关的条件下，最小二乘估计量是所有线性无偏估计量中方差最小的。这一性质赋予了最小二乘解「最优」的统计含义。

若进一步假设误差服从正态分布，最小二乘解恰好等价于极大似然估计（MLE）。在线性回归模型 $\mathbf{y} = X\boldsymbol{\beta} + \boldsymbol{\varepsilon}$ 且 $\boldsymbol{\varepsilon} \sim N(0, \sigma^2 I)$ 的设定下，对数似然函数的最大化与残差平方和的最小化完全等价。此时，最小二乘估计量不仅是 BLUE，还是 UMVUE（一致最小方差无偏估计量），且服从正态分布 $\hat{\boldsymbol{\beta}} \sim N(\boldsymbol{\beta}, \sigma^2 (X^T X)^{-1})$ ，为区间估计和假设检验奠定了精确的分布基础。

残差分析是检验最小二乘解有效性的关键手段。残差平方和 $\|\mathbf{b} - A\hat{\mathbf{x}}\|^2$ 本身提供了模型拟合优劣的度量。在回归分析中，均方误差 $\hat{\sigma}^2 = \text{RSS} / (m - n)$ （其中 $m$ 为观测数、 $n$ 为参数个数）给出了误差方差 $\sigma^2$ 的无偏估计。残差还需满足基本假设——随机且无结构——否则最小二乘解的最优性质可能不再成立。

四、扩展与变体

当数据存在异方差性（Heteroskedasticity）时，普通最小二乘解不再最优。加权最小二乘法（WLS）通过引入权重矩阵 $W$ ，最小化加权残差平方和 $(\mathbf{b} - A\mathbf{x})^T W (\mathbf{b} - A\mathbf{x})$ ，其解为 $\hat{\mathbf{x}} = (A^T W A)^{-1} A^T W \mathbf{b}$ 。当权重取各观测方差倒数的对角矩阵时，WLS 对应的估计量即为广义最小二乘（GLS）估计量，在高斯-马尔可夫框架下达到最小方差。

当矩阵 $A$ 不满秩或接近秩亏时，最小二乘解不再唯一或变得极不稳定。岭回归（Ridge Regression，即 Tikhonov 正则化）在代价函数中加入 $\lambda \|\mathbf{x}\|^2$ 的惩罚项，迫使解向原点收缩： $\hat{\mathbf{x}}_\lambda = (A^T A + \lambda I)^{-1} A^T \mathbf{b}$ 。这一修正在保证解唯一性的同时，以少量偏差为代价大幅降低了估计量的方差。LASSO（L1 正则化）则采用 $\lambda \|\mathbf{x}\|_1$ 的惩罚项，在最小二乘框架中引入变量选择能力，推动部分回归系数精确为零，在稀疏建模与高维统计中应用广泛。

对于非线性关系，非线性最小二乘法（Nonlinear Least Squares）取代了线性模型。其目标函数 $S(\boldsymbol{\theta}) = \sum_i [y_i - f(\mathbf{x}_i, \boldsymbol{\theta})]^2$ 在参数上不再线性，一般通过高斯-牛顿法或 Levenberg-Marquardt 算法进行迭代求解。这些方法在每次迭代中将非线性函数局部线性化，构造临时正规方程并更新参数估计，直至收敛。

五、计算与实现

最小二乘解的数值实现需权衡精度与效率。当 $A$ 的规模较小（如 $m \times n$ 在数千以内）时，QR 分解是首选：Householder 变换可在 $O(mn^2)$ 时间内完成分解，并通过回代求解。对于更大规模的问题，共轭梯度法（Conjugate Gradient Method）等迭代方法避免显式构造 $A^T A$ ，仅通过矩阵-向量乘法操作逐步逼近解，内存消耗低且可提前停止。

在主流编程语言中，最小二乘解的计算均有高度优化的实现。Python 的 NumPy 库提供了 \texttt{numpy.linalg.lstsq} 函数，底层调用 LAPACK 的 \texttt{DGELSD} 例程（基于 SVD 分解）。MATLAB 的 \texttt{\} 运算符（即 \texttt{mldivide}）会根据矩阵结构自动选择最适合的算法——稠密矩阵使用 QR 或 SVD，稀疏矩阵使用直接法或迭代法。R 语言中 \texttt{lm()} 函数默认使用 QR 分解，并返回完整的拟合信息用于后续推断。Julia 语言的 \texttt{\} 运算符同样调度至 LAPACK 的底层实现，性能接近手写的优化 C 代码。

实际应用中还需注意矩阵的条件数（Condition Number）。条件数 $\kappa(A) = \sigma_{\max} / \sigma_{\min}$ 刻画了数据矩阵对扰动敏感的程度。当条件数很大时，输入数据的微小变化可能导致解的巨大波动，此时应考虑正则化方法或更稳定的数值算法。此外，数据标准化（中心化与缩放）可在一定程度上改善条件数，提高解的数值可靠性。

总结

最小二乘解是处理超定线性系统的核心数学工具，其理论根基涵盖线性代数（正交投影、矩阵分解）与数理统计（高斯-马尔可夫定理、极大似然估计）。正规方程给出了解析公式，QR 分解和 SVD 提供了数值稳健的算法实现，而加权最小二乘、岭回归与 LASSO 等变体将在不同数据特征下扩展了其适用范围。从高斯预测谷神星轨道到现代大规模数据回归，最小二乘解始终是连接理论与数据、抽象模型与经验观测的桥梁。理解其原理与实现，对于数据分析、计量经济学与机器学习等领域的深入学习具有基础性意义。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。