ARTICLE
最小二乘解
最小二乘解(Least Squares Solution)是指在给定的线性系统 A x b 中,使得残差平方和 \| b - A x\|^2 达到最小的向量 x。当方程组无精确解时——即方程个数多于未知数个数,或数据受到噪声污染时——最小二乘解提供了「最佳近似解」的明确定义与计算方法。自高斯于1795年提出这一思想以来,最小二乘法已成为数据分析、参数估计与信
最小二乘解(Least Squares Solution)是指在给定的线性系统 中,使得残差平方和 达到最小的向量 。当方程组无精确解时——即方程个数多于未知数个数,或数据受到噪声污染时——最小二乘解提供了「最佳近似解」的明确定义与计算方法。自高斯于1795年提出这一思想以来,最小二乘法已成为数据分析、参数估计与信号处理中最基础也最广泛使用的工具之一。
一、问题的来源
最小二乘解的产生背景是超定系统(Overdetermined System)。在科学实验与工程测量中,研究者通常采集多于未知参数个数的数据点,期望通过冗余信息提高估计的可靠性。例如,测量某物理量时进行多次独立观测,或在线性回归中收集多个样本点以拟合一条直线,其数学形式均为 且 的行数大于列数。
然而,由于测量误差、模型近似或数据噪声的存在,这样的系统通常在经典意义下无解——不存在 同时满足所有方程。高斯在解决天体轨道预测问题时首次系统性地处理了这一困境:他不再要求方程组精确成立,而是寻找能使所有方程的总体偏差最小的解。高斯于1809年在《天体运动论》中正式发表此方法,并指出这一准则在误差服从正态分布的假设下具有最优统计性质。
从几何视角看,最小二乘解具有清晰的直观含义:向量 通常不在矩阵 的列空间(Column Space)中,因此无法精确表示为 各列的线性组合。最小二乘解正是在列空间中寻找与 距离最近的点,即 在列空间上的正交投影。残差向量 必须与列空间正交,这一条件被称为正交性原理(Orthogonality Principle),它直接导出了最小二乘解的核心方程。
二、正规方程与解析解
将正交性原理转化为代数条件,得到正规方程组(Normal Equations):
若 可逆(这要求 列满秩),则最小二乘解为:
其中 称为 的伪逆(Pseudoinverse),记作 ,这是 Moore-Penrose 伪逆在满秩列情况下的特例。该公式是线性回归分析中最核心的结果——针对多元线性回归模型 ,最小二乘估计量即为 ,这正是高斯-马尔可夫定理所确立的最佳线性无偏估计量。
正规方程的求解可直接通过矩阵运算完成,但在实际计算中,直接求逆 并非数值稳定的首选方法。当矩阵 的条件数较大时, 的求逆会放大舍入误差,导致严重精度损失。更为稳健的方法是使用QR分解:将 分解为 ,其中 为正交矩阵、 为上三角矩阵,则正规方程简化为 。由于 为上三角矩阵,此系统可通过回代求解,计算复杂度为 ,且数值稳定性显著优于直接求解正规方程。
对于极端病态问题,奇异值分解(SVD)提供了最通用且最稳健的解法。将 分解为 ,则最小二乘解为 ,其中 是 的伪逆——将非零奇异值取倒数后转置得到。SVD 的优势在于:即使 不满秩,也能给出唯一的最小范数最小二乘解;同时,可通过截断小奇异值得到正则化解,在病态问题中大幅提升解的稳定性。
三、统计解释与性质
在统计学的框架下,最小二乘解对应着高斯-马尔可夫定理的经典结论:在误差项满足零均值、同方差且互不相关的条件下,最小二乘估计量是所有线性无偏估计量中方差最小的。这一性质赋予了最小二乘解「最优」的统计含义。
若进一步假设误差服从正态分布,最小二乘解恰好等价于极大似然估计(MLE)。在线性回归模型 且 的设定下,对数似然函数的最大化与残差平方和的最小化完全等价。此时,最小二乘估计量不仅是 BLUE,还是 UMVUE(一致最小方差无偏估计量),且服从正态分布 ,为区间估计和假设检验奠定了精确的分布基础。
残差分析是检验最小二乘解有效性的关键手段。残差平方和 本身提供了模型拟合优劣的度量。在回归分析中,均方误差 (其中 为观测数、 为参数个数)给出了误差方差 的无偏估计。残差还需满足基本假设——随机且无结构——否则最小二乘解的最优性质可能不再成立。
四、扩展与变体
当数据存在异方差性(Heteroskedasticity)时,普通最小二乘解不再最优。加权最小二乘法(WLS)通过引入权重矩阵 ,最小化加权残差平方和 ,其解为 。当权重取各观测方差倒数的对角矩阵时,WLS 对应的估计量即为广义最小二乘(GLS)估计量,在高斯-马尔可夫框架下达到最小方差。
当矩阵 不满秩或接近秩亏时,最小二乘解不再唯一或变得极不稳定。岭回归(Ridge Regression,即 Tikhonov 正则化)在代价函数中加入 的惩罚项,迫使解向原点收缩:。这一修正在保证解唯一性的同时,以少量偏差为代价大幅降低了估计量的方差。LASSO(L1 正则化)则采用 的惩罚项,在最小二乘框架中引入变量选择能力,推动部分回归系数精确为零,在稀疏建模与高维统计中应用广泛。
对于非线性关系,非线性最小二乘法(Nonlinear Least Squares)取代了线性模型。其目标函数 在参数上不再线性,一般通过高斯-牛顿法或 Levenberg-Marquardt 算法进行迭代求解。这些方法在每次迭代中将非线性函数局部线性化,构造临时正规方程并更新参数估计,直至收敛。
五、计算与实现
最小二乘解的数值实现需权衡精度与效率。当 的规模较小(如 在数千以内)时,QR 分解是首选:Householder 变换可在 时间内完成分解,并通过回代求解。对于更大规模的问题,共轭梯度法(Conjugate Gradient Method)等迭代方法避免显式构造 ,仅通过矩阵-向量乘法操作逐步逼近解,内存消耗低且可提前停止。
在主流编程语言中,最小二乘解的计算均有高度优化的实现。Python 的 NumPy 库提供了 \texttt{numpy.linalg.lstsq} 函数,底层调用 LAPACK 的 \texttt{DGELSD} 例程(基于 SVD 分解)。MATLAB 的 \texttt{\} 运算符(即 \texttt{mldivide})会根据矩阵结构自动选择最适合的算法——稠密矩阵使用 QR 或 SVD,稀疏矩阵使用直接法或迭代法。R 语言中 \texttt{lm()} 函数默认使用 QR 分解,并返回完整的拟合信息用于后续推断。Julia 语言的 \texttt{\} 运算符同样调度至 LAPACK 的底层实现,性能接近手写的优化 C 代码。
实际应用中还需注意矩阵的条件数(Condition Number)。条件数 刻画了数据矩阵对扰动敏感的程度。当条件数很大时,输入数据的微小变化可能导致解的巨大波动,此时应考虑正则化方法或更稳定的数值算法。此外,数据标准化(中心化与缩放)可在一定程度上改善条件数,提高解的数值可靠性。
总结
最小二乘解是处理超定线性系统的核心数学工具,其理论根基涵盖线性代数(正交投影、矩阵分解)与数理统计(高斯-马尔可夫定理、极大似然估计)。正规方程给出了解析公式,QR 分解和 SVD 提供了数值稳健的算法实现,而加权最小二乘、岭回归与 LASSO 等变体将在不同数据特征下扩展了其适用范围。从高斯预测谷神星轨道到现代大规模数据回归,最小二乘解始终是连接理论与数据、抽象模型与经验观测的桥梁。理解其原理与实现,对于数据分析、计量经济学与机器学习等领域的深入学习具有基础性意义。