ARTICLE

最小二乘解

最小二乘解(Least Squares Solution)是指在给定的线性系统 A x b 中,使得残差平方和 \| b - A x\|^2 达到最小的向量 x。当方程组无精确解时——即方程个数多于未知数个数,或数据受到噪声污染时——最小二乘解提供了「最佳近似解」的明确定义与计算方法。自高斯于1795年提出这一思想以来,最小二乘法已成为数据分析、参数估计与信

浏览 0 更新 2025-11-09

最小二乘解(Least Squares Solution)是指在给定的线性系统 AxbA\mathbf{x} \approx \mathbf{b} 中,使得残差平方和 bAx2\|\mathbf{b} - A\mathbf{x}\|^2 达到最小的向量 x\mathbf{x}。当方程组无精确解时——即方程个数多于未知数个数,或数据受到噪声污染时——最小二乘解提供了「最佳近似解」的明确定义与计算方法。自高斯于1795年提出这一思想以来,最小二乘法已成为数据分析、参数估计与信号处理中最基础也最广泛使用的工具之一。

一、问题的来源

最小二乘解的产生背景是超定系统(Overdetermined System)。在科学实验与工程测量中,研究者通常采集多于未知参数个数的数据点,期望通过冗余信息提高估计的可靠性。例如,测量某物理量时进行多次独立观测,或在线性回归中收集多个样本点以拟合一条直线,其数学形式均为 Ax=bA\mathbf{x} = \mathbf{b}AA 的行数大于列数。

然而,由于测量误差、模型近似或数据噪声的存在,这样的系统通常在经典意义下无解——不存在 x\mathbf{x} 同时满足所有方程。高斯在解决天体轨道预测问题时首次系统性地处理了这一困境:他不再要求方程组精确成立,而是寻找能使所有方程的总体偏差最小的解。高斯于1809年在《天体运动论》中正式发表此方法,并指出这一准则在误差服从正态分布的假设下具有最优统计性质。

从几何视角看,最小二乘解具有清晰的直观含义:向量 b\mathbf{b} 通常不在矩阵 AA 的列空间(Column Space)中,因此无法精确表示为 AA 各列的线性组合。最小二乘解正是在列空间中寻找与 b\mathbf{b} 距离最近的点,即 b\mathbf{b} 在列空间上的正交投影。残差向量 r=bAx^\mathbf{r} = \mathbf{b} - A\hat{\mathbf{x}} 必须与列空间正交,这一条件被称为正交性原理(Orthogonality Principle),它直接导出了最小二乘解的核心方程。

二、正规方程与解析解

将正交性原理转化为代数条件,得到正规方程组(Normal Equations):

ATAx^=ATbA^T A \hat{\mathbf{x}} = A^T \mathbf{b}

ATAA^T A 可逆(这要求 AA 列满秩),则最小二乘解为:

x^=(ATA)1ATb\hat{\mathbf{x}} = (A^T A)^{-1} A^T \mathbf{b}

其中 (ATA)1AT(A^T A)^{-1} A^T 称为 AA伪逆(Pseudoinverse),记作 A+A^+,这是 Moore-Penrose 伪逆在满秩列情况下的特例。该公式是线性回归分析中最核心的结果——针对多元线性回归模型 y=Xβ+ε\mathbf{y} = X\boldsymbol{\beta} + \boldsymbol{\varepsilon},最小二乘估计量即为 β^=(XTX)1XTy\hat{\boldsymbol{\beta}} = (X^T X)^{-1} X^T \mathbf{y},这正是高斯-马尔可夫定理所确立的最佳线性无偏估计量。

正规方程的求解可直接通过矩阵运算完成,但在实际计算中,直接求逆 (ATA)1(A^T A)^{-1} 并非数值稳定的首选方法。当矩阵 AA 的条件数较大时,ATAA^T A 的求逆会放大舍入误差,导致严重精度损失。更为稳健的方法是使用QR分解:将 AA 分解为 A=QRA = QR,其中 QQ 为正交矩阵、RR 为上三角矩阵,则正规方程简化为 Rx^=QTbR \hat{\mathbf{x}} = Q^T \mathbf{b}。由于 RR 为上三角矩阵,此系统可通过回代求解,计算复杂度为 O(n3)O(n^3),且数值稳定性显著优于直接求解正规方程。

对于极端病态问题,奇异值分解(SVD)提供了最通用且最稳健的解法。将 AA 分解为 A=UΣVTA = U \Sigma V^T,则最小二乘解为 x^=VΣ+UTb\hat{\mathbf{x}} = V \Sigma^+ U^T \mathbf{b},其中 Σ+\Sigma^+Σ\Sigma 的伪逆——将非零奇异值取倒数后转置得到。SVD 的优势在于:即使 AA 不满秩,也能给出唯一的最小范数最小二乘解;同时,可通过截断小奇异值得到正则化解,在病态问题中大幅提升解的稳定性。

三、统计解释与性质

在统计学的框架下,最小二乘解对应着高斯-马尔可夫定理的经典结论:在误差项满足零均值、同方差且互不相关的条件下,最小二乘估计量是所有线性无偏估计量中方差最小的。这一性质赋予了最小二乘解「最优」的统计含义。

若进一步假设误差服从正态分布,最小二乘解恰好等价于极大似然估计(MLE)。在线性回归模型 y=Xβ+ε\mathbf{y} = X\boldsymbol{\beta} + \boldsymbol{\varepsilon}εN(0,σ2I)\boldsymbol{\varepsilon} \sim N(0, \sigma^2 I) 的设定下,对数似然函数的最大化与残差平方和的最小化完全等价。此时,最小二乘估计量不仅是 BLUE,还是 UMVUE(一致最小方差无偏估计量),且服从正态分布 β^N(β,σ2(XTX)1)\hat{\boldsymbol{\beta}} \sim N(\boldsymbol{\beta}, \sigma^2 (X^T X)^{-1}),为区间估计和假设检验奠定了精确的分布基础。

残差分析是检验最小二乘解有效性的关键手段。残差平方和 bAx^2\|\mathbf{b} - A\hat{\mathbf{x}}\|^2 本身提供了模型拟合优劣的度量。在回归分析中,均方误差 σ^2=RSS/(mn)\hat{\sigma}^2 = \text{RSS} / (m - n)(其中 mm 为观测数、nn 为参数个数)给出了误差方差 σ2\sigma^2 的无偏估计。残差还需满足基本假设——随机且无结构——否则最小二乘解的最优性质可能不再成立。

四、扩展与变体

当数据存在异方差性(Heteroskedasticity)时,普通最小二乘解不再最优。加权最小二乘法(WLS)通过引入权重矩阵 WW,最小化加权残差平方和 (bAx)TW(bAx)(\mathbf{b} - A\mathbf{x})^T W (\mathbf{b} - A\mathbf{x}),其解为 x^=(ATWA)1ATWb\hat{\mathbf{x}} = (A^T W A)^{-1} A^T W \mathbf{b}。当权重取各观测方差倒数的对角矩阵时,WLS 对应的估计量即为广义最小二乘(GLS)估计量,在高斯-马尔可夫框架下达到最小方差。

当矩阵 AA 不满秩或接近秩亏时,最小二乘解不再唯一或变得极不稳定。岭回归(Ridge Regression,即 Tikhonov 正则化)在代价函数中加入 λx2\lambda \|\mathbf{x}\|^2 的惩罚项,迫使解向原点收缩:x^λ=(ATA+λI)1ATb\hat{\mathbf{x}}_\lambda = (A^T A + \lambda I)^{-1} A^T \mathbf{b}。这一修正在保证解唯一性的同时,以少量偏差为代价大幅降低了估计量的方差。LASSO(L1 正则化)则采用 λx1\lambda \|\mathbf{x}\|_1 的惩罚项,在最小二乘框架中引入变量选择能力,推动部分回归系数精确为零,在稀疏建模与高维统计中应用广泛。

对于非线性关系,非线性最小二乘法(Nonlinear Least Squares)取代了线性模型。其目标函数 S(θ)=i[yif(xi,θ)]2S(\boldsymbol{\theta}) = \sum_i [y_i - f(\mathbf{x}_i, \boldsymbol{\theta})]^2 在参数上不再线性,一般通过高斯-牛顿法或 Levenberg-Marquardt 算法进行迭代求解。这些方法在每次迭代中将非线性函数局部线性化,构造临时正规方程并更新参数估计,直至收敛。

五、计算与实现

最小二乘解的数值实现需权衡精度与效率。当 AA 的规模较小(如 m×nm \times n 在数千以内)时,QR 分解是首选:Householder 变换可在 O(mn2)O(mn^2) 时间内完成分解,并通过回代求解。对于更大规模的问题,共轭梯度法(Conjugate Gradient Method)等迭代方法避免显式构造 ATAA^T A,仅通过矩阵-向量乘法操作逐步逼近解,内存消耗低且可提前停止。

在主流编程语言中,最小二乘解的计算均有高度优化的实现。Python 的 NumPy 库提供了 \texttt{numpy.linalg.lstsq} 函数,底层调用 LAPACK 的 \texttt{DGELSD} 例程(基于 SVD 分解)。MATLAB 的 \texttt{\} 运算符(即 \texttt{mldivide})会根据矩阵结构自动选择最适合的算法——稠密矩阵使用 QR 或 SVD,稀疏矩阵使用直接法或迭代法。R 语言中 \texttt{lm()} 函数默认使用 QR 分解,并返回完整的拟合信息用于后续推断。Julia 语言的 \texttt{\} 运算符同样调度至 LAPACK 的底层实现,性能接近手写的优化 C 代码。

实际应用中还需注意矩阵的条件数(Condition Number)。条件数 κ(A)=σmax/σmin\kappa(A) = \sigma_{\max} / \sigma_{\min} 刻画了数据矩阵对扰动敏感的程度。当条件数很大时,输入数据的微小变化可能导致解的巨大波动,此时应考虑正则化方法或更稳定的数值算法。此外,数据标准化(中心化与缩放)可在一定程度上改善条件数,提高解的数值可靠性。

总结

最小二乘解是处理超定线性系统的核心数学工具,其理论根基涵盖线性代数(正交投影、矩阵分解)与数理统计(高斯-马尔可夫定理、极大似然估计)。正规方程给出了解析公式,QR 分解和 SVD 提供了数值稳健的算法实现,而加权最小二乘、岭回归与 LASSO 等变体将在不同数据特征下扩展了其适用范围。从高斯预测谷神星轨道到现代大规模数据回归,最小二乘解始终是连接理论与数据、抽象模型与经验观测的桥梁。理解其原理与实现,对于数据分析、计量经济学与机器学习等领域的深入学习具有基础性意义。