ARTICLE

非线性最小二乘法

非线性最小二乘法 (Nonlinear Least Squares) 非线性最小二乘法(Nonlinear Least Squares, NLS)是回归分析中用于估计非线性模型参数的一类重要方法。当因变量与参数之间呈非线性关系时,普通最小二乘法(OLS)的线性假设不再成立,需要借助非线性最小二乘法进行参数估计。该方法广泛应用于计量经济学、生物统计学、物理学以

浏览 1 更新 2026-07-20

非线性最小二乘法 (Nonlinear Least Squares)

非线性最小二乘法(Nonlinear Least Squares, NLS)是回归分析中用于估计非线性模型参数的一类重要方法。当因变量与参数之间呈非线性关系时,普通最小二乘法(OLS)的线性假设不再成立,需要借助非线性最小二乘法进行参数估计。该方法广泛应用于计量经济学生物统计学物理学以及工程学等领域的模型拟合问题。

模型设定

非线性回归模型的一般形式为:

yi=f(xi,β)+ϵi,i=1,,ny_i = f(\mathbf{x}_i, \boldsymbol{\beta}) + \epsilon_i, \quad i = 1, \ldots, n

其中 yiy_i 为因变量,xi\mathbf{x}_i 为解释变量向量,β\boldsymbol{\beta} 为待估参数向量(k×1k \times 1),f()f(\cdot) 为已知的非线性函数形式,ϵi\epsilon_i误差项,通常假定 E[ϵixi]=0\mathbb{E}[\epsilon_i | \mathbf{x}_i] = 0Var(ϵixi)=σ2\text{Var}(\epsilon_i | \mathbf{x}_i) = \sigma^2

与线性模型不同,非线性模型中的 f(xi,β)f(\mathbf{x}_i, \boldsymbol{\beta}) 至少对某个参数 βj\beta_j非线性的。常见例子包括指数增长模型 y=β1eβ2x+ϵy = \beta_1 e^{\beta_2 x} + \epsilonCobb-Douglas生产函数 y=β1Kβ2Lβ3eϵy = \beta_1 K^{\beta_2} L^{\beta_3} e^{\epsilon} 以及 logistic 增长曲线等。

目标函数与估计原理

非线性最小二乘法的目标是最小化残差平方和:

S(β)=i=1n[yif(xi,β)]2=i=1nri(β)2S(\boldsymbol{\beta}) = \sum_{i=1}^{n} \left[y_i - f(\mathbf{x}_i, \boldsymbol{\beta})\right]^2 = \sum_{i=1}^{n} r_i(\boldsymbol{\beta})^2

其中 ri(β)=yif(xi,β)r_i(\boldsymbol{\beta}) = y_i - f(\mathbf{x}_i, \boldsymbol{\beta}) 为第 ii 个观测的残差。与线性最小二乘不同,S(β)S(\boldsymbol{\beta}) 关于 β\boldsymbol{\beta} 并非二次函数,因此无法通过求解线性方程组得到闭式解。

NLS估计量 β^NLS\hat{\boldsymbol{\beta}}_{\text{NLS}} 被定义为:

β^NLS=argminβΘi=1n[yif(xi,β)]2\hat{\boldsymbol{\beta}}_{\text{NLS}} = \arg\min_{\boldsymbol{\beta} \in \Theta} \sum_{i=1}^{n} \left[y_i - f(\mathbf{x}_i, \boldsymbol{\beta})\right]^2

其中 ΘRk\Theta \subseteq \mathbb{R}^k 为参数空间。该最小化问题通常没有解析解,需要借助数值优化算法进行迭代求解。

数值求解方法

Gauss-Newton算法

Gauss-Newton算法是求解NLS问题最经典的迭代方法。其核心思想是使用一阶泰勒展开对非线性函数进行线性逼近。设 β(t)\boldsymbol{\beta}^{(t)} 为第 tt 步的估计值,则:

f(xi,β)f(xi,β(t))+Ji(β(t))(ββ(t))f(\mathbf{x}_i, \boldsymbol{\beta}) \approx f(\mathbf{x}_i, \boldsymbol{\beta}^{(t)}) + \mathbf{J}_i(\boldsymbol{\beta}^{(t)})' (\boldsymbol{\beta} - \boldsymbol{\beta}^{(t)})

其中 Ji(β)=f(xi,β)β\mathbf{J}_i(\boldsymbol{\beta}) = \frac{\partial f(\mathbf{x}_i, \boldsymbol{\beta})}{\partial \boldsymbol{\beta}}k×1k \times 1 的梯度向量。代入目标函数后,原问题转化为线性最小二乘问题,迭代更新式为:

β(t+1)=β(t)+[J(β(t))J(β(t))]1J(β(t))r(β(t))\boldsymbol{\beta}^{(t+1)} = \boldsymbol{\beta}^{(t)} + \left[\mathbf{J}(\boldsymbol{\beta}^{(t)})' \mathbf{J}(\boldsymbol{\beta}^{(t)})\right]^{-1} \mathbf{J}(\boldsymbol{\beta}^{(t)})' \mathbf{r}(\boldsymbol{\beta}^{(t)})

其中 J\mathbf{J}n×kn \times k雅可比矩阵r\mathbf{r} 为残差向量。

Levenberg-Marquardt算法

Levenberg-Marquardt算法(LM算法)是Gauss-Newton算法的改进版本,通过引入阻尼参数 λ0\lambda \ge 0 来增强算法的稳定性和收敛性:

β(t+1)=β(t)+[JJ+λI]1Jr\boldsymbol{\beta}^{(t+1)} = \boldsymbol{\beta}^{(t)} + \left[\mathbf{J}' \mathbf{J} + \lambda \mathbf{I}\right]^{-1} \mathbf{J}' \mathbf{r}

λ\lambda 较大时,算法接近梯度下降法,适合远离最优解时使用;当 λ\lambda 较小时,算法退化为Gauss-Newton法,在最优解附近具有二次收敛速度。LM算法因此兼具全局收敛性和局部快速收敛性。

其他算法

除上述方法外,拟牛顿法(如BFGS算法)和共轭梯度法也常用于求解NLS问题。对于特定结构的问题,还可采用可变投影法(Variable Projection)等专门算法。

统计性质

在正则性条件下,NLS估计量具有以下大样本性质:

  • 一致性β^NLSpβ0\hat{\boldsymbol{\beta}}_{\text{NLS}} \xrightarrow{p} \boldsymbol{\beta}_0,其中 β0\boldsymbol{\beta}_0 为真实参数值。
  • 渐近正态性n(β^NLSβ0)dN(0,σ2A1)\sqrt{n}(\hat{\boldsymbol{\beta}}_{\text{NLS}} - \boldsymbol{\beta}_0) \xrightarrow{d} \mathcal{N}(\mathbf{0}, \sigma^2 \mathbf{A}^{-1}),其中 A=limn1nE[JJ]\mathbf{A} = \lim_{n \to \infty} \frac{1}{n} \mathbb{E}[\mathbf{J}' \mathbf{J}]
  • 渐近有效性:在同方差且误差正态分布的假设下,NLS估计量是渐近有效的。

与线性模型不同,NLS估计量通常存在偏误(Bias),且在小样本下其有限样本性质难以解析推导,实践中多依赖自助法(Bootstrap)进行推断。

模型诊断与选择

非线性模型的拟合优度可通过广义 R2R^2 或基于似然的信息准则(如AICBIC)进行评估。残差分析同样重要,包括检验残差的正态性、异方差性和自相关性。似然比检验(LR检验)、沃尔德检验(Wald检验)和拉格朗日乘数检验(LM检验)均可用于非线性模型中的假设检验。

与线性最小二乘法的比较

线性最小二乘法是NLS在 f(xi,β)=xiβf(\mathbf{x}_i, \boldsymbol{\beta}) = \mathbf{x}_i' \boldsymbol{\beta} 时的特例。两者主要区别在于:线性最小二乘有闭式解 β^OLS=(XX)1Xy\hat{\boldsymbol{\beta}}_{\text{OLS}} = (\mathbf{X}'\mathbf{X})^{-1} \mathbf{X}'\mathbf{y},计算简便且无偏;NLS需迭代求解,存在局部最优和初始值选择问题,且估计量一般有偏。然而,当真实关系为非线性时,错误使用线性模型将导致模型设定偏误,NLS提供更灵活和准确的拟合能力。

应用实例

在计量经济学中,NLS常用于估计非线性生产函数、技术扩散的S形曲线、利率期限结构模型等。在生物统计学中,NLS被广泛应用于药物动力学中的剂量-反应曲线拟合和生长曲线建模。在工程领域,NLS用于系统辨识和信号处理中的参数估计问题。现代机器学习中的神经网络训练也本质上是求解大规模非线性最小二乘问题。