非线性最小二乘法 (Nonlinear Least Squares)
非线性最小二乘法 (Nonlinear Least Squares, NLS)是回归分析 中用于估计非线性模型 参数的一类重要方法。当因变量与参数之间呈非线性关系时,普通最小二乘法 (OLS)的线性假设不再成立,需要借助非线性最小二乘法进行参数估计。该方法广泛应用于计量经济学 、生物统计学 、物理学 以及工程学 等领域的模型拟合问题。
模型设定
非线性回归模型的一般形式为:
y i = f ( x i , β ) + ϵ i , i = 1 , … , n y_i = f(\mathbf{x}_i, \boldsymbol{\beta}) + \epsilon_i, \quad i = 1, \ldots, n y i = f ( x i , β ) + ϵ i , i = 1 , … , n
其中 y i y_i y i 为因变量,x i \mathbf{x}_i x i 为解释变量向量,β \boldsymbol{\beta} β 为待估参数向量(k × 1 k \times 1 k × 1 ),f ( ⋅ ) f(\cdot) f ( ⋅ ) 为已知的非线性函数形式,ϵ i \epsilon_i ϵ i 为误差项 ,通常假定 E [ ϵ i ∣ x i ] = 0 \mathbb{E}[\epsilon_i | \mathbf{x}_i] = 0 E [ ϵ i ∣ x i ] = 0 且 Var ( ϵ i ∣ x i ) = σ 2 \text{Var}(\epsilon_i | \mathbf{x}_i) = \sigma^2 Var ( ϵ i ∣ x i ) = σ 2 。
与线性模型不同,非线性模型中的 f ( x i , β ) f(\mathbf{x}_i, \boldsymbol{\beta}) f ( x i , β ) 至少对某个参数 β j \beta_j β j 是非线性 的。常见例子包括指数增长模型 y = β 1 e β 2 x + ϵ y = \beta_1 e^{\beta_2 x} + \epsilon y = β 1 e β 2 x + ϵ 、Cobb-Douglas生产函数 y = β 1 K β 2 L β 3 e ϵ y = \beta_1 K^{\beta_2} L^{\beta_3} e^{\epsilon} y = β 1 K β 2 L β 3 e ϵ 以及 logistic 增长曲线等。
目标函数与估计原理
非线性最小二乘法的目标是最小化残差平方和:
S ( β ) = ∑ i = 1 n [ y i − f ( x i , β ) ] 2 = ∑ i = 1 n r i ( β ) 2 S(\boldsymbol{\beta}) = \sum_{i=1}^{n} \left[y_i - f(\mathbf{x}_i, \boldsymbol{\beta})\right]^2 = \sum_{i=1}^{n} r_i(\boldsymbol{\beta})^2 S ( β ) = i = 1 ∑ n [ y i − f ( x i , β ) ] 2 = i = 1 ∑ n r i ( β ) 2
其中 r i ( β ) = y i − f ( x i , β ) r_i(\boldsymbol{\beta}) = y_i - f(\mathbf{x}_i, \boldsymbol{\beta}) r i ( β ) = y i − f ( x i , β ) 为第 i i i 个观测的残差。与线性最小二乘不同,S ( β ) S(\boldsymbol{\beta}) S ( β ) 关于 β \boldsymbol{\beta} β 并非二次函数,因此无法通过求解线性方程组得到闭式解。
NLS估计量 β ^ NLS \hat{\boldsymbol{\beta}}_{\text{NLS}} β ^ NLS 被定义为:
β ^ NLS = arg min β ∈ Θ ∑ i = 1 n [ y i − f ( x i , β ) ] 2 \hat{\boldsymbol{\beta}}_{\text{NLS}} = \arg\min_{\boldsymbol{\beta} \in \Theta} \sum_{i=1}^{n} \left[y_i - f(\mathbf{x}_i, \boldsymbol{\beta})\right]^2 β ^ NLS = arg β ∈ Θ min i = 1 ∑ n [ y i − f ( x i , β ) ] 2
其中 Θ ⊆ R k \Theta \subseteq \mathbb{R}^k Θ ⊆ R k 为参数空间。该最小化问题通常没有解析解,需要借助数值优化 算法进行迭代求解。
数值求解方法
Gauss-Newton算法
Gauss-Newton算法是求解NLS问题最经典的迭代方法。其核心思想是使用一阶泰勒展开 对非线性函数进行线性逼近。设 β ( t ) \boldsymbol{\beta}^{(t)} β ( t ) 为第 t t t 步的估计值,则:
f ( x i , β ) ≈ f ( x i , β ( t ) ) + J i ( β ( t ) ) ′ ( β − β ( t ) ) f(\mathbf{x}_i, \boldsymbol{\beta}) \approx f(\mathbf{x}_i, \boldsymbol{\beta}^{(t)}) + \mathbf{J}_i(\boldsymbol{\beta}^{(t)})' (\boldsymbol{\beta} - \boldsymbol{\beta}^{(t)}) f ( x i , β ) ≈ f ( x i , β ( t ) ) + J i ( β ( t ) ) ′ ( β − β ( t ) )
其中 J i ( β ) = ∂ f ( x i , β ) ∂ β \mathbf{J}_i(\boldsymbol{\beta}) = \frac{\partial f(\mathbf{x}_i, \boldsymbol{\beta})}{\partial \boldsymbol{\beta}} J i ( β ) = ∂ β ∂ f ( x i , β ) 为 k × 1 k \times 1 k × 1 的梯度向量。代入目标函数后,原问题转化为线性最小二乘问题,迭代更新式为:
β ( t + 1 ) = β ( t ) + [ J ( β ( t ) ) ′ J ( β ( t ) ) ] − 1 J ( β ( t ) ) ′ r ( β ( t ) ) \boldsymbol{\beta}^{(t+1)} = \boldsymbol{\beta}^{(t)} + \left[\mathbf{J}(\boldsymbol{\beta}^{(t)})' \mathbf{J}(\boldsymbol{\beta}^{(t)})\right]^{-1} \mathbf{J}(\boldsymbol{\beta}^{(t)})' \mathbf{r}(\boldsymbol{\beta}^{(t)}) β ( t + 1 ) = β ( t ) + [ J ( β ( t ) ) ′ J ( β ( t ) ) ] − 1 J ( β ( t ) ) ′ r ( β ( t ) )
其中 J \mathbf{J} J 为 n × k n \times k n × k 的雅可比矩阵 ,r \mathbf{r} r 为残差向量。
Levenberg-Marquardt算法
Levenberg-Marquardt算法 (LM算法)是Gauss-Newton算法的改进版本,通过引入阻尼参数 λ ≥ 0 \lambda \ge 0 λ ≥ 0 来增强算法的稳定性和收敛性:
β ( t + 1 ) = β ( t ) + [ J ′ J + λ I ] − 1 J ′ r \boldsymbol{\beta}^{(t+1)} = \boldsymbol{\beta}^{(t)} + \left[\mathbf{J}' \mathbf{J} + \lambda \mathbf{I}\right]^{-1} \mathbf{J}' \mathbf{r} β ( t + 1 ) = β ( t ) + [ J ′ J + λ I ] − 1 J ′ r
当 λ \lambda λ 较大时,算法接近梯度下降法 ,适合远离最优解时使用;当 λ \lambda λ 较小时,算法退化为Gauss-Newton法,在最优解附近具有二次收敛速度。LM算法因此兼具全局收敛性和局部快速收敛性。
其他算法
除上述方法外,拟牛顿法 (如BFGS算法)和共轭梯度法 也常用于求解NLS问题。对于特定结构的问题,还可采用可变投影法 (Variable Projection)等专门算法。
统计性质
在正则性条件下,NLS估计量具有以下大样本性质:
一致性 :β ^ NLS → p β 0 \hat{\boldsymbol{\beta}}_{\text{NLS}} \xrightarrow{p} \boldsymbol{\beta}_0 β ^ NLS p β 0 ,其中 β 0 \boldsymbol{\beta}_0 β 0 为真实参数值。渐近正态性 :n ( β ^ NLS − β 0 ) → d N ( 0 , σ 2 A − 1 ) \sqrt{n}(\hat{\boldsymbol{\beta}}_{\text{NLS}} - \boldsymbol{\beta}_0) \xrightarrow{d} \mathcal{N}(\mathbf{0}, \sigma^2 \mathbf{A}^{-1}) n ( β ^ NLS − β 0 ) d N ( 0 , σ 2 A − 1 ) ,其中 A = lim n → ∞ 1 n E [ J ′ J ] \mathbf{A} = \lim_{n \to \infty} \frac{1}{n} \mathbb{E}[\mathbf{J}' \mathbf{J}] A = lim n → ∞ n 1 E [ J ′ J ] 。渐近有效性 :在同方差 且误差正态分布的假设下,NLS估计量是渐近有效的。
与线性模型不同,NLS估计量通常存在偏误 (Bias),且在小样本下其有限样本性质难以解析推导,实践中多依赖自助法 (Bootstrap)进行推断。
模型诊断与选择
非线性模型的拟合优度可通过广义 R 2 R^2 R 2 或基于似然的信息准则(如AIC 、BIC )进行评估。残差分析同样重要,包括检验残差的正态性、异方差 性和自相关 性。似然比检验 (LR检验)、沃尔德检验 (Wald检验)和拉格朗日乘数检验 (LM检验)均可用于非线性模型中的假设检验。
与线性最小二乘法的比较
线性最小二乘法是NLS在 f ( x i , β ) = x i ′ β f(\mathbf{x}_i, \boldsymbol{\beta}) = \mathbf{x}_i' \boldsymbol{\beta} f ( x i , β ) = x i ′ β 时的特例。两者主要区别在于:线性最小二乘有闭式解 β ^ OLS = ( X ′ X ) − 1 X ′ y \hat{\boldsymbol{\beta}}_{\text{OLS}} = (\mathbf{X}'\mathbf{X})^{-1} \mathbf{X}'\mathbf{y} β ^ OLS = ( X ′ X ) − 1 X ′ y ,计算简便且无偏;NLS需迭代求解,存在局部最优和初始值选择问题,且估计量一般有偏。然而,当真实关系为非线性时,错误使用线性模型将导致模型设定偏误,NLS提供更灵活和准确的拟合能力。
应用实例
在计量经济学中,NLS常用于估计非线性生产函数、技术扩散的S形曲线、利率期限结构模型等。在生物统计学中,NLS被广泛应用于药物动力学中的剂量-反应曲线拟合和生长曲线建模。在工程领域,NLS用于系统辨识和信号处理中的参数估计问题。现代机器学习 中的神经网络 训练也本质上是求解大规模非线性最小二乘问题。
关于知经 KNOWECON
知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌,长期面向北京大学、清华大学、中国人民大学等顶尖院校,提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考,并成功进入理想院校。
知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业,获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者,长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。
我们相信,好的考研辅导不只是押题和陪跑,更是把复杂知识讲清楚、把复习路径设计清楚,并用技术让学习过程更可追踪、更可反馈、更可坚持。