ARTICLE

非线性回归

非线性回归 (Nonlinear Regression) 非线性回归是回归分析中处理因变量与自变量之间非线性关系的一类统计方法的总称。与线性回归假定参数线性地进入模型不同,非线性回归允许模型参数以非线性形式出现,从而能够刻画更丰富的经济关系和生成机制。非线性回归在经济学中的应用极为广泛,涵盖生产函数估计、技术变迁分析、金融波动建模以及微观经济行为的结构估计等

浏览 0 更新 2026-07-16

非线性回归 (Nonlinear Regression)

非线性回归回归分析中处理因变量与自变量之间非线性关系的一类统计方法的总称。与线性回归假定参数线性地进入模型不同,非线性回归允许模型参数以非线性形式出现,从而能够刻画更丰富的经济关系和生成机制。非线性回归在经济学中的应用极为广泛,涵盖生产函数估计、技术变迁分析、金融波动建模以及微观经济行为的结构估计等诸多领域。理解非线性回归的理论基础、估计方法与实践挑战,是从事实证研究的重要能力。

非线性回归的定义与基本形式

非线性回归模型的一般形式可写为:

yi=f(xi,β)+εi,i=1,2,,ny_i = f(x_i, \beta) + \varepsilon_i, \quad i = 1, 2, \dots, n

其中 f(xi,β)f(x_i, \beta) 是参数 β\beta 和自变量 xix_i 的已知非线性函数,εi\varepsilon_i 为随机误差项。与线性模型的关键区别在于:导数 f(xi,β)/β\partial f(x_i, \beta)/\partial \beta 依赖于 β\beta 本身。例如Cobb-Douglas生产函数 y=AKαLβeεy = A K^\alpha L^\beta e^\varepsilon 在取对数后变为线性,但CES生产函数 y=A[δKρ+(1δ)Lρ]ν/ρeεy = A [\delta K^{-\rho} + (1-\delta) L^{-\rho}]^{-\nu/\rho} e^\varepsilon 即使在取对数后仍关于参数 ρ\rho 非线性,必须使用非线性回归方法估计。非线性回归本质上是将经济学理论中内在非线性的结构关系与统计推断框架相结合的工具。

估计方法:非线性最小二乘法

非线性回归的主要估计方法为非线性最小二乘法(Nonlinear Least Squares, NLS),其思想是极小化残差平方和:

S(β)=i=1n[yif(xi,β)]2S(\beta) = \sum_{i=1}^n [y_i - f(x_i, \beta)]^2

与线性最小二乘不同,NLS 的正规方程 S(β)/β=0\partial S(\beta)/\partial \beta = 0 通常没有解析解,必须借助数值优化算法求解。常用的算法包括:

  • Gauss-Newton算法:将非线性函数在参数当前估计值处做一阶泰勒展开,将问题近似为线性回归迭代求解,每次迭代更新量为 (JJ)1Je(\mathbf{J}'\mathbf{J})^{-1}\mathbf{J}'\mathbf{e},其中 J\mathbf{J} 为 Jacobian 矩阵,e\mathbf{e} 为残差向量。该算法在靠近最优解时收敛较快,但初始值选取不当可能导致不收敛。
  • Newton-Raphson算法:利用目标函数的二阶导数(Hessian矩阵)进行迭代,收敛速度更快但计算量更大。
  • Levenberg-Marquardt算法:在 Gauss-Newton 和梯度下降法之间插值,加入阻尼因子以改善收敛的稳健性,是实践中应用最广泛的 NLS 算法。
  • 梯度下降法:沿目标函数的负梯度方向迭代更新参数,适用于大规模优化问题,但收敛速度较慢。

NLS 估计量的渐近性质与线性模型下的 OLS 估计量类似:在正则条件下,NLS 估计量是一致渐近正态的,并且是渐近有效的。这些条件要求函数 ff 关于参数连续可微、Jacobian 矩阵满秩、误差项独立同分布且具有有限方差。

计量经济学中的常见非线性模型

  • CES 生产函数y=A[δKρ+(1δ)Lρ]ν/ρy = A [\delta K^{-\rho} + (1-\delta) L^{-\rho}]^{-\nu/\rho},参数 ρ\rho 决定资本与劳动之间的替代弹性 σ=1/(1+ρ)\sigma = 1/(1+\rho),是宏观经济学和产业组织理论中估计要素替代弹性的标准工具。
  • Logistic 增长模型yt=K/(1+er(tt0))y_t = K/(1 + e^{-r(t-t_0)}),常用于技术扩散、产业生命周期和人口增长的建模,参数 KK 为饱和水平,rr 为增长率。
  • Box-Cox 变换模型y(λ)=Xβ+εy^{(\lambda)} = X\beta + \varepsilon,其中 y(λ)=(yλ1)/λy^{(\lambda)} = (y^\lambda - 1)/\lambdaλ0\lambda \neq 0)或 lny\ln yλ=0\lambda = 0),通过数据驱动的方式选择适当的函数形式。
  • 分段回归与门限回归:模型在不同区间采用不同的线性形式,转折点(门限值)本身也是待估参数,Hansen(2000)的门限回归方法在宏观经济学和金融学中应用广泛。
  • 非线性 IV 模型:当解释变量存在内生性时,需使用非线性两阶段最小二乘法(NL2SLS)或广义矩估计(GMM)进行估计。

初始值与收敛问题

非线性回归的一个核心实践难题是初始值选择。由于目标函数可能存在多个局部极小值,选取不当的初始值会导致算法收敛到错误的局部最优点而非全局最优。常用的初始值选取策略包括:

  • 基于经济学理论或先前研究的参数取值作为初始值。
  • 将非线性模型在某一特殊参数取值处退化为线性模型,使用 OLS 估计结果作为初始值。例如将 CES 生产函数设定 ρ=0\rho = 0(退化为 Cobb-Douglas),估计后在逐步放松约束。
  • 使用网格搜索(Grid Search)在多组初始值下运行算法,选择目标函数最小的结果。
  • 两步法:先通过非线性变换将部分参数分离出来进行初步估计。

Davidson 和 MacKinnon(1993)建议,实证研究者应始终在多种不同的初始值下检验非线性回归的估计结果是否稳定,任何对初始值敏感的估计结果都应谨慎解读。

推断与假设检验

非线性回归的统计推断依赖于渐近理论。在大样本条件下,NLS 估计量的方差-协方差矩阵渐近等于 σ2(JJ)1\sigma^2 (\mathbf{J}'\mathbf{J})^{-1},其中 σ2\sigma^2 为误差方差的一致估计量。基于此可构造沃尔德检验(Wald test)对参数的线性或非线性约束进行检验。

似然比检验(LRT)在非线性回归中同样适用,用于比较嵌套模型的拟合优度。在异方差或自相关存在时,需使用异方差一致标准误(如 Huber-White 估计量)或Newey-West 标准误进行修正。此外,Bootstrap方法在非线性回归的推断中具有特殊价值——当渐近近似效果不佳时(如小样本情形),Bootstrap 置信区间往往比渐近置信区间具有更好的有限样本表现。

模型比较与选择

  • 拟合优度:非线性回归中 R2R^2 的定义需要谨慎。广义 R2R^2 定义为 1RSS/TSS1 - \text{RSS}/\text{TSS},但不再具有线性回归中"方差解释比例"的解读。
  • 信息准则AICBIC在非线性回归中依然有效,用于在不同非线性模型之间进行权衡。
  • 交叉验证:非线性模型过拟合风险更高,K 折交叉验证在模型选择中尤为重要。
  • J 检验:Davidson 和 MacKinnon(1981)提出的 J 检验用于非嵌套非线性模型的比较,通过构造人工回归方程检验一个模型能否被另一个模型拒绝。

非线性回归与机器学习方法的关系

非线性回归与机器学习中的非参数回归方法之间存在密切关联。K-近邻算法(KNN)、核回归(Kernel Regression)、回归树神经网络都可以看作是对非线性回归的拓展——它们同样不需要预设参数线性进入模型,但更强调预测精度而非结构参数的经济学解释。传统非线性回归的优势在于提供可直接解读的结构参数(如替代弹性、技术参数),这一点在经济学研究中具有不可替代的地位。两种方法互为补充:前者服务于经济理论的检验和测量,后者服务于预测精度的最大化。在实证研究中,经济学家常将理论驱动的非线性回归与数据驱动的机器学习方法结合使用,以获得对经济现象更全面的理解。