ARTICLE

多项式回归

多项式回归 (Polynomial Regression) 多项式回归 (Polynomial Regression) 是一种回归分析方法,属于线性回归模型的一种特殊形式。它通过拟合一个关于自变量 X 的 d 次多项式来描述自变量 X 与因变量 Y 之间的非线性关系。尽管它用于捕捉曲线关系,但从模型参数的角度来看,它仍然是一种线性模型。 在基本的线性回归中,

浏览 75 更新 2025-10-25

多项式回归 (Polynomial Regression)

多项式回归 (Polynomial Regression) 是一种回归分析方法,属于线性回归模型的一种特殊形式。它通过拟合一个关于自变量 XXdd 次多项式来描述自变量 XX因变量 YY 之间的非线性关系。尽管它用于捕捉曲线关系,但从模型参数的角度来看,它仍然是一种线性模型。

在基本的线性回归中,我们假设因变量和自变量之间存在一条直线关系。然而,在许多现实世界的数据中,这种关系是曲线形的。多项式回归通过在模型中引入自变量的更高次项(如平方项、立方项等),提供了更大的灵活性来拟合这种非线性的数据模式。

模型定义与数学形式

在仅含一个自变量的情况下,一个 dd 次多项式回归模型可以表示为:

Y=β0+β1X+β2X2++βdXd+ϵY = \beta_0 + \beta_1 X + \beta_2 X^2 + \dots + \beta_d X^d + \epsilon

其中:

  • YY 是因变量,即我们希望预测或解释的变量。
  • XX 是自变量。
  • β0,β1,,βd\beta_0, \beta_1, \dots, \beta_d 是模型的回归系数,代表了数据中不同次项的权重。
  • dd 是多项式的阶数 (Degree),是一个正整数,决定了拟合曲线的复杂度和弯曲程度。当 d=1d=1 时,该模型退化为简单的线性回归模型。
  • ϵ\epsilon误差项,代表了模型未能解释的随机变异。

为什么多项式回归是"线性"的?

这是一个初学者常见的困惑点。"线性模型"中的"线性"指的是模型对于参数 β\beta 是线性的,而不是指因变量 YY 和自变量 XX 之间的关系必须是线性的。

为了更好地理解这一点,我们可以通过一个简单的变量转换技巧,将多项式回归模型重写为一个标准的多元线性回归模型。我们定义一组新的自变量:

X1=X,X2=X2,,Xd=XdX_1 = X, \quad X_2 = X^2, \quad \dots, \quad X_d = X^d

然后,原始的多项式回归模型就可以写成:

Y=β0+β1X1+β2X2++βdXd+ϵY = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_d X_d + \epsilon

这个形式与一个包含 dd 个自变量 (X1,X2,,XdX_1, X_2, \dots, X_d) 的多元线性回归模型完全相同。因此,我们可以使用与拟合标准线性回归模型完全相同的技术,例如最小二乘法 (Ordinary Least Squares, OLS),来估计参数 β0,β1,,βd\beta_0, \beta_1, \dots, \beta_d

选择多项式的阶数 (dd)

选择合适的阶数 dd 是多项式回归中最关键的步骤之一。这个选择体现了经典的偏差-方差权衡

  • 低阶数(例如 d=1d=1:模型可能过于简单,无法捕捉数据中真实的曲线关系。这会导致欠拟合 (Underfitting),模型的偏差 (Bias) 很高,对训练数据和新数据的预测效果都很差。
  • 高阶数(例如 d=10d=10:模型可能过于复杂和灵活,以至于它不仅学习了数据中潜在的规律,还学习了数据中的随机噪声。这会导致过拟合 (Overfitting),模型的方差 (Variance) 很高。这样的模型在训练数据上表现极好(例如,R平方值非常高),但在未见过的新数据(测试数据)上表现会非常糟糕。

确定最优阶数 dd 的常用方法包括:

  1. 可视化分析:通过绘制数据的散点图,直观地判断关系的复杂程度。
  2. 交叉验证 (Cross-Validation):这是最常用和最稳健的方法。例如,使用 kk 折交叉验证,对每个候选的阶数 dd(如 d=1,2,3,d=1, 2, 3, \dots),计算其在验证集上的平均损失函数值(如均方误差,Mean Squared Error, MSE)。选择使验证误差最小的那个阶数 dd 作为最优阶数。
  3. 信息准则:使用Akaike信息准则 (AIC) 或贝叶斯信息准则 (BIC) 等统计量。这些准则在衡量模型拟合优度的同时,对模型的复杂性(即参数数量)施加惩罚,从而在拟合与简洁之间取得平衡。通常选择使 AIC 或 BIC 值最小的模型。
  4. 假设检验:可以采用序贯的方式进行检验。例如,先拟合一个线性模型 (d=1d=1),然后拟合一个二次模型 (d=2d=2),并使用 FF 检验来判断新加入的二次项 β2X2\beta_2 X^2 是否在统计上显著。如果显著,则保留二次项,并继续检验三次项,以此类推,直到新加入的更高次项不再显著为止。

模型解释与注意事项

系数解释

在多项式回归中,解释单个的回归系数 βj\beta_j 变得困难。与简单线性回归中 β1\beta_1 代表"XX 每增加一个单位,YY 变化的量"不同,在多项式回归中,XXYY 的边际效应不再是一个常数,而是依赖于 XX 本身的值。XXYY 的瞬时变化率可以通过求导数得到:

YX=β1+2β2X+3β3X2++dβdXd1\frac{\partial Y}{\partial X} = \beta_1 + 2\beta_2 X + 3\beta_3 X^2 + \dots + d\beta_d X^{d-1}

因此,我们通常不关注单个系数的大小或符号,而是关注整个拟合曲线的形状和趋势。

缺点与风险

  1. 多重共线性 (Multicollinearity):当 dd 较大时,自变量的各次幂(X,X2,X3,X, X^2, X^3, \dots)之间通常会高度相关。例如,在一个样本中,身高和身高的平方几乎是线性相关的。高度的多重共线性会使得系数估计值非常不稳定,且其标准误会变得很大,从而降低了解释的可靠性。使用中心化的自变量(即用 XXˉX - \bar{X} 代替 XX)或使用正交多项式 (Orthogonal Polynomials) 可以在一定程度上缓解这个问题。
  2. 外推风险:多项式函数在数据范围的边缘和外部区域可能表现出剧烈的、不切实际的波动。因此,使用多项式回归模型进行外推(即预测超出原始数据范围的 XX 值)是极其危险的。
  3. 全局性结构:多项式回归模型假设一个单一的函数(该多项式)对整个数据集的结构都是有效的。如果数据的不同区域具有不同的行为模式,那么一个全局的多项式模型可能无法很好地捕捉它。在这种情况下,诸如样条回归 (Spline Regression) 或广义可加模型 (GAMs) 等局部回归方法可能是更好的选择。

应用实例

多项式回归在经济学和计量经济学中有广泛的应用。例如,在劳动经济学中研究年龄与收入之间的关系时,通常会在回归方程中加入年龄的平方项,以捕捉收入随年龄先上升后下降的倒 U 型曲线模式。在环境经济学中,环境库兹涅茨曲线 (Environmental Kuznets Curve) 假设经济增长与环境退化之间存在倒 U 型关系,其标准的计量检验形式即为包含人均收入二次项的多项式回归模型。在金融学中,资本资产定价模型的实证检验也常使用多项式回归来控制市场风险的潜在非线性效应。

总结

多项式回归是一个强大而直观的工具,用于扩展线性模型以处理非线性关系。它因为易于实现(可以作为多元线性回归处理)和解释(通过可视化拟合曲线)而广受欢迎。然而,使用者必须警惕其过拟合的倾向和外推的风险,并通过严谨的方法(如交叉验证)来选择合适的模型复杂度。对于更复杂的非线性模式,可以考虑使用样条回归广义可加模型局部回归等更加灵活的替代方法。