ARTICLE

多项式回归模型

多项式回归模型 (Polynomial Regression) 多项式回归模型是线性回归的一种重要推广,通过在模型中引入自变量的高次项(平方项、立方项等),使得线性模型能够拟合数据中的非线性关系。尽管模型在原始变量空间中描述的是曲线关系,它对参数而言仍然是线性的——这意味着线性回归的全部理论工具(最小二乘估计、t检验、F检验、置信区间等)均可直接沿用。 模型

浏览 4 更新 2025-12-20

多项式回归模型 (Polynomial Regression)

多项式回归模型线性回归的一种重要推广,通过在模型中引入自变量的高次项(平方项、立方项等),使得线性模型能够拟合数据中的非线性关系。尽管模型在原始变量空间中描述的是曲线关系,它对参数而言仍然是线性的——这意味着线性回归的全部理论工具(最小二乘估计、t检验、F检验、置信区间等)均可直接沿用。

模型定义与数学形式

给定自变量 xx 与因变量 yy,一个 dd 次多项式回归模型可写作:

y=β0+β1x+β2x2++βdxd+εy = \beta_0 + \beta_1 x + \beta_2 x^2 + \cdots + \beta_d x^d + \varepsilon

其中 ε\varepsilon 为随机误差项,通常假定 εN(0,σ2)\varepsilon \sim \mathcal{N}(0, \sigma^2)。记设计矩阵 X\mathbf{X} 的第 ii 行为 [1,xi,xi2,,xid][1, x_i, x_i^2, \ldots, x_i^d],则模型可简洁地表达为矩阵形式 y=Xβ+ε\mathbf{y} = \mathbf{X} \boldsymbol{\beta} + \boldsymbol{\varepsilon},参数的最小二乘估计为:

β^=(XX)1Xy\hat{\boldsymbol{\beta}} = (\mathbf{X}^{\top} \mathbf{X})^{-1} \mathbf{X}^{\top} \mathbf{y}

多项式回归的关键洞察在于:尽管原始变量 xxyy 之间的关系在二维平面上呈现弯曲,模型对未知参数 βj\beta_j 而言仍然是线性的。通过定义一组新的变量 X1=x,  X2=x2,  ,  Xd=xdX_1 = x,\; X_2 = x^2,\; \ldots,\; X_d = x^d,模型即可转化为标准的多元线性回归形式。

多项式次数与模型复杂度

次数 dd 是多项式回归中最重要的超参数,直接控制模型的表达能力:

  • d=1d = 1:退化为普通线性回归,只能拟合直线。
  • d=2d = 2:二次模型,可拟合单峰或单谷形态(抛物线)。
  • d=3d = 3:三次模型,可拟合拥有一个拐点的 S 形曲线。
  • d4d \geq 4:高次多项式,能拟合更复杂的振荡模式,但过拟合风险急剧上升。

选择次数时存在经典的偏差-方差权衡:次数过低(欠拟合)导致模型无法捕捉数据中的真实结构,偏差大;次数过高(过拟合)导致模型对训练数据中的噪声过度敏感,方差大。确定最优次数 dd 的常用方法包括:

  1. 交叉验证:使用 kk 折交叉验证评估不同次数下的泛化误差,选择使验证误差最小的 dd
  2. 信息准则:使用AICBIC等统计量,在拟合优度与模型复杂度之间施加权衡。
  3. 序贯假设检验:从低次模型开始,逐次加入更高次项并通过 F 检验判断其统计显著性。

特征构造与正交多项式

多项式回归本质上是通过构造新特征 {x,x2,,xd}\{x, x^2, \ldots, x^d\} 将原始一维数据映射到 dd 维特征空间,然后在该空间执行标准线性回归。这一"基展开"思想是更广泛方法(样条回归、傅里叶回归、小波回归等)的特例,也是现代统计学习中"特征工程"的早期雏形。

xx 的取值范围较大时,原始幂次项 {x,x2,,xd}\{x, x^2, \ldots, x^d\} 之间存在严重的多重共线性——例如 xxx2x^2x>0x > 0 区域高度正相关——这会导致最小二乘估计的方差膨胀和数值不稳定性。实践中常采用正交多项式(如 Legendre 多项式或通过 Gram-Schmidt 正交化构造的多项式基)替代原始幂次基,以消除共线性并提高数值稳定性。

过拟合与正则化

高次多项式回归的典型风险是过拟合。缓解过拟合的主要策略包括:

  1. 交叉验证选择次数:通过验证误差最小化来选取适当的 dd
  2. 正则化:对系数施加 2\ell_2岭回归)或 1\ell_1Lasso回归)惩罚,将目标函数改写为: \[ \hat{\boldsymbol{\beta}}_{\text{ridge}} = \arg\min_{\boldsymbol{\beta}} \left\{ \sum_{i=1}^{n} \left(y_i - \sum_{j=0}^{d} \beta_j x_i^{j}\right)^2 + \lambda \sum_{j=1}^{d} \beta_j^{2} \right\} \] 岭回归通过收缩系数来降低方差;Lasso 则可将部分系数精确压缩为零,实现自动特征选择。
  3. 数据增强:通过合成数据扩充样本量,提升模型泛化能力。

模型诊断与评估

拟合多项式回归后应进行如下诊断:

  • 残差图:残差对拟合值散点图应随机分布在零线两侧,若呈现系统性弯曲或漏斗形发散,提示次数可能不足或存在异方差
  • R2R^{2} 与调整 R2R^{2}R2R^{2} 随次数单调递增,但调整 R2R^{2} 通过对参数个数施加惩罚来修正这一偏倚,更适合用于比较不同次数的模型。
  • 留一法交叉验证:对于 nn 个样本的 dd 次多项式,存在闭合形式的预测误差计算公式,计算成本远低于一般交叉验证。

应用场景

  • 经济学边际效用递减、成本曲线等经典二次关系(如库兹涅茨曲线假说);工资与教育年限的非线性关系建模。
  • 流行病学:发病率随年龄的非线性变化趋势分析;药物剂量-反应曲线拟合。
  • 工程控制:传感器校准曲线、材料应力-应变关系拟合。
  • 机器学习基线:作为对比基准,检验更复杂模型(核方法神经网络随机森林)是否带来实质性的预测提升。

与相关方法的关系

多项式回归是广义加性模型(GAM)的特例:GAM 允许每个特征使用平滑函数 fj(xj)f_j(x_j),而多项式回归可视为 f(x)f(x) 被限制为 xx 的高次多项式。与样条回归相比,多项式回归的基函数具有全局支撑(每个基函数在整个定义域上非零),而样条使用分段多项式加连续性约束,在边界附近往往表现更稳定。此外,多项式回归在数据范围边缘和外部区域可能表现出剧烈的、不切实际的波动,因此使用它进行外推预测是极其危险的。

系数解释

在多项式回归中,解释单个回归系数 βj\beta_j 变得困难。与简单线性回归中 β1\beta_1 代表"xx 每增加一个单位,yy 变化的量"不同,在多项式回归中,xxyy边际效应不再是一个常数,而是依赖于 xx 本身的值:

yx=β1+2β2x+3β3x2++dβdxd1\frac{\partial y}{\partial x} = \beta_1 + 2\beta_2 x + 3\beta_3 x^2 + \cdots + d\beta_d x^{d-1}

因此,研究者通常不关注单个系数的大小或符号,而是关注整个拟合曲线的形状和趋势。

核心直觉

多项式回归以最简单的"叠幂次"方式将线性模型拓展至非线性——每增加一次幂,就多一次弯曲的自由度。这种简洁性使其成为探索非线性关系的第一站,但高次项的振荡行为也提醒我们:自由度的增加必须与样本量和信噪比相匹配。