ARTICLE
多项式回归模型
多项式回归模型 (Polynomial Regression) 多项式回归模型是线性回归的一种重要推广,通过在模型中引入自变量的高次项(平方项、立方项等),使得线性模型能够拟合数据中的非线性关系。尽管模型在原始变量空间中描述的是曲线关系,它对参数而言仍然是线性的——这意味着线性回归的全部理论工具(最小二乘估计、t检验、F检验、置信区间等)均可直接沿用。 模型
多项式回归模型 (Polynomial Regression)
多项式回归模型是线性回归的一种重要推广,通过在模型中引入自变量的高次项(平方项、立方项等),使得线性模型能够拟合数据中的非线性关系。尽管模型在原始变量空间中描述的是曲线关系,它对参数而言仍然是线性的——这意味着线性回归的全部理论工具(最小二乘估计、t检验、F检验、置信区间等)均可直接沿用。
模型定义与数学形式
给定自变量 与因变量 ,一个 次多项式回归模型可写作:
其中 为随机误差项,通常假定 。记设计矩阵 的第 行为 ,则模型可简洁地表达为矩阵形式 ,参数的最小二乘估计为:
多项式回归的关键洞察在于:尽管原始变量 与 之间的关系在二维平面上呈现弯曲,模型对未知参数 而言仍然是线性的。通过定义一组新的变量 ,模型即可转化为标准的多元线性回归形式。
多项式次数与模型复杂度
次数 是多项式回归中最重要的超参数,直接控制模型的表达能力:
- :退化为普通线性回归,只能拟合直线。
- :二次模型,可拟合单峰或单谷形态(抛物线)。
- :三次模型,可拟合拥有一个拐点的 S 形曲线。
- :高次多项式,能拟合更复杂的振荡模式,但过拟合风险急剧上升。
选择次数时存在经典的偏差-方差权衡:次数过低(欠拟合)导致模型无法捕捉数据中的真实结构,偏差大;次数过高(过拟合)导致模型对训练数据中的噪声过度敏感,方差大。确定最优次数 的常用方法包括:
- 交叉验证:使用 折交叉验证评估不同次数下的泛化误差,选择使验证误差最小的 。
- 信息准则:使用AIC或BIC等统计量,在拟合优度与模型复杂度之间施加权衡。
- 序贯假设检验:从低次模型开始,逐次加入更高次项并通过 F 检验判断其统计显著性。
特征构造与正交多项式
多项式回归本质上是通过构造新特征 将原始一维数据映射到 维特征空间,然后在该空间执行标准线性回归。这一"基展开"思想是更广泛方法(样条回归、傅里叶回归、小波回归等)的特例,也是现代统计学习中"特征工程"的早期雏形。
当 的取值范围较大时,原始幂次项 之间存在严重的多重共线性——例如 与 在 区域高度正相关——这会导致最小二乘估计的方差膨胀和数值不稳定性。实践中常采用正交多项式(如 Legendre 多项式或通过 Gram-Schmidt 正交化构造的多项式基)替代原始幂次基,以消除共线性并提高数值稳定性。
过拟合与正则化
高次多项式回归的典型风险是过拟合。缓解过拟合的主要策略包括:
- 交叉验证选择次数:通过验证误差最小化来选取适当的 。
- 正则化:对系数施加 (岭回归)或 (Lasso回归)惩罚,将目标函数改写为: \[ \hat{\boldsymbol{\beta}}_{\text{ridge}} = \arg\min_{\boldsymbol{\beta}} \left\{ \sum_{i=1}^{n} \left(y_i - \sum_{j=0}^{d} \beta_j x_i^{j}\right)^2 + \lambda \sum_{j=1}^{d} \beta_j^{2} \right\} \] 岭回归通过收缩系数来降低方差;Lasso 则可将部分系数精确压缩为零,实现自动特征选择。
- 数据增强:通过合成数据扩充样本量,提升模型泛化能力。
模型诊断与评估
拟合多项式回归后应进行如下诊断:
- 残差图:残差对拟合值散点图应随机分布在零线两侧,若呈现系统性弯曲或漏斗形发散,提示次数可能不足或存在异方差。
- 与调整 : 随次数单调递增,但调整 通过对参数个数施加惩罚来修正这一偏倚,更适合用于比较不同次数的模型。
- 留一法交叉验证:对于 个样本的 次多项式,存在闭合形式的预测误差计算公式,计算成本远低于一般交叉验证。
应用场景
- 经济学:边际效用递减、成本曲线等经典二次关系(如库兹涅茨曲线假说);工资与教育年限的非线性关系建模。
- 流行病学:发病率随年龄的非线性变化趋势分析;药物剂量-反应曲线拟合。
- 工程控制:传感器校准曲线、材料应力-应变关系拟合。
- 机器学习基线:作为对比基准,检验更复杂模型(核方法、神经网络、随机森林)是否带来实质性的预测提升。
与相关方法的关系
多项式回归是广义加性模型(GAM)的特例:GAM 允许每个特征使用平滑函数 ,而多项式回归可视为 被限制为 的高次多项式。与样条回归相比,多项式回归的基函数具有全局支撑(每个基函数在整个定义域上非零),而样条使用分段多项式加连续性约束,在边界附近往往表现更稳定。此外,多项式回归在数据范围边缘和外部区域可能表现出剧烈的、不切实际的波动,因此使用它进行外推预测是极其危险的。
系数解释
在多项式回归中,解释单个回归系数 变得困难。与简单线性回归中 代表" 每增加一个单位, 变化的量"不同,在多项式回归中, 对 的边际效应不再是一个常数,而是依赖于 本身的值:
因此,研究者通常不关注单个系数的大小或符号,而是关注整个拟合曲线的形状和趋势。
核心直觉
多项式回归以最简单的"叠幂次"方式将线性模型拓展至非线性——每增加一次幂,就多一次弯曲的自由度。这种简洁性使其成为探索非线性关系的第一站,但高次项的振荡行为也提醒我们:自由度的增加必须与样本量和信噪比相匹配。