ARTICLE

多项式回归模型

多项式回归模型 (Polynomial Regression) 多项式回归模型是线性回归的一种重要推广，通过在模型中引入自变量的高次项（平方项、立方项等），使得线性模型能够拟合数据中的非线性关系。尽管模型在原始变量空间中描述的是曲线关系，它对参数而言仍然是线性的——这意味着线性回归的全部理论工具（最小二乘估计、t检验、F检验、置信区间等）均可直接沿用。模型

浏览 4 更新 2025-12-20

多项式回归模型 (Polynomial Regression)

多项式回归模型是线性回归的一种重要推广，通过在模型中引入自变量的高次项（平方项、立方项等），使得线性模型能够拟合数据中的非线性关系。尽管模型在原始变量空间中描述的是曲线关系，它对参数而言仍然是线性的——这意味着线性回归的全部理论工具（最小二乘估计、t检验、F检验、置信区间等）均可直接沿用。

模型定义与数学形式

给定自变量 $x$ 与因变量 $y$ ，一个 $d$ 次多项式回归模型可写作：

y = \beta_0 + \beta_1 x + \beta_2 x^2 + \cdots + \beta_d x^d + \varepsilon

其中 $\varepsilon$ 为随机误差项，通常假定 $\varepsilon \sim \mathcal{N}(0, \sigma^2)$ 。记设计矩阵 $\mathbf{X}$ 的第 $i$ 行为 $[1, x_i, x_i^2, \ldots, x_i^d]$ ，则模型可简洁地表达为矩阵形式 $\mathbf{y} = \mathbf{X} \boldsymbol{\beta} + \boldsymbol{\varepsilon}$ ，参数的最小二乘估计为：

\hat{\boldsymbol{\beta}} = (\mathbf{X}^{\top} \mathbf{X})^{-1} \mathbf{X}^{\top} \mathbf{y}

多项式回归的关键洞察在于：尽管原始变量 $x$ 与 $y$ 之间的关系在二维平面上呈现弯曲，模型对未知参数 $\beta_j$ 而言仍然是线性的。通过定义一组新的变量 $X_1 = x,\; X_2 = x^2,\; \ldots,\; X_d = x^d$ ，模型即可转化为标准的多元线性回归形式。

多项式次数与模型复杂度

次数 $d$ 是多项式回归中最重要的超参数，直接控制模型的表达能力：

$d = 1$ ：退化为普通线性回归，只能拟合直线。
$d = 2$ ：二次模型，可拟合单峰或单谷形态（抛物线）。
$d = 3$ ：三次模型，可拟合拥有一个拐点的 S 形曲线。
$d \geq 4$ ：高次多项式，能拟合更复杂的振荡模式，但过拟合风险急剧上升。

选择次数时存在经典的偏差-方差权衡：次数过低（欠拟合）导致模型无法捕捉数据中的真实结构，偏差大；次数过高（过拟合）导致模型对训练数据中的噪声过度敏感，方差大。确定最优次数 $d$ 的常用方法包括：

交叉验证：使用 $k$ 折交叉验证评估不同次数下的泛化误差，选择使验证误差最小的 $d$ 。
信息准则：使用AIC或BIC等统计量，在拟合优度与模型复杂度之间施加权衡。
序贯假设检验：从低次模型开始，逐次加入更高次项并通过 F 检验判断其统计显著性。

特征构造与正交多项式

多项式回归本质上是通过构造新特征 $\{x, x^2, \ldots, x^d\}$ 将原始一维数据映射到 $d$ 维特征空间，然后在该空间执行标准线性回归。这一"基展开"思想是更广泛方法（样条回归、傅里叶回归、小波回归等）的特例，也是现代统计学习中"特征工程"的早期雏形。

当 $x$ 的取值范围较大时，原始幂次项 $\{x, x^2, \ldots, x^d\}$ 之间存在严重的多重共线性——例如 $x$ 与 $x^2$ 在 $x > 0$ 区域高度正相关——这会导致最小二乘估计的方差膨胀和数值不稳定性。实践中常采用正交多项式（如 Legendre 多项式或通过 Gram-Schmidt 正交化构造的多项式基）替代原始幂次基，以消除共线性并提高数值稳定性。

过拟合与正则化

高次多项式回归的典型风险是过拟合。缓解过拟合的主要策略包括：

交叉验证选择次数：通过验证误差最小化来选取适当的 $d$ 。
正则化：对系数施加 $\ell_2$ （岭回归）或 $\ell_1$ （Lasso回归）惩罚，将目标函数改写为： \[ \hat{\boldsymbol{\beta}}_{\text{ridge}} = \arg\min_{\boldsymbol{\beta}} \left\{ \sum_{i=1}^{n} \left(y_i - \sum_{j=0}^{d} \beta_j x_i^{j}\right)^2 + \lambda \sum_{j=1}^{d} \beta_j^{2} \right\} \] 岭回归通过收缩系数来降低方差；Lasso 则可将部分系数精确压缩为零，实现自动特征选择。
数据增强：通过合成数据扩充样本量，提升模型泛化能力。

模型诊断与评估

拟合多项式回归后应进行如下诊断：

残差图：残差对拟合值散点图应随机分布在零线两侧，若呈现系统性弯曲或漏斗形发散，提示次数可能不足或存在异方差。
$R^{2}$ 与调整 $R^{2}$ ： $R^{2}$ 随次数单调递增，但调整 $R^{2}$ 通过对参数个数施加惩罚来修正这一偏倚，更适合用于比较不同次数的模型。
留一法交叉验证：对于 $n$ 个样本的 $d$ 次多项式，存在闭合形式的预测误差计算公式，计算成本远低于一般交叉验证。

应用场景

经济学：边际效用递减、成本曲线等经典二次关系（如库兹涅茨曲线假说）；工资与教育年限的非线性关系建模。
流行病学：发病率随年龄的非线性变化趋势分析；药物剂量-反应曲线拟合。
工程控制：传感器校准曲线、材料应力-应变关系拟合。
机器学习基线：作为对比基准，检验更复杂模型（核方法、神经网络、随机森林）是否带来实质性的预测提升。

与相关方法的关系

多项式回归是广义加性模型（GAM）的特例：GAM 允许每个特征使用平滑函数 $f_j(x_j)$ ，而多项式回归可视为 $f(x)$ 被限制为 $x$ 的高次多项式。与样条回归相比，多项式回归的基函数具有全局支撑（每个基函数在整个定义域上非零），而样条使用分段多项式加连续性约束，在边界附近往往表现更稳定。此外，多项式回归在数据范围边缘和外部区域可能表现出剧烈的、不切实际的波动，因此使用它进行外推预测是极其危险的。

系数解释

在多项式回归中，解释单个回归系数 $\beta_j$ 变得困难。与简单线性回归中 $\beta_1$ 代表" $x$ 每增加一个单位， $y$ 变化的量"不同，在多项式回归中， $x$ 对 $y$ 的边际效应不再是一个常数，而是依赖于 $x$ 本身的值：

\frac{\partial y}{\partial x} = \beta_1 + 2\beta_2 x + 3\beta_3 x^2 + \cdots + d\beta_d x^{d-1}

因此，研究者通常不关注单个系数的大小或符号，而是关注整个拟合曲线的形状和趋势。

核心直觉

多项式回归以最简单的"叠幂次"方式将线性模型拓展至非线性——每增加一次幂，就多一次弯曲的自由度。这种简洁性使其成为探索非线性关系的第一站，但高次项的振荡行为也提醒我们：自由度的增加必须与样本量和信噪比相匹配。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。