ARTICLE

局部多项式估计

局部多项式估计（Local Polynomial Estimation）是一种非参数回归方法，通过在每个估计点处拟合局部加权多项式来逼近未知回归函数公式。与传统的Nadaraya–Watson核回归相比，它在边界处具有更优的偏置性质，能够自动适应回归函数的导数信息，因而在现代非参数计量经济学和统计学中得到了广泛应用。基本思想设观测数据公式满足回归

浏览 0 更新 2025-11-08

局部多项式估计（Local Polynomial Estimation）是一种非参数回归方法，通过在每个估计点处拟合局部加权多项式来逼近未知回归函数 $m(x)=E[Y|X=x]$ 。与传统的Nadaraya–Watson核回归相比，它在边界处具有更优的偏置性质，能够自动适应回归函数的导数信息，因而在现代非参数计量经济学和统计学中得到了广泛应用。

基本思想

设观测数据 $(X_i,Y_i)$ 满足回归模型 $Y_i=m(X_i)+\varepsilon_i$ ，其中 $m(\cdot)$ 为未知条件期望函数， $\varepsilon_i$ 为随机误差项，满足 $E[\varepsilon_i|X_i]=0$ 。对于给定目标点 $x$ ，利用泰勒展开将邻域内的 $m(u)$ 近似为

m(u) \approx \sum_{j=0}^p \beta_j (u-x)^j,\quad \beta_j = \frac{m^{(j)}(x)}{j!}

通过求解如下加权最小二乘问题得到系数估计：

\min_{\{\beta_j\}} \sum_{i=1}^n \left[Y_i - \sum_{j=0}^p \beta_j (X_i-x)^j\right]^2 K\!\left(\frac{X_i-x}{h}\right)

其中 $K(\cdot)$ 为核函数， $h$ 为带宽参数。得到的系数 $\hat{\beta}_j$ 即为 $m^{(j)}(x)/j!$ 的估计，而 $m(x)$ 的估计取为 $\hat{m}(x)=\hat{\beta}_0$ 。该问题在每个目标点 $x$ 处独立求解，使得估计量能够灵活地适应数据的局部结构。

核函数与带宽

核函数 $K(\cdot)$ 通常取关于原点对称的概率密度函数，常见类型包括Epanechnikov核 $K(u)=\frac{3}{4}(1-u^2)_+$ 、高斯核 $K(u)=\frac{1}{\sqrt{2\pi}}e^{-u^2/2}$ 、均匀核 $K(u)=\frac{1}{2}I(|u|\le 1)$ 和三角核 $K(u)=(1-|u|)_+$ 。核函数的作用是给不同距离的观测值赋予权重：距离目标点 $x$ 越近的观测值获得越高的权重。从渐近有效性的角度看，Epanechnikov核在均方误差意义下是最优的；但实践中核函数的选择对结果影响通常远小于带宽，因而常选用具有紧支撑的Epanechnikov核（计算效率高）或光滑的高斯核（理论推导方便）。

带宽 $h$ 是局部多项式估计中最重要的调节参数，控制着参与估计的邻域大小。 $h$ 较小时，仅邻近的少量观测值参与拟合，模型偏置较小但方差较大； $h$ 较大时，更多观测值纳入估计，方差减小但偏置增大。这就是非参数回归中核心的偏置—方差权衡（Bias-Variance Tradeoff）。

带宽选择方法大体分为两类。第一类是基于预测误差的方法，包括留一交叉验证（Leave-One-Out Cross-Validation）、广义交叉验证（Generalized Cross-Validation, GCV）、AIC准则和BIC准则。交叉验证直接最小化样本外预测误差，适用性广但计算量较大；GCV是交叉验证的近似形式，计算更为高效。第二类是基于渐近理论的方法，即插件法（Plug-in Method），通过估计未知密度函数 $f_X(x)$ 和回归函数曲率 $m''(x)$ 来得到渐近最优带宽。插件法计算效率高，但需要选择辅助带宽来估计这些未知量，实际应用中可能对辅助参数的选择较为敏感。实践中建议结合多种方法：先用插件法获得初始带宽，再围绕该值进行交叉验证搜索，最后通过可视化检查拟合曲线的平滑程度是否合理。

多项式阶数的选择

阶数 $p$ 的选择直接影响估计量的理论性质。 $p=0$ 时退化为Nadaraya–Watson核估计，形式最为简单但在边界处存在较大的偏置； $p=1$ 为局部线性估计，是实践中最常用的选项； $p=2$ 为局部二次估计，适用于曲率较大的回归函数。

一个重要理论结果值得一提：奇数阶多项式（ $p=1,3,5,\ldots$ ）具有自动修正边界偏置的性质，使得边界处的偏置阶数与内部区域保持一致，均为 $O(h^{p+1})$ ；而偶数阶多项式（ $p=0,2,4,\ldots$ ）不具备这一特性，其边界偏置阶数低于内部。这一发现使得局部线性估计（ $p=1$ ）在偏置、方差和计算复杂度之间取得了最佳平衡，因而成为非参数回归实践的默认选择。此外，若要估计回归函数的导数 $m^{(r)}(x)$ ，通常选择 $p = r+1$ 以保证导数估计的一致性。

渐近性质

在适当的正则条件下， $p$ 阶局部多项式估计的渐近偏置和方差可显式表达。条件偏置的主要项为 $O(h^{p+1})$ ，其大小依赖于回归函数 $m(\cdot)$ 的 $(p+1)$ 阶导数以及设计密度 $f_X(x)$ 。条件方差的主要项为 $O\!\left(\frac{1}{nh}\right)$ ，与误差方差 $\sigma^2(x)$ 成正比，与设计密度 $f_X(x)$ 成反比。当 $h\to0$ 且 $nh\to\infty$ 时，估计量具有一致性。进一步，在适当的矩条件下，估计量满足渐近正态性：

\sqrt{nh}\big[\hat{m}(x)-m(x)-\text{Bias}(x)\big] \xrightarrow{d} N\!\left(0,\sigma^2(x)\right)

据此可构造 $m(x)$ 的逐点置信区间和进行假设检验。渐近均方误差（AMSE）的表达式为带宽选择和理论分析提供了基础。全局来看，最小化渐近均方积分误差（AMISE）可得最优带宽的收敛速度为 $O(n^{-2/(2p+3)})$ ，相应的最优收敛速度为 $O(n^{-(2p+2)/(2p+3)})$ 。

软件实现

主流统计和计量软件均提供了局部多项式估计的实现。R语言的 \texttt{locpol} 包专注于局部多项式回归，\texttt{np} 包提供了完整的非参数工具链，\texttt{KernSmooth} 包中的 \texttt{locpoly} 函数是经典实现。Stata中的 \texttt{lpoly} 命令直接支持局部多项式估计，并可计算导数的估计值。Python中 \texttt{statsmodels} 库的 \texttt{KernelReg} 类提供了核回归功能，\texttt{lowess} 函数在 \texttt{statsmodels.nonparametric} 模块中实现了局部加权回归。MATLAB的Curve Fitting Toolbox也包含类似方法。实际应用中建议将交叉验证选出的带宽与经验法则带宽（如Silverman拇指法则）进行对比，以确保带宽选择的合理性，同时应通过残差分析和敏感度检验评估模型的稳健性。

总结

局部多项式估计是非参数回归的核心方法，通过局部加权多项式拟合在灵活性、边界表现和计算效率之间取得了良好平衡。局部线性估计（ $p=1$ ）因其优越的理论性质和简洁的实现方式成为实践中的首选。该方法在经济学中的工资分布估计、生物统计学中的剂量—反应关系建模、环境科学中的空气污染与健康效应分析等众多领域均有广泛应用，是非参数数据分析工具箱中不可或缺的重要工具。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。