ARTICLE
局部多项式估计
局部多项式估计(Local Polynomial Estimation)是一种非参数回归方法,通过在每个估计点处拟合局部加权多项式来逼近未知回归函数 m(x)=E[Y|X=x]。与传统的Nadaraya–Watson核回归相比,它在边界处具有更优的偏置性质,能够自动适应回归函数的导数信息,因而在现代非参数计量经济学和统计学中得到了广泛应用。 基本思想 设观测
局部多项式估计(Local Polynomial Estimation)是一种非参数回归方法,通过在每个估计点处拟合局部加权多项式来逼近未知回归函数 。与传统的Nadaraya–Watson核回归相比,它在边界处具有更优的偏置性质,能够自动适应回归函数的导数信息,因而在现代非参数计量经济学和统计学中得到了广泛应用。
基本思想
设观测数据 满足回归模型 ,其中 为未知条件期望函数, 为随机误差项,满足 。对于给定目标点 ,利用泰勒展开将邻域内的 近似为
通过求解如下加权最小二乘问题得到系数估计:
其中 为核函数, 为带宽参数。得到的系数 即为 的估计,而 的估计取为 。该问题在每个目标点 处独立求解,使得估计量能够灵活地适应数据的局部结构。
核函数与带宽
核函数 通常取关于原点对称的概率密度函数,常见类型包括Epanechnikov核 、高斯核 、均匀核 和三角核 。核函数的作用是给不同距离的观测值赋予权重:距离目标点 越近的观测值获得越高的权重。从渐近有效性的角度看,Epanechnikov核在均方误差意义下是最优的;但实践中核函数的选择对结果影响通常远小于带宽,因而常选用具有紧支撑的Epanechnikov核(计算效率高)或光滑的高斯核(理论推导方便)。
带宽 是局部多项式估计中最重要的调节参数,控制着参与估计的邻域大小。 较小时,仅邻近的少量观测值参与拟合,模型偏置较小但方差较大; 较大时,更多观测值纳入估计,方差减小但偏置增大。这就是非参数回归中核心的偏置—方差权衡(Bias-Variance Tradeoff)。
带宽选择方法大体分为两类。第一类是基于预测误差的方法,包括留一交叉验证(Leave-One-Out Cross-Validation)、广义交叉验证(Generalized Cross-Validation, GCV)、AIC准则和BIC准则。交叉验证直接最小化样本外预测误差,适用性广但计算量较大;GCV是交叉验证的近似形式,计算更为高效。第二类是基于渐近理论的方法,即插件法(Plug-in Method),通过估计未知密度函数 和回归函数曲率 来得到渐近最优带宽。插件法计算效率高,但需要选择辅助带宽来估计这些未知量,实际应用中可能对辅助参数的选择较为敏感。实践中建议结合多种方法:先用插件法获得初始带宽,再围绕该值进行交叉验证搜索,最后通过可视化检查拟合曲线的平滑程度是否合理。
多项式阶数的选择
阶数 的选择直接影响估计量的理论性质。 时退化为Nadaraya–Watson核估计,形式最为简单但在边界处存在较大的偏置; 为局部线性估计,是实践中最常用的选项; 为局部二次估计,适用于曲率较大的回归函数。
一个重要理论结果值得一提:奇数阶多项式()具有自动修正边界偏置的性质,使得边界处的偏置阶数与内部区域保持一致,均为 ;而偶数阶多项式()不具备这一特性,其边界偏置阶数低于内部。这一发现使得局部线性估计()在偏置、方差和计算复杂度之间取得了最佳平衡,因而成为非参数回归实践的默认选择。此外,若要估计回归函数的导数 ,通常选择 以保证导数估计的一致性。
渐近性质
在适当的正则条件下, 阶局部多项式估计的渐近偏置和方差可显式表达。条件偏置的主要项为 ,其大小依赖于回归函数 的 阶导数以及设计密度 。条件方差的主要项为 ,与误差方差 成正比,与设计密度 成反比。当 且 时,估计量具有一致性。进一步,在适当的矩条件下,估计量满足渐近正态性:
据此可构造 的逐点置信区间和进行假设检验。渐近均方误差(AMSE)的表达式为带宽选择和理论分析提供了基础。全局来看,最小化渐近均方积分误差(AMISE)可得最优带宽的收敛速度为 ,相应的最优收敛速度为 。
软件实现
主流统计和计量软件均提供了局部多项式估计的实现。R语言的 \texttt{locpol} 包专注于局部多项式回归,\texttt{np} 包提供了完整的非参数工具链,\texttt{KernSmooth} 包中的 \texttt{locpoly} 函数是经典实现。Stata中的 \texttt{lpoly} 命令直接支持局部多项式估计,并可计算导数的估计值。Python中 \texttt{statsmodels} 库的 \texttt{KernelReg} 类提供了核回归功能,\texttt{lowess} 函数在 \texttt{statsmodels.nonparametric} 模块中实现了局部加权回归。MATLAB的Curve Fitting Toolbox也包含类似方法。实际应用中建议将交叉验证选出的带宽与经验法则带宽(如Silverman拇指法则)进行对比,以确保带宽选择的合理性,同时应通过残差分析和敏感度检验评估模型的稳健性。
总结
局部多项式估计是非参数回归的核心方法,通过局部加权多项式拟合在灵活性、边界表现和计算效率之间取得了良好平衡。局部线性估计()因其优越的理论性质和简洁的实现方式成为实践中的首选。该方法在经济学中的工资分布估计、生物统计学中的剂量—反应关系建模、环境科学中的空气污染与健康效应分析等众多领域均有广泛应用,是非参数数据分析工具箱中不可或缺的重要工具。