ARTICLE

局部多项式估计

局部多项式估计(Local Polynomial Estimation)是一种非参数回归方法,通过在每个估计点处拟合局部加权多项式来逼近未知回归函数 m(x)=E[Y|X=x]。与传统的Nadaraya–Watson核回归相比,它在边界处具有更优的偏置性质,能够自动适应回归函数的导数信息,因而在现代非参数计量经济学和统计学中得到了广泛应用。 基本思想 设观测

浏览 0 更新 2025-11-08

局部多项式估计(Local Polynomial Estimation)是一种非参数回归方法,通过在每个估计点处拟合局部加权多项式来逼近未知回归函数 m(x)=E[YX=x]m(x)=E[Y|X=x]。与传统的Nadaraya–Watson核回归相比,它在边界处具有更优的偏置性质,能够自动适应回归函数的导数信息,因而在现代非参数计量经济学和统计学中得到了广泛应用。

基本思想

设观测数据 (Xi,Yi)(X_i,Y_i) 满足回归模型 Yi=m(Xi)+εiY_i=m(X_i)+\varepsilon_i,其中 m()m(\cdot) 为未知条件期望函数,εi\varepsilon_i 为随机误差项,满足 E[εiXi]=0E[\varepsilon_i|X_i]=0。对于给定目标点 xx,利用泰勒展开将邻域内的 m(u)m(u) 近似为

m(u)j=0pβj(ux)j,βj=m(j)(x)j!m(u) \approx \sum_{j=0}^p \beta_j (u-x)^j,\quad \beta_j = \frac{m^{(j)}(x)}{j!}

通过求解如下加权最小二乘问题得到系数估计:

min{βj}i=1n[Yij=0pβj(Xix)j]2K ⁣(Xixh)\min_{\{\beta_j\}} \sum_{i=1}^n \left[Y_i - \sum_{j=0}^p \beta_j (X_i-x)^j\right]^2 K\!\left(\frac{X_i-x}{h}\right)

其中 K()K(\cdot) 为核函数,hh 为带宽参数。得到的系数 β^j\hat{\beta}_j 即为 m(j)(x)/j!m^{(j)}(x)/j! 的估计,而 m(x)m(x) 的估计取为 m^(x)=β^0\hat{m}(x)=\hat{\beta}_0。该问题在每个目标点 xx 处独立求解,使得估计量能够灵活地适应数据的局部结构。

核函数与带宽

核函数 K()K(\cdot) 通常取关于原点对称的概率密度函数,常见类型包括Epanechnikov核 K(u)=34(1u2)+K(u)=\frac{3}{4}(1-u^2)_+、高斯核 K(u)=12πeu2/2K(u)=\frac{1}{\sqrt{2\pi}}e^{-u^2/2}、均匀核 K(u)=12I(u1)K(u)=\frac{1}{2}I(|u|\le 1) 和三角核 K(u)=(1u)+K(u)=(1-|u|)_+。核函数的作用是给不同距离的观测值赋予权重:距离目标点 xx 越近的观测值获得越高的权重。从渐近有效性的角度看,Epanechnikov核在均方误差意义下是最优的;但实践中核函数的选择对结果影响通常远小于带宽,因而常选用具有紧支撑的Epanechnikov核(计算效率高)或光滑的高斯核(理论推导方便)。

带宽 hh 是局部多项式估计中最重要的调节参数,控制着参与估计的邻域大小。hh 较小时,仅邻近的少量观测值参与拟合,模型偏置较小但方差较大;hh 较大时,更多观测值纳入估计,方差减小但偏置增大。这就是非参数回归中核心的偏置—方差权衡(Bias-Variance Tradeoff)。

带宽选择方法大体分为两类。第一类是基于预测误差的方法,包括留一交叉验证(Leave-One-Out Cross-Validation)、广义交叉验证(Generalized Cross-Validation, GCV)、AIC准则和BIC准则。交叉验证直接最小化样本外预测误差,适用性广但计算量较大;GCV是交叉验证的近似形式,计算更为高效。第二类是基于渐近理论的方法,即插件法(Plug-in Method),通过估计未知密度函数 fX(x)f_X(x) 和回归函数曲率 m(x)m''(x) 来得到渐近最优带宽。插件法计算效率高,但需要选择辅助带宽来估计这些未知量,实际应用中可能对辅助参数的选择较为敏感。实践中建议结合多种方法:先用插件法获得初始带宽,再围绕该值进行交叉验证搜索,最后通过可视化检查拟合曲线的平滑程度是否合理。

多项式阶数的选择

阶数 pp 的选择直接影响估计量的理论性质。p=0p=0 时退化为Nadaraya–Watson核估计,形式最为简单但在边界处存在较大的偏置;p=1p=1 为局部线性估计,是实践中最常用的选项;p=2p=2 为局部二次估计,适用于曲率较大的回归函数。

一个重要理论结果值得一提:奇数阶多项式(p=1,3,5,p=1,3,5,\ldots)具有自动修正边界偏置的性质,使得边界处的偏置阶数与内部区域保持一致,均为 O(hp+1)O(h^{p+1});而偶数阶多项式(p=0,2,4,p=0,2,4,\ldots)不具备这一特性,其边界偏置阶数低于内部。这一发现使得局部线性估计(p=1p=1)在偏置、方差和计算复杂度之间取得了最佳平衡,因而成为非参数回归实践的默认选择。此外,若要估计回归函数的导数 m(r)(x)m^{(r)}(x),通常选择 p=r+1p = r+1 以保证导数估计的一致性。

渐近性质

在适当的正则条件下,pp 阶局部多项式估计的渐近偏置和方差可显式表达。条件偏置的主要项为 O(hp+1)O(h^{p+1}),其大小依赖于回归函数 m()m(\cdot)(p+1)(p+1) 阶导数以及设计密度 fX(x)f_X(x)。条件方差的主要项为 O ⁣(1nh)O\!\left(\frac{1}{nh}\right),与误差方差 σ2(x)\sigma^2(x) 成正比,与设计密度 fX(x)f_X(x) 成反比。当 h0h\to0nhnh\to\infty 时,估计量具有一致性。进一步,在适当的矩条件下,估计量满足渐近正态性:

nh[m^(x)m(x)Bias(x)]dN ⁣(0,σ2(x))\sqrt{nh}\big[\hat{m}(x)-m(x)-\text{Bias}(x)\big] \xrightarrow{d} N\!\left(0,\sigma^2(x)\right)

据此可构造 m(x)m(x) 的逐点置信区间和进行假设检验。渐近均方误差(AMSE)的表达式为带宽选择和理论分析提供了基础。全局来看,最小化渐近均方积分误差(AMISE)可得最优带宽的收敛速度为 O(n2/(2p+3))O(n^{-2/(2p+3)}),相应的最优收敛速度为 O(n(2p+2)/(2p+3))O(n^{-(2p+2)/(2p+3)})

软件实现

主流统计和计量软件均提供了局部多项式估计的实现。R语言的 \texttt{locpol} 包专注于局部多项式回归,\texttt{np} 包提供了完整的非参数工具链,\texttt{KernSmooth} 包中的 \texttt{locpoly} 函数是经典实现。Stata中的 \texttt{lpoly} 命令直接支持局部多项式估计,并可计算导数的估计值。Python中 \texttt{statsmodels} 库的 \texttt{KernelReg} 类提供了核回归功能,\texttt{lowess} 函数在 \texttt{statsmodels.nonparametric} 模块中实现了局部加权回归。MATLAB的Curve Fitting Toolbox也包含类似方法。实际应用中建议将交叉验证选出的带宽与经验法则带宽(如Silverman拇指法则)进行对比,以确保带宽选择的合理性,同时应通过残差分析和敏感度检验评估模型的稳健性。

总结

局部多项式估计是非参数回归的核心方法,通过局部加权多项式拟合在灵活性、边界表现和计算效率之间取得了良好平衡。局部线性估计(p=1p=1)因其优越的理论性质和简洁的实现方式成为实践中的首选。该方法在经济学中的工资分布估计、生物统计学中的剂量—反应关系建模、环境科学中的空气污染与健康效应分析等众多领域均有广泛应用,是非参数数据分析工具箱中不可或缺的重要工具。