ARTICLE

核密度估计

核密度估计 (Kernel Density Estimation) 核密度估计 (Kernel Density Estimation, KDE) 是一种非参数密度估计方法,用于从有限样本中推断随机变量的概率密度函数。与参数方法(如假设数据服从正态分布)不同,KDE 不做任何分布假设,而是让数据"自己说话"。该方法由 Rosenblatt (1956) 和 P

浏览 0 更新 2025-11-09

核密度估计 (Kernel Density Estimation)

核密度估计 (Kernel Density Estimation, KDE) 是一种非参数密度估计方法,用于从有限样本中推断随机变量的概率密度函数。与参数方法(如假设数据服从正态分布)不同,KDE 不做任何分布假设,而是让数据"自己说话"。该方法由 Rosenblatt (1956) 和 Parzen (1962) 奠基,因此也被称为 Parzen 窗估计

定义与公式

给定独立同分布样本 X1,X2,,Xn X_1, X_2, \dots, X_n ,核密度估计定义为:

f^h(x)=1nhi=1nK(xXih)\hat{f}_h(x) = \frac{1}{nh} \sum_{i=1}^{n} K\left(\frac{x - X_i}{h}\right)

其中 K() K(\cdot) 核函数h>0 h > 0 带宽 (bandwidth)。核函数通常是对称概率密度函数,满足 K(u)du=1 \int K(u) \, du = 1 uK(u)du=0 \int u K(u) \, du = 0 。估计值 f^h(x) \hat{f}_h(x) 是在每个数据点处放置一个以 h h 缩放的核函数,然后取平均。

常见核函数

常用的核函数包括:

  • 高斯核K(u)=12πeu2/2 K(u) = \frac{1}{\sqrt{2\pi}} e^{-u^2/2} ,最常用,具有无穷支撑集。
  • Epanechnikov 核K(u)=34(1u2) K(u) = \frac{3}{4}(1 - u^2) 对于 u1 |u| \leq 1 ,在均方积分误差意义下理论最优。
  • 均匀核K(u)=12 K(u) = \frac{1}{2} 对于 u1 |u| \leq 1 ,即直方图的连续推广。

研究表明,核函数的选择对估计结果的影响远小于带宽 h h 。实践中高斯核因其光滑性和数学便利性被广泛采用。

带宽选择:核心难题

带宽 h h 是 KDE 最关键的超参数

  • h h 过小 → 估计粗糙(undersmoothed),产生虚假波动,方差过大。
  • h h 过大 → 过度光滑(oversmoothed),掩盖真实多峰特征,偏差过大。

这是偏差-方差权衡在密度估计中的直接体现。常用带宽选择方法:

  1. Silverman 经验法则h=1.06σ^n1/5 h = 1.06 \, \hat{\sigma} \, n^{-1/5} (高斯核),计算简便,但对多峰分布表现欠佳。
  2. 最小二乘交叉验证 (LSCV):最小化积分平方误差的留一法估计,无需分布假设,但 h h 的抽样变异性较大。
  3. 插件法 (Plug-in):如 Sheather-Jones 方法,直接估计最优带宽公式中的未知泛函,实践表现稳健,是当前推荐标准。

多维核密度估计

KDE 可推广到 d d 维:

f^H(x)=1nH1/2i=1nK(H1/2(xXi))\hat{f}_{\mathbf{H}}(\mathbf{x}) = \frac{1}{n |\mathbf{H}|^{1/2}} \sum_{i=1}^{n} K\left(\mathbf{H}^{-1/2}(\mathbf{x} - \mathbf{X}_i)\right)

其中 H \mathbf{H} d×d d \times d 带宽矩阵。维数灾难使高维 KDE 所需样本量指数增长,实际通常限制在二维或三维。

经济与金融应用

计量经济学金融学中,KDE 有广泛应用:

  • 收益率分布分析:刻画资产收益率的厚尾、偏态和尖峰特征,揭示正态分布假设无法捕捉的金融风险特性。高频数据的 KDE 可识别跳跃成分和波动率聚集。
  • 非参数回归Nadaraya-Watson 估计量本质上是条件期望的核密度加权形式。
  • 收入分布与不平等:为基尼系数洛伦兹曲线提供底层密度估计,用于可视化多峰贫困俱乐部现象。
  • 断点回归检验:在断点回归设计 (RDD) 中,KDE 用于检查分配变量在断点附近的密度连续性,以验证无操纵假设——这是 RDD 有效性的关键检验。

与直方图的关系

KDE 可视为直方图的平滑推广。直方图依赖固定箱宽且箱边界位置影响估计,而 KDE 通过在每个数据点放置光滑核函数并叠加,消除了边界人为不连续性。当核函数取均匀核时,两者联系最直接。KDE 的连续性和对箱位置的鲁棒性使其成为现代非参数统计的基石工具。