ARTICLE
核密度估计
核密度估计 (Kernel Density Estimation) 核密度估计 (Kernel Density Estimation, KDE) 是一种非参数密度估计方法,用于从有限样本中推断随机变量的概率密度函数。与参数方法(如假设数据服从正态分布)不同,KDE 不做任何分布假设,而是让数据"自己说话"。该方法由 Rosenblatt (1956) 和 P
核密度估计 (Kernel Density Estimation)
核密度估计 (Kernel Density Estimation, KDE) 是一种非参数密度估计方法,用于从有限样本中推断随机变量的概率密度函数。与参数方法(如假设数据服从正态分布)不同,KDE 不做任何分布假设,而是让数据"自己说话"。该方法由 Rosenblatt (1956) 和 Parzen (1962) 奠基,因此也被称为 Parzen 窗估计。
定义与公式
给定独立同分布样本 ,核密度估计定义为:
其中 为核函数, 为带宽 (bandwidth)。核函数通常是对称概率密度函数,满足 且 。估计值 是在每个数据点处放置一个以 缩放的核函数,然后取平均。
常见核函数
常用的核函数包括:
- 高斯核:,最常用,具有无穷支撑集。
- Epanechnikov 核: 对于 ,在均方积分误差意义下理论最优。
- 均匀核: 对于 ,即直方图的连续推广。
研究表明,核函数的选择对估计结果的影响远小于带宽 。实践中高斯核因其光滑性和数学便利性被广泛采用。
带宽选择:核心难题
带宽 是 KDE 最关键的超参数:
这是偏差-方差权衡在密度估计中的直接体现。常用带宽选择方法:
- Silverman 经验法则:(高斯核),计算简便,但对多峰分布表现欠佳。
- 最小二乘交叉验证 (LSCV):最小化积分平方误差的留一法估计,无需分布假设,但 的抽样变异性较大。
- 插件法 (Plug-in):如 Sheather-Jones 方法,直接估计最优带宽公式中的未知泛函,实践表现稳健,是当前推荐标准。
多维核密度估计
KDE 可推广到 维:
其中 为 带宽矩阵。维数灾难使高维 KDE 所需样本量指数增长,实际通常限制在二维或三维。
经济与金融应用
- 收益率分布分析:刻画资产收益率的厚尾、偏态和尖峰特征,揭示正态分布假设无法捕捉的金融风险特性。高频数据的 KDE 可识别跳跃成分和波动率聚集。
- 非参数回归:Nadaraya-Watson 估计量本质上是条件期望的核密度加权形式。
- 收入分布与不平等:为基尼系数和洛伦兹曲线提供底层密度估计,用于可视化多峰贫困俱乐部现象。
- 断点回归检验:在断点回归设计 (RDD) 中,KDE 用于检查分配变量在断点附近的密度连续性,以验证无操纵假设——这是 RDD 有效性的关键检验。
与直方图的关系
KDE 可视为直方图的平滑推广。直方图依赖固定箱宽且箱边界位置影响估计,而 KDE 通过在每个数据点放置光滑核函数并叠加,消除了边界人为不连续性。当核函数取均匀核时,两者联系最直接。KDE 的连续性和对箱位置的鲁棒性使其成为现代非参数统计的基石工具。