ARTICLE
P-P图
P-P图 (Probability–Probability Plot) P-P图(Probability–Probability Plot,概率-概率图)是一种用于比较两个概率分布的图形工具。它以两个分布的累积分布函数(CDF)为坐标轴,将数据的分位数映射为单位正方形 [0, 1] [0, 1] 内的点集,从而直观检验一个经验分布是否服从某个理论分布,或比较
P-P图 (Probability–Probability Plot)
P-P图(Probability–Probability Plot,概率-概率图)是一种用于比较两个概率分布的图形工具。它以两个分布的累积分布函数(CDF)为坐标轴,将数据的分位数映射为单位正方形 内的点集,从而直观检验一个经验分布是否服从某个理论分布,或比较两个样本是否来自同一总体。
具体而言,给定样本数据 和一个理论分布 (例如 或 ),P-P图的横轴为理论分布的累积概率 ,纵轴为经验累积概率 (或经连续性校正的 ),其中 为第 个次序统计量。若数据确实来自 ,则点应大致沿对角线 分布;系统性的偏离则指示分布假设的失配模式。
与 Q-Q 图的对比
P-P图与更为常见的Q-Q图(Quantile–Quantile Plot)同属分布诊断工具,但两者各有侧重。Q-Q图以分位数为坐标轴,直接比较两个分布在尺度上的差异——它对分布的尾部表现尤为敏感,因为分位数在高概率区域发散较快。而P-P图以累积概率为轴,对分布的中心区域(概率中部,如 )的差异更为敏感,但在尾部( 或 )分辨率降低,因为累积概率趋于定值。
形式上的区别如下:
- P-P图:点坐标为 ,所有点被压缩在单位正方形内。适合检测位置-尺度族内的拟合偏差,尤其是中段概率的偏差。
- Q-Q图:点坐标为 , 为分位水平。横纵轴与原数据同量纲,无自然边界。适合检测尾部分布差异(如厚尾、偏度、离群值)。
实践中,两者互补使用:当关注中心趋势拟合时首选P-P图;当关注极端值或尾部风险时(如金融风险管理中的VaR回测),Q-Q图更为合适。
构造步骤与变体
P-P图的经典构造流程包括:
- 将样本排序得到 ;
- 计算经验累积概率 ,其中 为绘图位置参数: 得到 (无偏但边界点 时 ), 得到 (中位秩), 为 Blom 推荐的正态概率绘图位置;
- 计算理论累积概率 ,若 含未知参数则在第一步先以极大似然估计或矩估计代入;
- 在平面中绘制 ,叠加参考线 。
此外,P-P图的变体包括稳定化P-P图(Stabilized P-P Plot),由 Michael(1983)提出,通过对纵轴进行 变换使二项变异均匀化,克服原始尺度下等置信带的非均匀宽度问题。这一变体在检验拟合优度时具有更均衡的视觉判断力。
诊断判读与应用
P-P图上点的偏离模式蕴涵丰富的分布失配信息:
- S 形偏离(曲线在中部低于对角线、两端高于对角线,或反之):提示理论分布的方差设定不当——数据散布大于(或小于)理论分布,常见在正态性检验中;
- 弓形偏离(曲线始终在对角线某一侧弯曲):提示偏度失配,即数据的对称性与理论分布不一致;
- J 形或反 J 形偏离:提示位置参数(均值/中位数)的系统性偏差;
- 局部跳变:在某个概率区间出现陡峭台阶,提示数据中存在截断、混合分布或多模态结构。
在计量经济学中,P-P图广泛用于回归残差的正态性诊断:若线性回归的OLS残差在正态P-P图上紧贴对角线,则残差正态假设得到图形支持,t检验和F检验的推断可靠性增强。在生物统计学中,P-P图被用来评估Cox比例风险模型的Schoenfeld残差是否支持比例风险假定。在机器学习中,P-P图可作为概率校准(Probability Calibration)的评估手段——比较模型预测概率与真实标签的经验累积分布,以检验分类器(如Platt Scaling或Isotonic Regression后)的校准质量。
数值检验的补充:KS与AD统计量
P-P图本质上是一种定性诊断工具。定量化的拟合优度检验往往作为补充:
注意KS统计量的 正对应于P-P图中点到对角线的最大垂直距离,而AD统计量以权重 增大尾部权重,弥补了P-P图尾部分辨率不足的局限。因此,一份完整的拟合诊断报告通常同时呈现P-P图、Q-Q图以及上述检验统计量及其 p 值,以图形与数值交叉验证分布假设的合理性。