ARTICLE

P-P图

P-P图 (Probability–Probability Plot) P-P图(Probability–Probability Plot,概率-概率图)是一种用于比较两个概率分布的图形工具。它以两个分布的累积分布函数(CDF)为坐标轴,将数据的分位数映射为单位正方形 [0, 1] [0, 1] 内的点集,从而直观检验一个经验分布是否服从某个理论分布,或比较

浏览 0 更新 2025-11-08

P-P图 (Probability–Probability Plot)

P-P图(Probability–Probability Plot,概率-概率图)是一种用于比较两个概率分布的图形工具。它以两个分布的累积分布函数(CDF)为坐标轴,将数据的分位数映射为单位正方形 [0,1]×[0,1] [0, 1] \times [0, 1] 内的点集,从而直观检验一个经验分布是否服从某个理论分布,或比较两个样本是否来自同一总体。

具体而言,给定样本数据 {x1,x2,,xn} \{x_1, x_2, \ldots, x_n\} 和一个理论分布 F0 F_0 (例如 N(μ,σ2) \mathcal{N}(\mu, \sigma^2) Exp(λ) \text{Exp}(\lambda) ),P-P图的横轴为理论分布的累积概率 F0(x(i)) F_0(x_{(i)}) ,纵轴为经验累积概率 F^n(x(i))=i/n \hat{F}_n(x_{(i)}) = i/n (或经连续性校正的 (i0.5)/n (i-0.5)/n ),其中 x(i) x_{(i)} 为第 i i 次序统计量。若数据确实来自 F0 F_0 ,则点应大致沿对角线 y=x y = x 分布;系统性的偏离则指示分布假设的失配模式。

与 Q-Q 图的对比

P-P图与更为常见的Q-Q图(Quantile–Quantile Plot)同属分布诊断工具,但两者各有侧重。Q-Q图以分位数为坐标轴,直接比较两个分布在尺度上的差异——它对分布的尾部表现尤为敏感,因为分位数在高概率区域发散较快。而P-P图以累积概率为轴,对分布的中心区域(概率中部,如 [0.1,0.9] [0.1, 0.9] )的差异更为敏感,但在尾部(p0 p \to 0 p1 p \to 1 )分辨率降低,因为累积概率趋于定值。

形式上的区别如下:

  • P-P图:点坐标为 (F0(x(i)),F^n(x(i))) \big(F_0(x_{(i)}),\, \hat{F}_n(x_{(i)})\big) ,所有点被压缩在单位正方形内。适合检测位置-尺度族内的拟合偏差,尤其是中段概率的偏差。
  • Q-Q图:点坐标为 (F01(pi),x(i)) \big(F_0^{-1}(p_i),\, x_{(i)}\big) pi p_i 为分位水平。横纵轴与原数据同量纲,无自然边界。适合检测尾部分布差异(如厚尾、偏度、离群值)。

实践中,两者互补使用:当关注中心趋势拟合时首选P-P图;当关注极端值或尾部风险时(如金融风险管理中的VaR回测),Q-Q图更为合适。

构造步骤与变体

P-P图的经典构造流程包括:

  1. 将样本排序得到 x(1)x(2)x(n) x_{(1)} \leq x_{(2)} \leq \cdots \leq x_{(n)}
  2. 计算经验累积概率 pi=(ia)/(n2a+1) p_i = (i - a) / (n - 2a + 1) ,其中 a a 为绘图位置参数:a=0 a = 0 得到 F^n=i/n \hat{F}_n = i/n (无偏但边界点 i=n i=n F^n=1 \hat{F}_n = 1 ),a=0.5 a = 0.5 得到 (i0.5)/n (i - 0.5)/n (中位秩),a=0.375 a = 0.375 为 Blom 推荐的正态概率绘图位置;
  3. 计算理论累积概率 ui=F0(x(i)) u_i = F_0(x_{(i)}) ,若 F0 F_0 含未知参数则在第一步先以极大似然估计矩估计代入;
  4. 在平面中绘制 (ui,pi) (u_i, p_i) ,叠加参考线 y=x y = x

此外,P-P图的变体包括稳定化P-P图(Stabilized P-P Plot),由 Michael(1983)提出,通过对纵轴进行 arcsinp \arcsin \sqrt{p} 变换使二项变异均匀化,克服原始尺度下等置信带的非均匀宽度问题。这一变体在检验拟合优度时具有更均衡的视觉判断力。

诊断判读与应用

P-P图上点的偏离模式蕴涵丰富的分布失配信息:

  • S 形偏离(曲线在中部低于对角线、两端高于对角线,或反之):提示理论分布的方差设定不当——数据散布大于(或小于)理论分布,常见在正态性检验中;
  • 弓形偏离(曲线始终在对角线某一侧弯曲):提示偏度失配,即数据的对称性与理论分布不一致;
  • J 形或反 J 形偏离:提示位置参数(均值/中位数)的系统性偏差;
  • 局部跳变:在某个概率区间出现陡峭台阶,提示数据中存在截断混合分布或多模态结构。

在计量经济学中,P-P图广泛用于回归残差的正态性诊断:若线性回归的OLS残差在正态P-P图上紧贴对角线,则残差正态假设得到图形支持,t检验F检验的推断可靠性增强。在生物统计学中,P-P图被用来评估Cox比例风险模型Schoenfeld残差是否支持比例风险假定。在机器学习中,P-P图可作为概率校准(Probability Calibration)的评估手段——比较模型预测概率与真实标签的经验累积分布,以检验分类器(如Platt ScalingIsotonic Regression后)的校准质量。

数值检验的补充:KS与AD统计量

P-P图本质上是一种定性诊断工具。定量化的拟合优度检验往往作为补充:

Dn=supxFn(x)F0(x)(\wikiKolmogorov–Smirnov统计量)D_n = \sup_x |F_n(x) - F_0(x)| \quad (\text{\wiki{Kolmogorov–Smirnov}统计量})
A2=n(Fn(x)F0(x))2F0(x)(1F0(x))dF0(x)(\wikiAnderson–Darling统计量)A^2 = n \int_{-\infty}^{\infty} \frac{(F_n(x) - F_0(x))^2}{F_0(x)(1 - F_0(x))} dF_0(x) \quad (\text{\wiki{Anderson–Darling}统计量})

注意KS统计量的 Dn D_n 正对应于P-P图中点到对角线的最大垂直距离,而AD统计量以权重 [F0(1F0)]1 [F_0(1-F_0)]^{-1} 增大尾部权重,弥补了P-P图尾部分辨率不足的局限。因此,一份完整的拟合诊断报告通常同时呈现P-P图、Q-Q图以及上述检验统计量及其 p 值,以图形与数值交叉验证分布假设的合理性。