ARTICLE

P-P图

P-P图 (Probability–Probability Plot) P-P图（Probability–Probability Plot，概率-概率图）是一种用于比较两个概率分布的图形工具。它以两个分布的累积分布函数（CDF）为坐标轴，将数据的分位数映射为单位正方形 [0, 1] [0, 1] 内的点集，从而直观检验一个经验分布是否服从某个理论分布，或比较

浏览 0 更新 2025-11-08

P-P图 (Probability–Probability Plot)

P-P图（Probability–Probability Plot，概率-概率图）是一种用于比较两个概率分布的图形工具。它以两个分布的累积分布函数（CDF）为坐标轴，将数据的分位数映射为单位正方形 $[0, 1] \times [0, 1]$ 内的点集，从而直观检验一个经验分布是否服从某个理论分布，或比较两个样本是否来自同一总体。

具体而言，给定样本数据 $\{x_1, x_2, \ldots, x_n\}$ 和一个理论分布 $F_0$ （例如 $\mathcal{N}(\mu, \sigma^2)$ 或 $\text{Exp}(\lambda)$ ），P-P图的横轴为理论分布的累积概率 $F_0(x_{(i)})$ ，纵轴为经验累积概率 $\hat{F}_n(x_{(i)}) = i/n$ （或经连续性校正的 $(i-0.5)/n$ ），其中 $x_{(i)}$ 为第 $i$ 个次序统计量。若数据确实来自 $F_0$ ，则点应大致沿对角线 $y = x$ 分布；系统性的偏离则指示分布假设的失配模式。

与 Q-Q 图的对比

P-P图与更为常见的Q-Q图（Quantile–Quantile Plot）同属分布诊断工具，但两者各有侧重。Q-Q图以分位数为坐标轴，直接比较两个分布在尺度上的差异——它对分布的尾部表现尤为敏感，因为分位数在高概率区域发散较快。而P-P图以累积概率为轴，对分布的中心区域（概率中部，如 $[0.1, 0.9]$ ）的差异更为敏感，但在尾部（ $p \to 0$ 或 $p \to 1$ ）分辨率降低，因为累积概率趋于定值。

形式上的区别如下：

P-P图：点坐标为 $\big(F_0(x_{(i)}),\, \hat{F}_n(x_{(i)})\big)$ ，所有点被压缩在单位正方形内。适合检测位置-尺度族内的拟合偏差，尤其是中段概率的偏差。
Q-Q图：点坐标为 $\big(F_0^{-1}(p_i),\, x_{(i)}\big)$ ， $p_i$ 为分位水平。横纵轴与原数据同量纲，无自然边界。适合检测尾部分布差异（如厚尾、偏度、离群值）。

实践中，两者互补使用：当关注中心趋势拟合时首选P-P图；当关注极端值或尾部风险时（如金融风险管理中的VaR回测），Q-Q图更为合适。

构造步骤与变体

P-P图的经典构造流程包括：

将样本排序得到 $x_{(1)} \leq x_{(2)} \leq \cdots \leq x_{(n)}$ ；
计算经验累积概率 $p_i = (i - a) / (n - 2a + 1)$ ，其中 $a$ 为绘图位置参数： $a = 0$ 得到 $\hat{F}_n = i/n$ （无偏但边界点 $i=n$ 时 $\hat{F}_n = 1$ ）， $a = 0.5$ 得到 $(i - 0.5)/n$ （中位秩）， $a = 0.375$ 为 Blom 推荐的正态概率绘图位置；
计算理论累积概率 $u_i = F_0(x_{(i)})$ ，若 $F_0$ 含未知参数则在第一步先以极大似然估计或矩估计代入；
在平面中绘制 $(u_i, p_i)$ ，叠加参考线 $y = x$ 。

此外，P-P图的变体包括稳定化P-P图（Stabilized P-P Plot），由 Michael（1983）提出，通过对纵轴进行 $\arcsin \sqrt{p}$ 变换使二项变异均匀化，克服原始尺度下等置信带的非均匀宽度问题。这一变体在检验拟合优度时具有更均衡的视觉判断力。

诊断判读与应用

P-P图上点的偏离模式蕴涵丰富的分布失配信息：

S 形偏离（曲线在中部低于对角线、两端高于对角线，或反之）：提示理论分布的方差设定不当——数据散布大于（或小于）理论分布，常见在正态性检验中；
弓形偏离（曲线始终在对角线某一侧弯曲）：提示偏度失配，即数据的对称性与理论分布不一致；
J 形或反 J 形偏离：提示位置参数（均值/中位数）的系统性偏差；
局部跳变：在某个概率区间出现陡峭台阶，提示数据中存在截断、混合分布或多模态结构。

在计量经济学中，P-P图广泛用于回归残差的正态性诊断：若线性回归的OLS残差在正态P-P图上紧贴对角线，则残差正态假设得到图形支持，t检验和F检验的推断可靠性增强。在生物统计学中，P-P图被用来评估Cox比例风险模型的Schoenfeld残差是否支持比例风险假定。在机器学习中，P-P图可作为概率校准（Probability Calibration）的评估手段——比较模型预测概率与真实标签的经验累积分布，以检验分类器（如Platt Scaling或Isotonic Regression后）的校准质量。

数值检验的补充：KS与AD统计量

P-P图本质上是一种定性诊断工具。定量化的拟合优度检验往往作为补充：

D_n = \sup_x |F_n(x) - F_0(x)| \quad (\text{\wiki{Kolmogorov–Smirnov}统计量})

A^2 = n \int_{-\infty}^{\infty} \frac{(F_n(x) - F_0(x))^2}{F_0(x)(1 - F_0(x))} dF_0(x) \quad (\text{\wiki{Anderson–Darling}统计量})

注意KS统计量的 $D_n$ 正对应于P-P图中点到对角线的最大垂直距离，而AD统计量以权重 $[F_0(1-F_0)]^{-1}$ 增大尾部权重，弥补了P-P图尾部分辨率不足的局限。因此，一份完整的拟合诊断报告通常同时呈现P-P图、Q-Q图以及上述检验统计量及其 p 值，以图形与数值交叉验证分布假设的合理性。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。