ARTICLE
Pitman-Morgan 检验
Pitman-Morgan 检验 (Pitman-Morgan Test) Pitman-Morgan 检验(Pitman-Morgan Test)是一种用于比较两个相关样本(即配对样本)方差是否相等的统计检验方法。该检验由统计学家E. J. G. Pitman和W. A. Morgan在1939年前后独立提出,因此以两人的姓氏联合命名。区别于经典的F检验(
Pitman-Morgan 检验 (Pitman-Morgan Test)
Pitman-Morgan 检验(Pitman-Morgan Test)是一种用于比较两个相关样本(即配对样本)方差是否相等的统计检验方法。该检验由统计学家E. J. G. Pitman和W. A. Morgan在1939年前后独立提出,因此以两人的姓氏联合命名。区别于经典的F检验(仅适用于独立样本的方差比较),Pitman-Morgan 检验专门处理配对或相关样本情境——例如同一组受试者在实验前和实验后的测量数据,或双胞胎研究中两个成员在同一指标上的得分。当样本之间存在相关性时,直接使用 F 检验会导致严重的推断偏误,而 Pitman-Morgan 检验通过对相关系数的校正提供了正确的推断框架。
检验的基本原理
假设我们从二元正态分布总体中获得 对配对观测值 ,。令 和 分别为两个样本的样本方差, 为 与 之间的样本相关系数。Pitman-Morgan 检验的零假设为两个总体的方差相等:
检验统计量定义为:
在零假设成立的条件下,该统计量服从(学生氏) t 分布,自由度为 。从公式结构可以看出,分母中包含了 项,这使得检验自动校正了两个变量之间的相关性——当相关系数 越接近 ±1 时,分母越小,统计量的绝对值越大,检验的统计功效也相应提高。
与 F 检验的关键区别
在独立样本情境下,比较两个方差的标准方法是 F 检验:。然而,当 和 来自配对数据(即存在正相关或负相关)时,直接使用 F 检验会产生严重问题。研究表明,若两个变量呈正相关,F 检验会高估方差差异的显著性(即更容易错误地拒绝零假设);若呈负相关,则会低估显著性。Pitman-Morgan 检验通过引入相关系数 解决了这一问题,使得检验在相关数据中仍能保持正确的第一类错误率。
事实上,Pitman-Morgan 检验可以视为对配对 t 检验思想在方差比较上的推广。配对 t 检验关注的是均值差异 ,而 Pitman-Morgan 检验关注的是方差差异。两者都利用了配对结构来消除个体间异质性的干扰。
检验的等价形式
Pitman-Morgan 检验存在一个简洁的等价形式。令 和 ,可以证明:
其中 是 与 之间的皮尔逊相关系数。换言之,Pitman-Morgan 检验等价于检验 和 之间的相关性是否显著——如果 (差值)与 (和值)之间不存在线性相关,则两个方差相等。这一等价形式不仅揭示了检验的几何含义,还提供了更为简便的计算方法:只需计算差值 与和值 的相关系数,再对相关系数进行显著性 t 检验即可。
应用示例
考虑一项营养干预研究,10名受试者在干预前后的体重测量数据如下:
| 受试者 | 干预前 () | 干预后 () | | :---: | :---: | :---: | | 1 | 70.2 | 68.5 | | 2 | 85.0 | 82.1 | | 3 | 63.8 | 64.2 | | 4 | 92.5 | 89.7 | | 5 | 78.1 | 76.3 | | 6 | 69.4 | 70.0 | | 7 | 81.2 | 79.8 | | 8 | 74.6 | 73.1 | | 9 | 88.3 | 85.9 | | 10 | 66.9 | 67.4 |
研究者不仅关心均值是否变化,还想知道干预是否改变了体重的变异程度。计算可得 ,,(高度相关),代入公式得 ,,对应的 p-value ≈ 0.035。在显著性水平 下,拒绝零假设,提示干预前后的方差存在显著差异。
假设条件
Pitman-Morgan 检验的有效性依赖于以下假设:
- 配对独立性:不同配对观测值之间相互独立。虽然同对内的 和 可以相关,但不同对之间不能存在依赖关系。
- 连续数据:变量应为连续变量,因为检验依赖于方差和相关系数的计算。
当正态性假设不满足时,可以考虑使用非参数方法,例如Levene 检验的配对版本或基于Bootstrap的推断方法。此外,该检验对离群值较为敏感,因为方差估计本身容易受到极端值的影响。在实际应用中,建议在实施检验前先通过散点图和 Q-Q 图对数据的二元正态性进行可视化评估。
历史与发展
1939年,Pitman 在 Biometrika 上发表了关于相关样本方差比较的论文;几乎同一时期,Morgan 也在研究配对观测的方差比较问题。两人的工作共同奠定了这一检验的理论基础。有趣的是,两位学者从不同的数学路径得出了相同的统计量——Pitman 从方差比的分布出发,而 Morgan 则从相关系数的角度切入。这一殊途同归的故事在统计学史上传为佳话。
此后,该检验在教育测量、心理学、医学统计学及金融时间序列分析等领域得到了广泛应用。例如,在教育评估中,研究者使用该检验比较同一组学生在不同测验形式上的得分方差是否一致;在金融领域,分析师用它检验不同市场条件下资产收益率的波动性是否发生变化。在现代统计软件中,虽然部分软件包未直接提供该检验的专用函数,但研究者可以利用其等价形式——即检验 与 的相关系数——通过简单的 t 检验轻松实现。
与其他方差比较方法的关联
Pitman-Morgan 检验并非配对数据方差比较的唯一选项。在当代统计实践中,以下几种方法也值得关注:
配对 Levene 检验:Levene 检验原本用于独立样本的方差齐性检验,其配对版本通过对差值绝对值进行 ANOVA 实现了对相关数据方差的比较,对正态性的要求比 Pitman-Morgan 检验更为宽松。
Bootstrap 方法:通过从配对数据中重复抽样,可以直接估计方差比或方差差的抽样分布,从而构建置信区间和进行假设检验。Bootstrap 方法几乎不依赖分布假设,适用于小样本或非正态数据。
广义估计方程(GEE):在更复杂的纵向数据设计中,可以通过 GEE 对方差结构进行建模和比较。但这种方法需要更大的样本量,且解释上不如 Pitman-Morgan 检验直观。
相比之下,Pitman-Morgan 检验的优势在于其解析形式简单、计算便捷、在满足假设时具有最优的检验功效。当数据量较小且二元正态性基本成立时,它仍是配对方差比较的首选方法。
实际应用中的注意事项
在实际使用中,研究者应注意以下几点:第一,该检验对样本量较为敏感,当 时检验功效较低,难以检测到中等程度的方差差异。第二,由于公式中包含 项,当相关系数极高(如 )时,分母极小,可能导致统计量对较小的方差差异也过于敏感。第三,在报告结果时,除了 p-value 外,还应同时报告方差比 和相关系数 ,以便读者全面评估效应大小。最后,如果研究设计涉及多个配对比较(如多重时间点的纵向数据),应进行多重比较校正(如 Bonferroni 校正),以控制全局第一类错误率。
总的来说,Pitman-Morgan 检验作为配对数据方差比较的标准工具,恰当地处理了样本相关性对检验结果的影响,是参数统计工具箱中不可或缺的推断方法之一。在经济学、心理学、医学和教育学等领域的配对实验设计中,它为解决"方差是否相等"这一基础问题提供了严谨的统计框架。