ARTICLE
弗里德曼检验
弗里德曼检验(Friedman Test) 是由诺贝尔经济学奖得主米尔顿·弗里德曼(Milton Friedman)于1937年提出的一种非参数统计检验方法。它是单因素重复测量方差分析(One-Way Repeated Measures ANOVA)的非参数替代方案,适用于同一组受试者在三种或更多种不同条件(处理)下的观测数据,不要求数据满足正态分布或方差齐
弗里德曼检验(Friedman Test) 是由诺贝尔经济学奖得主米尔顿·弗里德曼(Milton Friedman)于1937年提出的一种非参数统计检验方法。它是单因素重复测量方差分析(One-Way Repeated Measures ANOVA)的非参数替代方案,适用于同一组受试者在三种或更多种不同条件(处理)下的观测数据,不要求数据满足正态分布或方差齐性假定的前提条件。弗里德曼检验的核心目的是判断多个配对样本是否来自同一总体,即各处理效应之间是否存在显著差异。
1. 问题背景与直觉
在实验设计中,若对同一组样本在不同时间点或不同处理条件下重复测量,所得数据天然具有配对(关联)结构。经典的参数方法(如重复测量ANOVA)要求数据服从正态分布且方差齐性,但实际应用中,当样本量较小或数据为序数尺度(如满意度评分、排名数据)时,这些假设往往难以满足。弗里德曼检验恰好在这些场景中发挥作用:它将原始数值转化为秩(rank),仅依赖秩次信息来判断各处理之间是否一致,从而规避了对总体分布形式的假设。
从直觉上讲,弗里德曼检验的逻辑如下:若各处理效应无差异,则每个受试者在不同处理下的观测值排名应是随机分布的——即每个排名出现在每个处理位置的概率大致相等。反之,若某个处理在多个受试者中系统性地偏高或偏低,则该处理的秩和将显著偏离随机期望值,从而提示处理效应确实存在。
2. 检验步骤
弗里德曼检验的具体操作可分为以下四个步骤:
第一步:数据排列。 将观测数据整理为 行(受试者/区组) 列(处理条件)的表格,其中 为区组数, 为处理数()。每一行代表一个区组(即同一个受试者或匹配组)在 个处理下的观测值。
第二步:行内排序。 对每个区组(行)内的 个观测值独立地赋予秩次 ,其中 表示最小值, 表示最大值。若存在相等值(ties),则取平均秩。
第三步:计算秩和与检验统计量。 对每个处理条件 ,计算其在所有 个区组中的秩和 。弗里德曼检验统计量 定义为:
其中 是各处理秩和在"无差异"原假设下的期望值。 统计量近似服从自由度为 的卡方分布 。
第四步:决策。 将计算得到的 值与临界值 比较。若 大于临界值,则拒绝原假设 (各处理效应相同),认为至少有一个处理与其他处理存在显著差异。当存在大量相等秩时,可使用调整后的 统计量(如 Iman-Davenport 修正)以提高检验精度。
3. 与其他非参数检验的关系
弗里德曼检验在非参数统计体系中占有独特位置。它与另外几种常见检验的关系如下:
- 符号检验与 Wilcoxon 符号秩检验:两者仅适用于两组配对数据的比较(),而弗里德曼检验扩展到了 的多组情形。当 时,弗里德曼检验等价于符号检验。
- Kruskal-Wallis 检验:这是单因素独立样本(非配对)的非参数ANOVA替代方案。弗里德曼检验与 Kruskal-Wallis 检验的核心区别在于前者在行内排序(每个区组独立排序),而后者对所有样本统一排序。简言之,弗里德曼处理配对/重复测量数据,Kruskal-Wallis 处理独立组数据。
- Cochran's Q 检验:当因变量为二分类(0/1)变量时,Cochran's Q 检验可视为弗里德曼检验的特例。
4. 事后比较(Post-hoc Analysis)
当弗里德曼检验拒绝原假设后,研究者通常需要进一步确定哪些处理之间存在显著差异。常用的事后比较方法包括:
- Nemenyi 检验:对所有处理进行两两比较,控制整体族系错误率(Familywise Error Rate)。其临界值基于学生化极差分布(Studentized Range Distribution)。
- Bonferroni 校正的 Wilcoxon 符号秩检验:对各配对组执行 Wilcoxon 检验,并对 值进行 Bonferroni 校正。该方法较为保守但易于实施。
- Conover 检验:基于秩次的两两 t 检验,统计功效通常高于 Nemenyi 检验。
选择事后方法时需权衡检验功效与多重比较的控制紧度,Nemenyi 检验最为保守而 Conover 检验最为宽松。
5. 应用示例
考虑一个经典的场景:某研究者想比较三种教学方法(传统讲授、案例教学、翻转课堂)对学生测试成绩的影响。从 名学生中收集数据,每名学生依次接受三种方法的教学并参加等价测试。由于样本量小且测试分数可能呈偏态分布,选用弗里德曼检验。
假设对每个学生的三种成绩进行行内排序后,计算得 ,自由度为 。查卡方分布表知 ,,因此拒绝原假设,认为至少一种教学方法的效果与其他方法显著不同。随后使用 Nemenyi 检验进行事后比较,发现翻转课堂与传统讲授之间存在显著差异(),而案例教学与其他两种方法的差异未达到显著性水平。
6. 局限性与注意事项
弗里德曼检验虽不依赖正态分布假设,但仍有以下限制:
- 可加性假设:严格而言,检验假设各区组与处理之间不存在交互作用,即处理效应在不同区组间是一致的。若存在交互,检验的统计功效会下降。
- 序数信息:检验仅利用了数据的序次信息,完全丢弃了绝对幅度差异。当数据真实尺度为等距或比率尺度时,重复测量 ANOVA 的统计功效通常更高。
- 小样本校正:当 较小(如 )或 较小时,卡方近似可能不准确,应使用精确检验或查专门的弗里德曼检验临界值表。
- 缺失数据:检验要求每个区组的全部 个观测值完整,缺失任一观测值则整个区组将被剔除,可能导致信息损失。
7. 总结
弗里德曼检验是非参数统计工具箱中的重要一员,为重复测量或区组设计的多组比较提供了一种稳健且易于理解的分析方式。它将原始数据转化为秩次,通过比较各处理秩和与期望秩和的偏离程度来判断效应是否存在,在心理学、医学、教育学、经济学等领域的序数数据分析中得到了广泛应用。正确使用该检验的关键在于理解其适用条件(配对多组、序数或连续但不满足参数假设)和选择合适的后续比较方法。