ARTICLE
Brown-Forsythe test
Brown-Forsythe 检验(Brown–Forsythe test)是一种用于检验多个组之间方差是否相等的统计方法,由美国统计学家 Morton B. Brown 和 Alan B. Forsythe 于 1974 年在《Journal of the American Statistical Association》上正式提出。该检验属于方差齐性检验
Brown-Forsythe 检验(Brown–Forsythe test)是一种用于检验多个组之间方差是否相等的统计方法,由美国统计学家 Morton B. Brown 和 Alan B. Forsythe 于 1974 年在《Journal of the American Statistical Association》上正式提出。该检验属于方差齐性检验(test of homogeneity of variance)家族,是 Levene 检验的重要改良版本。其核心改进在于使用各组的中位数而非均值作为中心位置度量,从而在数据偏离正态分布或存在异常值时具有更强的稳健性。
方法背景与动机
方差齐性(homogeneity of variance)是方差分析(ANOVA)、t 检验以及线性回归模型等经典参数方法的关键前提条件。当各组方差不等时,标准 F 检验的实际显著性水平会严重偏离名义水平——方差较大组的类型 I 错误率升高,而方差较小组的统计效力则下降。这一问题的严重程度取决于方差异质性程度以及各组样本量的均衡性。
在 Brown-Forsythe 检验问世之前,研究者主要依赖 Bartlett 检验和 Levene 检验。Bartlett 检验基于似然比原理,对正态性假设高度敏感——一旦数据来自厚尾或偏态分布,其实际第一类错误率可能远高于名义的 5\% 水平,导致大量虚假显著的结论。Levene 检验(1960 年提出)通过将原始数据转换为观测值与组均值的绝对离差,在一定程度上降低了对非正态的敏感性,但由于均值本身仍受极端值的影响,在偏态分布下的表现并不理想。Brown 和 Forsythe 敏锐地指出,如果以中位数作为中心位置的估计量,则离差测度对异常值和偏态分布的耐受性将大幅提升,从而发展出了 Brown-Forsythe 检验。
检验原理与统计公式
设有 个独立组,第 组包含 个观测值 (;),总样本量 。原假设为各组的总体方差相等:
备择假设为至少有一组方差与其他组不同。检验的第一步是计算新变量:
其中 是第 组的中位数。以此将方差齐性检验转化为对 在各组间均值是否相等的检验。具体而言,在 上执行单因素方差分析,检验统计量为:
其中 为第 组 的样本均值, 为全体 的总均值。在原假设成立时, 近似服从自由度为 的 F 分布。若计算得到的 p 值小于事先设定的显著性水平(通常取 ),则拒绝方差齐性的原假设。
与 Levene 检验的异同
Brown-Forsythe 检验与 Levene 检验在计算流程上几乎完全一致,唯一的区别在于中心化方式:Levene 检验使用各组均值 计算绝对离差 ,而 Brown-Forsythe 检验使用各组中位数 计算 。这一看似细微的改动带来了实质性的统计性能差异。
在以下情形中,Brown-Forsythe 检验的优势尤为突出:
- 偏态分布:当数据来自右偏分布(如 分布、对数正态分布或指数分布)时,均值被拖向长尾方向,导致基于均值的绝对离差整体偏大且无法体现对称散布;而中位数不受尾部极端值的影响,基于中位数的离差更真实地反映了数据的内在变异程度。
- 异常值污染:即便数据整体服从正态分布,若某一组内存在少量极端观测值,组均值会向异常值方向大幅移动,Levene 检验的离差序列因此被严重扭曲;中位数对异常值的耐抗性(breakdown point)高达 50\%,Brown-Forsythe 检验在含异常值的数据中保持了良好的稳健性。
- 小样本情形:在样本量较少(如 )时,均值的抽样变异性增大,异常值对均值的影响更为显著,此时中位数是更可靠的中心位置估计量。
在对称分布且无异常值的理想条件下,两种检验的统计效力(power)十分接近。由于 Levene 检验更为人所知且在许多教材中作为默认方法介绍,若数据确认满足近似正态条件,使用 Levene 检验也无不可;但作为一般策略,Brown-Forsythe 检验因其更强的稳健性而被推荐为默认选择。
计算步骤与软件实现
完整的检验流程归纳如下:
- 对每一组分别计算样本中位数 。
- 将每个观测值转换为与所属组中位数的绝对离差 。
- 以 为响应变量、以组别为因子,执行单因素方差分析。
- 获取 F 统计量和对应的 p 值,根据预设显著性水平做出统计推断。
Brown-Forsythe 检验已成为主流统计软件的标配功能。在 R 语言中,\texttt{car} 包的 \texttt{leveneTest()} 函数在指定 \texttt{center = median} 时即执行 Brown-Forsythe 检验;SPSS 的方差齐性检验菜单同时提供基于均值、中位数和中位数剔除了离群值三种选项;SAS 的 \texttt{MEANS} 过程也内置了这一检验;Python 的 \texttt{scipy.stats.levene()} 函数通过 \texttt{center='median'} 参数切换为 Brown-Forsythe 变体。
与其他方差齐性检验的比较
与 Brown-Forsythe 检验并列的方差齐性检验方法还包括:
- Bartlett 检验:在正态假设下最具效力,但对非正态极其敏感,不推荐在分布未知的数据中使用。
- Fligner–Killeen 检验:一种非参数方差齐性检验,基于秩转换,不依赖分布假设。在大样本下具有良好的稳健性,但统计效力通常低于 Brown-Forsythe 检验。
- Hartley 的 Fmax 检验:计算各组方差最大值与最小值的比值,简便但对各组样本量差异和正态性假设敏感,已较少使用。
综合来看,Brown-Forsythe 检验在稳健性和统计效力之间取得了良好的平衡,是目前推荐的首选方法之一。
应用领域
Brown-Forsythe 检验广泛应用在以下研究场景中:
- 心理学与行为科学:验证实验组和对照组在反应时、评分等指标上的方差齐性,确保 ANOVA 结果的可信度。
- 生物学与医学:比较不同处理组或不同遗传型个体的表型变异程度,判断干预是否改变了结果的离散度。
- 经济学:检验不同收入阶层或不同地区的消费支出方差是否相同,为政策评估提供统计依据。
- 教育学:评估不同教学方式下学生成绩的变异是否一致。
局限性与注意事项
尽管 Brown-Forsythe 检验具有较强的稳健性,研究者在使用时仍需注意以下几点:
- 各组的样本量极端不平衡:当某些组的样本量远小于其他组且方差异质性严重时,Brown-Forsythe 检验的实际第一类错误率可能略微超过名义水平。
- 仅检验方差是否相等:检验结果只告知是否存在方差异质性,不提供差异的方向或具体形态。若需进一步了解哪几组的方差不同,应配合事后比较(如 pairwise F-test 或 bootstrap 方法)或箱线图、方差比等可视化手段。
- 对离散程度的度量有限:中位数绝对离差(MAD)在理论上也是衡量散布的稳健方法,但 Brown-Forsythe 检验使用针对中位数的绝对偏差的均值,而非 MAD。这意味着它仍在一定程度上受各组内离差分布形状的影响。
总结
Brown-Forsythe 检验通过在 Levene 检验框架中以中位数替代均值作为中心化基准,在保持对正态数据良好统计效力的同时,显著增强了对非正态分布、偏态分布和异常值污染的稳健性。它操作简便、软件支持广泛,是实证研究中进行方差齐性检验时值得优先考虑的方法。