ARTICLE
F-test for equality of variances
F检验:方差齐性 (F-test for Equality of Variances) F检验用于比较方差,又称方差比检验 (Variance Ratio Test)或方差齐性F检验,是一种统计假设检验,用于判断两个独立正态总体的方差是否相等。该检验由Ronald A. Fisher在其20世纪20年代关于方差分析的开创性工作中提出,是F分布在统计推断中最基
F检验:方差齐性 (F-test for Equality of Variances)
F检验用于比较方差,又称方差比检验 (Variance Ratio Test)或方差齐性F检验,是一种统计假设检验,用于判断两个独立正态总体的方差是否相等。该检验由Ronald A. Fisher在其20世纪20年代关于方差分析的开创性工作中提出,是F分布在统计推断中最基础的应用之一。检验的核心思想直观而简洁:如果两个总体方差相等,那么各自样本方差的比值应当接近1;如果比值显著偏离1(无论是过大还是过小),则有理由怀疑两个总体的方差存在真实差异。
F检验在实践中的应用极为广泛:在经典的两样本t检验之前,通常需要先通过F检验判断两个总体是否满足方差齐性假设;在方差分析 (ANOVA)的框架中,方差齐性是F检验有效性的前提条件;在质量控制领域,F检验可用于比较不同生产线或不同批次产品的变异程度;在金融计量中,比较不同资产收益率的波动性是风险管理的核心关切。
检验的设定与统计量
设有两个独立样本,分别来自正态总体 和 。检验假设为:
对于单侧检验,备择假设可调整为 或 。
检验统计量为两个样本方差的比值:
其中 和 分别为两个样本的无偏方差估计量。在原假设成立的条件下,该统计量服从F分布,分子自由度为 ,分母自由度为 (其中 为两个样本的样本量):
这一分布的推导依赖于正态假设:在正态总体下, 服从卡方分布,而两个独立卡方变量各自除以自由度后的比值便构成F分布。
决策规则
对于双侧检验,我们拒绝原假设的条件是检验统计量落入F分布的任一尾部:
其中 和 分别为F分布的下侧和上侧临界值。在实践中,为简化计算,通常约定将较大的样本方差置于分子,从而使 ,此时只需比较 与上侧临界值 。当 大于临界值时拒绝原假设。
值得注意的是,F分布的形状不对称且取决于两个自由度参数,这与标准正态分布和t分布形成对比。当两个自由度都较小时,F分布呈现明显的右偏;随着自由度增大,分布逐渐趋于对称,但始终支撑在非负实数域上。
正态性假设的敏感性
F检验用于方差齐性时有一个致命弱点:对正态性假设极为敏感。如果总体分布偏离正态——尤其是呈现出厚尾或偏斜时——F检验的第一类错误率会严重高于或低于名义水平。这是因为方差估计本身高度依赖分布的四阶矩(峰度),而正态分布具有特定的峰度值(3)。一旦实际峰度偏离该值, 的抽样分布便不再能可靠地通过卡方分布近似,进而F统计量不再服从标准的F分布。
Box (1953) 的经典模拟研究有力地展示了这一点:当总体服从均匀分布时,F检验在名义 下的实际第一类错误率在样本量各为10时约为 ,远低于名义水平——检验变得过度保守。相反,当总体服从拉普拉斯分布(厚尾)时,实际错误率则膨胀至远高于名义水平。这种对正态性的极端敏感性被George E. P. Box总结为一句著名的论断:``To make the preliminary test on variances is rather like putting to sea in a rowing boat to find out whether conditions are sufficiently calm for an ocean liner to leave port!''
这一局限在实践中意义重大:许多实证研究者习惯性地在进行两样本t检验之前先做F检验以"检查"方差齐性假设,但正是在这一步,正态性假设的违背就可能已经导致错误的结论——要么在方差实际上相等时错误地拒绝原假设,从而导致不必要的补救措施(如Welch校正),要么在方差确实不等时未能检测出来。
替代检验方法
鉴于F检验对正态偏离的脆弱性,统计学家开发了一系列更加稳健的方差齐性检验方法:
- Levene检验:将原始观测值转化为绝对离差 (或中位数离差),然后对这些离差执行单因素ANOVA。Levene检验对正态性的偏离更为稳健,是社会学、心理学和生物医学研究中最常用的方差齐性检验之一。
- Brown-Forsythe检验:Levene检验的一种变体,使用中位数而非均值计算离差,在数据偏斜时表现更优。研究表明,Brown-Forsythe检验在处理厚尾分布时保持了良好的第一类错误率控制,是多数应用场景下的推荐之选。
- Bartlett检验:基于似然比方法,将各样本方差的对数与合并方差的对数进行比较。Bartlett检验的功效通常高于Levene检验,但对正态性的敏感程度甚至比F检验更强,因此在实践中使用相对较少。
- Fligner-Killeen检验:一种基于秩的非参数方法,完全不依赖正态性假设。其统计功效通常在非正态情况下优于Levene类检验。
F检验与ANOVA的联系
F检验用于比较两个方差的过程,在逻辑上是一般线性模型中更广泛的F检验体系的一个特例。在单因素方差分析 (One-way ANOVA)中,F统计量的构造为组间均方除以组内均方,本质上是在比较两种不同的方差估计——一种捕捉了处理效应加随机误差,另一种仅捕捉随机误差。当处理效应为零(所有组均值相等)时,两者的期望相同,比值服从F分布。因此,方差齐性F检验可以被理解为ANOVA在两个总体、无处理效应、只关注方差参数这一特殊情形下的退化形式。
这一联系也揭示了F检验在更广阔统计方法体系中的位置:从简单两样本方差比较,到多组ANOVA,再到多元方差分析(MANOVA)和线性回归中模型整体显著性的F检验,F分布作为"嵌套模型比较"的核心工具贯穿始终。
应用示例
假设研究者想比较两种药物对血压变异性的影响。A药组的10名患者治疗后血压标准差为 mmHg,B药组的12名患者标准差为 mmHg。检验两种药物对血压变异性的影响是否不同(取 ):
计算 ,分子自由度9,分母自由度11。查F分布表,。由于 ,不能拒绝原假设。尽管A药组的变异在数值上更大,但现有样本证据不足以在 显著性水平下得出两种药物变异程度存在差异的结论。这一不显著的结果可能源于样本量不足导致的检验功效偏低——研究者应考虑扩大样本或采用功效分析(power analysis)来指导实验设计。
总结
F检验用于方差齐性是一个数学结构优雅、理论根基深厚的经典方法。然而,其应用必须审慎:正态性假设的满足是检验有效性的前提条件。在现代统计实践中,建议研究者优先采用Levene检验、Brown-Forsythe检验或Fligner-Killeen检验等稳健替代方法,尤其是在样本量较小或数据明显偏离正态的情况下。只有在有充分证据(或理论支撑)表明总体近似服从正态分布时,方差比F检验才应成为首选的方差齐性判断工具。