ARTICLE

F-test for equality of variances

F检验:方差齐性 (F-test for Equality of Variances) F检验用于比较方差,又称方差比检验 (Variance Ratio Test)或方差齐性F检验,是一种统计假设检验,用于判断两个独立正态总体的方差是否相等。该检验由Ronald A. Fisher在其20世纪20年代关于方差分析的开创性工作中提出,是F分布在统计推断中最基

浏览 0 更新 2025-01-14

F检验:方差齐性 (F-test for Equality of Variances)

F检验用于比较方差,又称方差比检验 (Variance Ratio Test)方差齐性F检验,是一种统计假设检验,用于判断两个独立正态总体的方差是否相等。该检验由Ronald A. Fisher在其20世纪20年代关于方差分析的开创性工作中提出,是F分布在统计推断中最基础的应用之一。检验的核心思想直观而简洁:如果两个总体方差相等,那么各自样本方差的比值应当接近1;如果比值显著偏离1(无论是过大还是过小),则有理由怀疑两个总体的方差存在真实差异。

F检验在实践中的应用极为广泛:在经典的两样本t检验之前,通常需要先通过F检验判断两个总体是否满足方差齐性假设;在方差分析 (ANOVA)的框架中,方差齐性是F检验有效性的前提条件;在质量控制领域,F检验可用于比较不同生产线或不同批次产品的变异程度;在金融计量中,比较不同资产收益率的波动性是风险管理的核心关切。

检验的设定与统计量

设有两个独立样本,分别来自正态总体 N(μ1,σ12)N(\mu_1, \sigma_1^2)N(μ2,σ22)N(\mu_2, \sigma_2^2)。检验假设为:

H0:σ12=σ22vsH1:σ12σ22H_0: \sigma_1^2 = \sigma_2^2 \quad \text{vs} \quad H_1: \sigma_1^2 \neq \sigma_2^2

对于单侧检验,备择假设可调整为 H1:σ12>σ22H_1: \sigma_1^2 > \sigma_2^2H1:σ12<σ22H_1: \sigma_1^2 < \sigma_2^2

检验统计量为两个样本方差的比值:

F=s12s22F = \frac{s_1^2}{s_2^2}

其中 s12s_1^2s22s_2^2 分别为两个样本的无偏方差估计量。在原假设成立的条件下,该统计量服从F分布,分子自由度为 n11n_1 - 1,分母自由度为 n21n_2 - 1(其中 n1,n2n_1, n_2 为两个样本的样本量):

F=s12s22F(n11,n21)F = \frac{s_1^2}{s_2^2} \sim F(n_1 - 1, n_2 - 1)

这一分布的推导依赖于正态假设:在正态总体下,(ni1)si2/σi2(n_i - 1)s_i^2 / \sigma_i^2 服从卡方分布,而两个独立卡方变量各自除以自由度后的比值便构成F分布。

决策规则

对于双侧检验,我们拒绝原假设的条件是检验统计量落入F分布的任一尾部:

F<Fα/2(n11,n21)F>F1α/2(n11,n21)F < F_{\alpha/2}(n_1 - 1, n_2 - 1) \quad \text{或} \quad F > F_{1 - \alpha/2}(n_1 - 1, n_2 - 1)

其中 Fα/2F_{\alpha/2}F1α/2F_{1 - \alpha/2} 分别为F分布的下侧和上侧临界值。在实践中,为简化计算,通常约定将较大的样本方差置于分子,从而使 F1F \geq 1,此时只需比较 FF 与上侧临界值 F1α/2F_{1 - \alpha/2}。当 FF 大于临界值时拒绝原假设。

值得注意的是,F分布的形状不对称且取决于两个自由度参数,这与标准正态分布t分布形成对比。当两个自由度都较小时,F分布呈现明显的右偏;随着自由度增大,分布逐渐趋于对称,但始终支撑在非负实数域上。

正态性假设的敏感性

F检验用于方差齐性时有一个致命弱点:对正态性假设极为敏感。如果总体分布偏离正态——尤其是呈现出厚尾或偏斜时——F检验的第一类错误率会严重高于或低于名义水平。这是因为方差估计本身高度依赖分布的四阶矩(峰度),而正态分布具有特定的峰度值(3)。一旦实际峰度偏离该值,s2s^2 的抽样分布便不再能可靠地通过卡方分布近似,进而F统计量不再服从标准的F分布。

Box (1953) 的经典模拟研究有力地展示了这一点:当总体服从均匀分布时,F检验在名义 α=0.05\alpha = 0.05 下的实际第一类错误率在样本量各为10时约为 0.010.01,远低于名义水平——检验变得过度保守。相反,当总体服从拉普拉斯分布(厚尾)时,实际错误率则膨胀至远高于名义水平。这种对正态性的极端敏感性被George E. P. Box总结为一句著名的论断:``To make the preliminary test on variances is rather like putting to sea in a rowing boat to find out whether conditions are sufficiently calm for an ocean liner to leave port!''

这一局限在实践中意义重大:许多实证研究者习惯性地在进行两样本t检验之前先做F检验以"检查"方差齐性假设,但正是在这一步,正态性假设的违背就可能已经导致错误的结论——要么在方差实际上相等时错误地拒绝原假设,从而导致不必要的补救措施(如Welch校正),要么在方差确实不等时未能检测出来。

替代检验方法

鉴于F检验对正态偏离的脆弱性,统计学家开发了一系列更加稳健的方差齐性检验方法:

  • Levene检验:将原始观测值转化为绝对离差 XijXˉi|X_{ij} - \bar{X}_i|(或中位数离差),然后对这些离差执行单因素ANOVA。Levene检验对正态性的偏离更为稳健,是社会学、心理学和生物医学研究中最常用的方差齐性检验之一。
  • Brown-Forsythe检验:Levene检验的一种变体,使用中位数而非均值计算离差,在数据偏斜时表现更优。研究表明,Brown-Forsythe检验在处理厚尾分布时保持了良好的第一类错误率控制,是多数应用场景下的推荐之选。
  • Bartlett检验:基于似然比方法,将各样本方差的对数与合并方差的对数进行比较。Bartlett检验的功效通常高于Levene检验,但对正态性的敏感程度甚至比F检验更强,因此在实践中使用相对较少。
  • Fligner-Killeen检验:一种基于秩的非参数方法,完全不依赖正态性假设。其统计功效通常在非正态情况下优于Levene类检验。

F检验与ANOVA的联系

F检验用于比较两个方差的过程,在逻辑上是一般线性模型中更广泛的F检验体系的一个特例。在单因素方差分析 (One-way ANOVA)中,F统计量的构造为组间均方除以组内均方,本质上是在比较两种不同的方差估计——一种捕捉了处理效应加随机误差,另一种仅捕捉随机误差。当处理效应为零(所有组均值相等)时,两者的期望相同,比值服从F分布。因此,方差齐性F检验可以被理解为ANOVA在两个总体、无处理效应、只关注方差参数这一特殊情形下的退化形式。

这一联系也揭示了F检验在更广阔统计方法体系中的位置:从简单两样本方差比较,到多组ANOVA,再到多元方差分析(MANOVA)和线性回归中模型整体显著性的F检验,F分布作为"嵌套模型比较"的核心工具贯穿始终。

应用示例

假设研究者想比较两种药物对血压变异性的影响。A药组的10名患者治疗后血压标准差为 s1=8.2s_1 = 8.2 mmHg,B药组的12名患者标准差为 s2=5.1s_2 = 5.1 mmHg。检验两种药物对血压变异性的影响是否不同(取 α=0.05\alpha = 0.05):

计算 F=8.22/5.122.58F = 8.2^2 / 5.1^2 \approx 2.58,分子自由度9,分母自由度11。查F分布表,F0.975(9,11)3.59F_{0.975}(9, 11) \approx 3.59。由于 2.58<3.592.58 < 3.59,不能拒绝原假设。尽管A药组的变异在数值上更大,但现有样本证据不足以在 5%5\% 显著性水平下得出两种药物变异程度存在差异的结论。这一不显著的结果可能源于样本量不足导致的检验功效偏低——研究者应考虑扩大样本或采用功效分析(power analysis)来指导实验设计。

总结

F检验用于方差齐性是一个数学结构优雅、理论根基深厚的经典方法。然而,其应用必须审慎:正态性假设的满足是检验有效性的前提条件。在现代统计实践中,建议研究者优先采用Levene检验、Brown-Forsythe检验或Fligner-Killeen检验等稳健替代方法,尤其是在样本量较小或数据明显偏离正态的情况下。只有在有充分证据(或理论支撑)表明总体近似服从正态分布时,方差比F检验才应成为首选的方差齐性判断工具。