ARTICLE

Levene 检验

Levene 检验 (Levene's Test) Levene 检验(Levene's Test)是统计学中用于检验多个总体方差是否相等(即方差齐性)的一种稳健方法,由美国统计学家 Howard Levene 于 1960 年在其论文 Robust Tests for Equality of Variances 中首次提出。与经典的Bartlett 检验不

浏览 0 更新 2026-07-15

Levene 检验 (Levene's Test)

Levene 检验(Levene's Test)是统计学中用于检验多个总体方差是否相等(即方差齐性)的一种稳健方法,由美国统计学家 Howard Levene 于 1960 年在其论文 Robust Tests for Equality of Variances 中首次提出。与经典的Bartlett 检验不同,Levene 检验不要求数据严格服从正态分布,因此在实际应用中具有更广泛的适应性,是方差分析(ANOVA)前提假设验证中最常用的工具之一。

检验原理与核心思想

Levene 检验的核心思想是将方差齐性的检验问题转化为一个关于 离差(deviation)的均值比较问题。具体来说,若各组数据的方差相等,则各组观测值偏离其组中心的平均程度应当接近。

统计量构造步骤

设共有 kk 个独立样本组,第 ii 组样本容量为 nin_i,第 jj 个观测值为 XijX_{ij}i=1,2,,ki = 1, 2, \ldots, kj=1,2,,nij = 1, 2, \ldots, n_i)。检验统计量的构造分为以下步骤:

  1. 确定各组的中心位置度量 Xˉi\bar{X}_i。最常用的选择是各组样本均值 Xˉi=1nij=1niXij\bar{X}_i = \frac{1}{n_i}\sum_{j=1}^{n_i} X_{ij},也可使用中位数或修剪均值。
  2. 计算每个观测值到其所属组中心的绝对离差: \[ Z_{ij} = |X_{ij} - \bar{X}_i| \]
  3. ZijZ_{ij} 作为新的响应变量,对组别因子执行单因素方差分析。记总样本量为 N=i=1kniN = \sum_{i=1}^k n_i,则检验统计量为标准 ANOVA 的 FF 统计量: \[ W = \frac{(N-k) \sum_{i=1}^k n_i (\bar{Z}_{i\cdot} - \bar{Z}_{\cdot\cdot})^2}{(k-1) \sum_{i=1}^k \sum_{j=1}^{n_i} (Z_{ij} - \bar{Z}_{i\cdot})^2} \] 其中 Zˉi=1nij=1niZij\bar{Z}_{i\cdot} = \frac{1}{n_i}\sum_{j=1}^{n_i} Z_{ij} 为第 ii 组的平均离差,Zˉ=1Ni=1kj=1niZij\bar{Z}_{\cdot\cdot} = \frac{1}{N}\sum_{i=1}^k\sum_{j=1}^{n_i} Z_{ij} 为总平均离差。

在零假设 H0:σ12=σ22==σk2H_0: \sigma_1^2 = \sigma_2^2 = \cdots = \sigma_k^2(各组方差相等)成立的前提下,统计量 WW 近似服从自由度为 (k1,Nk)(k-1, N-k)F分布。当计算出的 WW 值超过给定显著性水平下的临界值 Fα(k1,Nk)F_{\alpha}(k-1, N-k) 时,拒绝零假设,认为各组方差之间存在显著差异。

检验假设与决策规则

Levene 检验的原假设与备择假设为:

H0:σ12=σ22==σk2H_0: \sigma_1^2 = \sigma_2^2 = \cdots = \sigma_k^2

\\

H1:至少存在一组 ij, 使得 σi2σj2H_1: \text{至少存在一组 } i \neq j, \text{ 使得 } \sigma_i^2 \neq \sigma_j^2

决策规则:若 W>Fα(k1,Nk)W > F_{\alpha}(k-1, N-k),则拒绝 H0H_0,判定方差不齐;否则不能拒绝方差齐性假设。与所有假设检验一样,不能拒绝 H0H_0 并不意味着"证明方差相等",而仅表示数据未提供足够的证据推断方差不相等。

主要变体:均值型、中位数型与修剪均值型

根据组中心度量方式的不同,Levene 检验存在三种常见的变体。不同变体在稳健性统计功效之间存在权衡。

均值型 Levene 检验(原始版本)

使用各组样本均值 Xˉi\bar{X}_i 作为中心度量。在数据来自对称分布且尾部较轻(即峰度接近正态分布的峰度)时表现良好,但对重尾分布和偏态分布较为敏感。

中位数型 Levene 检验(Brown-Forsythe 检验)

1974 年,BrownForsythe 提出使用各组样本中位数 X~i\tilde{X}_i 替代均值:

Zij=XijX~iZ_{ij} = |X_{ij} - \tilde{X}_i|

这一变体通常被称为Brown-Forsythe检验。由于中位数对异常值(outlier)和偏度(skewness)具有较强的稳健性,中位数型 Levene 检验在数据非正态(尤其是重尾分布)时通常具有更好的第一类错误控制能力。在实际应用中,多数统计软件(如 R 的 \texttt{car} 包中的 \texttt{leveneTest} 函数、SPSS 的 Explore 过程)默认使用中位数版本。

修剪均值型 Levene 检验

使用修剪均值(trimmed mean)——即剔除每组中部分极端观测值后的算术平均值——作为中心度量。修剪比例通常设为 5\% 或 10\%。这一变体在异常值较多、但并非极端不对称的情境下提供了折中的稳健性和效率。

Levene 检验与 Bartlett 检验的比较

Levene 检验与Bartlett 检验是方差齐性检验中两种应用最广泛的方法,但两者在理论假设、使用条件和实际表现上存在关键差异。

Bartlett 检验基于各组样本方差与合并方差的对数比构造卡方分布统计量,在数据严格服从正态分布时具有较高的统计功效,是方差齐性的一致最大功效无偏检验(UMPU)。然而,Bartlett 检验对偏离正态性极度敏感——即使轻微的峰度偏离也可能导致实际第一类错误率远高于名义水平。换言之,Bartlett 检验可能在"数据非正态"而非"方差不齐"时显著,从而误导实验结论。

Levene 检验通过将方差比较转化为离差的位置比较,回避了对正态性的严格要求。大量蒙特卡洛模拟(Monte Carlo simulation)研究表明,Levene 检验在多种非正态分布下的第一类错误率接近名义水平,同时在样本量适中(各组 ni10n_i \geq 10)时保持可接受的统计功效。一般而言:

  • 若数据经检验(如Shapiro-Wilk检验)判定为正态或接近正态,Bartlett 检验是首选(更高的功效)。
  • 若数据偏离正态——尤其是出现重尾、偏态或异常值时,应优先选择 Levene 检验(尤其是 Brown-Forsythe 变体)。
  • 在大样本条件下,两种方法的差异缩小,但 Levene 检验的稳健优势始终存在。

应用场景

Levene 检验的主要应用场景包括:

  1. 方差分析前提验证:在执行单因素ANOVA、多因素方差分析前,通常需要检验方差齐性假设。Levene 检验是这一环节的标准选择。
  2. 独立样本 tt 检验的前提确认:在两样本情境下(k=2k = 2),Levene 检验等同于检验两总体的方差是否相等,用于辅助判定应使用等方差 tt 检验还是Welch's t-test(Welch 近似 tt 检验)。
  3. 实验设计与质量工程:在田口方法(Taguchi method)和实验设计(DOE)中,方差齐性是参数分析的基本假设,Levene 检验用于在 ANOVA 之前验证该假设。
  4. 计量经济学中的异方差诊断:虽然Breusch-Pagan检验White检验在回归框架中更为通用,Levene 检验可在分组数据结构中快速诊断异方差性(heteroskedasticity),如比较不同地区、不同时间段的收入方差是否相等。

软件实现

在主流统计软件中,Levene 检验均有成熟实现:

  • R:\texttt{car} 包中的 \texttt{leveneTest()} 函数。参数 \texttt{center = "median"} 指定 Brown-Forsythe 版本(默认),\texttt{center = "mean"} 指定原始 Levene 检验。
  • Python:\texttt{scipy.stats.levene()} 函数。参数 \texttt{center = 'median'} 指定中位数版本。
  • SPSS:\texttt{Analyze > Compare Means > One-Way ANOVA > Options > Homogeneity of variance test},输出包含基于均值的 Levene 统计量。
  • Stata:\texttt{robvar} 命令提供 Levene 检验、Brown-Forsythe 检验等多种方差比较方法。

局限性与注意事项

尽管 Levene 检验具有较强的稳健性,在实际使用中仍需注意以下问题:

  1. 样本量敏感性:当样本量非常大时,Levene 检验(如同大多数显著性检验)可能检测出实际影响微小、无实际意义的方差差异。因此,在大样本情境下应结合效应量(effect size)或方差比的置信区间进行判断。
  2. 组间样本量不均衡:当各组样本量差异极大时,Levene 检验的第一类错误率可能受到一定影响,尽管其稳健性仍优于 Bartlett 检验。建议在设计中尽量保持各组样本量的平衡。
  3. 相关样本不适用:Levene 检验假设各组样本相互独立,不能直接用于重复测量(repeated measures)或配对设计中的方差比较。对于此类场景,需使用Mauchly's test of sphericity(球形假设检验)等方法。
  4. 对尖峰分布的性能下降:在极尖峰且对称的分布下,均值型 Levene 检验的功效可能低于 Bartlett 检验。Brown-Forsythe 变体部分缓解了这一问题,但仍非万能。
  5. 不作为方差差异大小的度量:Levene 检验仅回答"方差是否相等"的二分问题,不提供方差差异的定量信息。研究者如需了解方差差异的大小,应报告各组方差估计值、方差比及其置信区间。

理论扩展与相关方法

Levene 检验的思想已被推广到更广泛的方差分析框架中。在多元方差分析(MANOVA)中,Box's M 检验用于检验多个组之间的协方差矩阵是否相等,可视为 Levene 检验在多变量场合的推广。此外,在回归诊断中,检验残差方差恒定性的Breusch-Pagan检验White检验也部分借鉴了离差比较的核心思想。

对于非正态且小样本的极端情形,Fligner-Killeen检验(基于秩的非参数方差齐性检验)和Conover's squared ranks test提供了无需任何分布假设的替代方案。Permutation test(置换检验)也可用于比较组间方差,其通过计算观测数据的随机分配分布来获得精确的 pp 值,完全依赖于数据本身的经验分布

综上,Levene 检验以其原理直观、计算简便和广泛的稳健性,构成了应用统计学中方差齐性检验的基础工具。研究者在实际应用中应根据数据的分布特征和研究目的,合理选择均值型、中位数型或修剪均值型变体,并结合其他诊断工具综合判断方差分析的适用性。