ARTICLE
Levene 检验
Levene 检验 (Levene's Test) Levene 检验(Levene's Test)是统计学中用于检验多个总体方差是否相等(即方差齐性)的一种稳健方法,由美国统计学家 Howard Levene 于 1960 年在其论文 Robust Tests for Equality of Variances 中首次提出。与经典的Bartlett 检验不
Levene 检验 (Levene's Test)
Levene 检验(Levene's Test)是统计学中用于检验多个总体方差是否相等(即方差齐性)的一种稳健方法,由美国统计学家 Howard Levene 于 1960 年在其论文 Robust Tests for Equality of Variances 中首次提出。与经典的Bartlett 检验不同,Levene 检验不要求数据严格服从正态分布,因此在实际应用中具有更广泛的适应性,是方差分析(ANOVA)前提假设验证中最常用的工具之一。
检验原理与核心思想
Levene 检验的核心思想是将方差齐性的检验问题转化为一个关于 离差(deviation)的均值比较问题。具体来说,若各组数据的方差相等,则各组观测值偏离其组中心的平均程度应当接近。
统计量构造步骤
设共有 个独立样本组,第 组样本容量为 ,第 个观测值为 (;)。检验统计量的构造分为以下步骤:
- 确定各组的中心位置度量 。最常用的选择是各组样本均值 ,也可使用中位数或修剪均值。
- 计算每个观测值到其所属组中心的绝对离差: \[ Z_{ij} = |X_{ij} - \bar{X}_i| \]
- 以 作为新的响应变量,对组别因子执行单因素方差分析。记总样本量为 ,则检验统计量为标准 ANOVA 的 统计量: \[ W = \frac{(N-k) \sum_{i=1}^k n_i (\bar{Z}_{i\cdot} - \bar{Z}_{\cdot\cdot})^2}{(k-1) \sum_{i=1}^k \sum_{j=1}^{n_i} (Z_{ij} - \bar{Z}_{i\cdot})^2} \] 其中 为第 组的平均离差, 为总平均离差。
在零假设 (各组方差相等)成立的前提下,统计量 近似服从自由度为 的F分布。当计算出的 值超过给定显著性水平下的临界值 时,拒绝零假设,认为各组方差之间存在显著差异。
检验假设与决策规则
Levene 检验的原假设与备择假设为:
\\
决策规则:若 ,则拒绝 ,判定方差不齐;否则不能拒绝方差齐性假设。与所有假设检验一样,不能拒绝 并不意味着"证明方差相等",而仅表示数据未提供足够的证据推断方差不相等。
主要变体:均值型、中位数型与修剪均值型
根据组中心度量方式的不同,Levene 检验存在三种常见的变体。不同变体在稳健性和统计功效之间存在权衡。
均值型 Levene 检验(原始版本)
使用各组样本均值 作为中心度量。在数据来自对称分布且尾部较轻(即峰度接近正态分布的峰度)时表现良好,但对重尾分布和偏态分布较为敏感。
中位数型 Levene 检验(Brown-Forsythe 检验)
1974 年,Brown 与 Forsythe 提出使用各组样本中位数 替代均值:
这一变体通常被称为Brown-Forsythe检验。由于中位数对异常值(outlier)和偏度(skewness)具有较强的稳健性,中位数型 Levene 检验在数据非正态(尤其是重尾分布)时通常具有更好的第一类错误控制能力。在实际应用中,多数统计软件(如 R 的 \texttt{car} 包中的 \texttt{leveneTest} 函数、SPSS 的 Explore 过程)默认使用中位数版本。
修剪均值型 Levene 检验
使用修剪均值(trimmed mean)——即剔除每组中部分极端观测值后的算术平均值——作为中心度量。修剪比例通常设为 5\% 或 10\%。这一变体在异常值较多、但并非极端不对称的情境下提供了折中的稳健性和效率。
Levene 检验与 Bartlett 检验的比较
Levene 检验与Bartlett 检验是方差齐性检验中两种应用最广泛的方法,但两者在理论假设、使用条件和实际表现上存在关键差异。
Bartlett 检验基于各组样本方差与合并方差的对数比构造卡方分布统计量,在数据严格服从正态分布时具有较高的统计功效,是方差齐性的一致最大功效无偏检验(UMPU)。然而,Bartlett 检验对偏离正态性极度敏感——即使轻微的峰度偏离也可能导致实际第一类错误率远高于名义水平。换言之,Bartlett 检验可能在"数据非正态"而非"方差不齐"时显著,从而误导实验结论。
Levene 检验通过将方差比较转化为离差的位置比较,回避了对正态性的严格要求。大量蒙特卡洛模拟(Monte Carlo simulation)研究表明,Levene 检验在多种非正态分布下的第一类错误率接近名义水平,同时在样本量适中(各组 )时保持可接受的统计功效。一般而言:
- 若数据经检验(如Shapiro-Wilk检验)判定为正态或接近正态,Bartlett 检验是首选(更高的功效)。
- 若数据偏离正态——尤其是出现重尾、偏态或异常值时,应优先选择 Levene 检验(尤其是 Brown-Forsythe 变体)。
- 在大样本条件下,两种方法的差异缩小,但 Levene 检验的稳健优势始终存在。
应用场景
Levene 检验的主要应用场景包括:
- 方差分析前提验证:在执行单因素ANOVA、多因素方差分析前,通常需要检验方差齐性假设。Levene 检验是这一环节的标准选择。
- 独立样本 检验的前提确认:在两样本情境下(),Levene 检验等同于检验两总体的方差是否相等,用于辅助判定应使用等方差 检验还是Welch's t-test(Welch 近似 检验)。
- 实验设计与质量工程:在田口方法(Taguchi method)和实验设计(DOE)中,方差齐性是参数分析的基本假设,Levene 检验用于在 ANOVA 之前验证该假设。
- 计量经济学中的异方差诊断:虽然Breusch-Pagan检验和White检验在回归框架中更为通用,Levene 检验可在分组数据结构中快速诊断异方差性(heteroskedasticity),如比较不同地区、不同时间段的收入方差是否相等。
软件实现
在主流统计软件中,Levene 检验均有成熟实现:
- R:\texttt{car} 包中的 \texttt{leveneTest()} 函数。参数 \texttt{center = "median"} 指定 Brown-Forsythe 版本(默认),\texttt{center = "mean"} 指定原始 Levene 检验。
- Python:\texttt{scipy.stats.levene()} 函数。参数 \texttt{center = 'median'} 指定中位数版本。
- SPSS:\texttt{Analyze > Compare Means > One-Way ANOVA > Options > Homogeneity of variance test},输出包含基于均值的 Levene 统计量。
- Stata:\texttt{robvar} 命令提供 Levene 检验、Brown-Forsythe 检验等多种方差比较方法。
局限性与注意事项
尽管 Levene 检验具有较强的稳健性,在实际使用中仍需注意以下问题:
- 样本量敏感性:当样本量非常大时,Levene 检验(如同大多数显著性检验)可能检测出实际影响微小、无实际意义的方差差异。因此,在大样本情境下应结合效应量(effect size)或方差比的置信区间进行判断。
- 组间样本量不均衡:当各组样本量差异极大时,Levene 检验的第一类错误率可能受到一定影响,尽管其稳健性仍优于 Bartlett 检验。建议在设计中尽量保持各组样本量的平衡。
- 相关样本不适用:Levene 检验假设各组样本相互独立,不能直接用于重复测量(repeated measures)或配对设计中的方差比较。对于此类场景,需使用Mauchly's test of sphericity(球形假设检验)等方法。
- 对尖峰分布的性能下降:在极尖峰且对称的分布下,均值型 Levene 检验的功效可能低于 Bartlett 检验。Brown-Forsythe 变体部分缓解了这一问题,但仍非万能。
- 不作为方差差异大小的度量:Levene 检验仅回答"方差是否相等"的二分问题,不提供方差差异的定量信息。研究者如需了解方差差异的大小,应报告各组方差估计值、方差比及其置信区间。
理论扩展与相关方法
Levene 检验的思想已被推广到更广泛的方差分析框架中。在多元方差分析(MANOVA)中,Box's M 检验用于检验多个组之间的协方差矩阵是否相等,可视为 Levene 检验在多变量场合的推广。此外,在回归诊断中,检验残差方差恒定性的Breusch-Pagan检验和White检验也部分借鉴了离差比较的核心思想。
对于非正态且小样本的极端情形,Fligner-Killeen检验(基于秩的非参数方差齐性检验)和Conover's squared ranks test提供了无需任何分布假设的替代方案。Permutation test(置换检验)也可用于比较组间方差,其通过计算观测数据的随机分配分布来获得精确的 值,完全依赖于数据本身的经验分布。
综上,Levene 检验以其原理直观、计算简便和广泛的稳健性,构成了应用统计学中方差齐性检验的基础工具。研究者在实际应用中应根据数据的分布特征和研究目的,合理选择均值型、中位数型或修剪均值型变体,并结合其他诊断工具综合判断方差分析的适用性。