ARTICLE

Bartlett检验

Bartlett检验 (Bartlett's Test) Bartlett检验 (Bartlett's Test),由英国统计学家Maurice Stevenson Bartlett于1937年提出,是一种用于检验多个样本组的方差齐性(Homogeneity of Variances)的统计检验方法。在方差分析(ANOVA)等参数检验中,方差齐性是一个核心前

浏览 4 更新 2025-10-26

Bartlett检验 (Bartlett's Test)

Bartlett检验 (Bartlett's Test),由英国统计学家Maurice Stevenson Bartlett于1937年提出,是一种用于检验多个样本组的方差齐性(Homogeneity of Variances)的统计检验方法。在方差分析(ANOVA)等参数检验中,方差齐性是一个核心前提假设,即要求各组的总体方差相等。Bartlett检验正是判断该假设是否成立的最经典工具之一。

检验目的与零假设

Bartlett检验旨在回答一个关键问题:来自 k k 个不同总体的样本,其方差是否存在显著差异?其假设设定如下:

  • 零假设 (H0 H_0 )σ12=σ22==σk2 \sigma_1^2 = \sigma_2^2 = \dots = \sigma_k^2 ,即所有组的总体方差相等。
  • 备择假设 (H1 H_1 ):至少有一组的方差与其它组不相等。

若检验的 p-value 小于预设的显著性水平(如 α=0.05 \alpha = 0.05 ),则拒绝零假设,表明数据违反了方差齐性假设。

检验统计量

Bartlett检验的统计量基于各组方差的加权算术平均与加权几何平均之比。对于 k k 个独立样本组,设第 i i 组的样本量为 ni n_i ,样本方差为 si2 s_i^2 ,总样本量为 N=i=1kni N = \sum_{i=1}^k n_i 。定义合并方差(Pooled Variance)sp2 s_p^2 为各组方差的加权算术平均:

sp2=i=1k(ni1)si2Nks_p^2 = \frac{\sum_{i=1}^k (n_i - 1) s_i^2}{N - k}

则Bartlett检验统计量的原始形式为:

M=(Nk)ln(sp2)i=1k(ni1)ln(si2)M = (N - k) \ln(s_p^2) - \sum_{i=1}^k (n_i - 1) \ln(s_i^2)

该统计量 M M 在零假设下近似服从卡方分布。为了提高近似精度,引入校正因子 C C

C=1+13(k1)(i=1k1ni11Nk)C = 1 + \frac{1}{3(k - 1)} \left( \sum_{i=1}^k \frac{1}{n_i - 1} - \frac{1}{N - k} \right)

校正后的统计量为:

χ2=MC\chi^2 = \frac{M}{C}

χ2 \chi^2 统计量近似服从自由度为 df=k1 df = k - 1 的卡方分布。当 χ2 \chi^2 值大于卡方分布在该自由度下的临界值时,拒绝零假设。

理论推导:与似然比检验的关系

Bartlett检验实际上是一种似然比检验(Likelihood Ratio Test)的特例。假设 k k 个独立样本均来自正态分布,即 XijN(μi,σi2) X_{ij} \sim N(\mu_i, \sigma_i^2) ,其中 i=1,,k i = 1,\dots,k j=1,,ni j = 1,\dots,n_i 。在零假设 σ12==σk2=σ2 \sigma_1^2 = \dots = \sigma_k^2 = \sigma^2 下,所有样本共享同一个方差参数,其最大似然估计为合并方差 sp2 s_p^2 ;而在备择假设下,各组方差的估计值为各自的样本方差 si2 s_i^2

通过计算两个模型(约束模型与无约束模型)的对数似然函数之差,并乘以 2 -2 ,即可得到 2ln(Λ)=M -2\ln(\Lambda) = M 形式的统计量。这正是Bartlett检验统计量 M M 的来源。从这一角度出发,Bartlett检验可以理解为对数据正态性和方差齐性的联合检验——若数据非正态,则似然比检验的理论基础不再成立,这也解释了为何Bartlett检验对正态性偏离如此敏感。

多组比较的后续分析方法

当Bartlett检验的结果显著(即拒绝方差齐性假设)时,研究者面临下一步的选择。除了转向非参数方法外,还可以采用以下策略:

  • Welch's ANOVA:该方法不对方差齐性做要求,通过对自由度的校正来调整因方差异导致的检验偏差。Welch's ANOVA在各组样本量不等时尤其适用。
  • Brown-Forsythe检验:作为方差齐性的另一种检验方法,它基于各组中位数而非均值来计算绝对偏差,因此对异常值更为稳健。
  • 数据变换:对原始数据进行方差稳定变换(Variance-Stabilizing Transformation),如Box-Cox变换或对数变换,可以在一定程度上消除方差异质性。
  • 加权最小二乘法:在回归框架下,当方差异质性被识别后,可以使用加权最小二乘法(WLS)以方差的倒数为权重进行估计,从而获得更有效的参数估计。

对正态性的敏感性

Bartlett检验的一个关键特点是它对数据来自正态分布这一假设高度敏感。换句话说:

  • 若数据严格服从正态分布,Bartlett检验是检验方差齐性的最有效方法之一,具有较高的统计功效
  • 若数据偏离正态分布(如存在厚尾、偏斜或异常值),Bartlett检验极易产生假阳性——即倾向于错误地拒绝零假设,即使各组方差实际相等。

因此,在实际应用中,研究者通常建议在使用Bartlett检验前先对数据进行正态性检验(如Shapiro-Wilk检验)。若数据严重偏离正态,应考虑使用对正态性假设不敏感的替代方法。

与Levene检验的对比

由于Bartlett检验对正态性偏离十分敏感,统计学家提出了更为稳健的替代方案,其中最常用的是Levene检验(Levene's Test)。

| 特性 | Bartlett检验 | Levene检验 | | :--- | :--- | :--- | | 对正态性假设的依赖 | 高度依赖 | 较不敏感 | | 统计功效(数据正态时) | 较高 | 略低 | | 对厚尾分布的稳健性 | 差 | 较好 | | 应用场景 | 数据确认正态时首选 | 数据分布未知或非正态时推荐 |

此外,对于仅有两个组的比较,还可以使用F检验(方差比检验)来检验方差是否相等,但F检验同样对正态性较为敏感。

应用场景

Bartlett检验在以下领域中具有重要应用:

  1. 方差分析(ANOVA)的前提检验:单因素或多因素ANOVA要求各组方差齐性。在进行ANOVA之前,使用Bartlett检验评估该假设是否成立,若检验显著,可考虑使用Welch's ANOVA或Kruskal-Wallis检验等非参数替代方法。
  1. 质量管理与工程:在统计过程控制(SPC)中,需要评估不同批次或不同生产条件下产品质量特性的方差是否稳定。
  1. 计量经济学:在异方差性检验中,Bartlett检验的思想被扩展到回归框架中。虽然Breusch-Pagan检验White检验更为常用,但Bartlett检验在处理分组数据的方差齐性时仍有应用价值。
  1. 教育与心理测量:在比较不同群体间测验分数的离散程度时,使用Bartlett检验判断方差是否一致,以确保后续比较的合理性。

计算示例

考虑一个简单的情形:比较三种教学方法下学生考试成绩的方差是否相等。假设三组数据如下:

| 组别 | 样本量 (ni n_i ) | 样本方差 (si2 s_i^2 ) | | :--- | :---: | :---: | | 方法A | n1=10 n_1 = 10 | s12=15.2 s_1^2 = 15.2 | | 方法B | n2=10 n_2 = 10 | s22=10.8 s_2^2 = 10.8 | | 方法C | n3=10 n_3 = 10 | s32=12.5 s_3^2 = 12.5 |

总样本量 N=30 N = 30 k=3 k = 3 。首先计算合并方差:

sp2=9×15.2+9×10.8+9×12.5303=9×(15.2+10.8+12.5)27=9×38.527=12.833s_p^2 = \frac{9 \times 15.2 + 9 \times 10.8 + 9 \times 12.5}{30 - 3} = \frac{9 \times (15.2 + 10.8 + 12.5)}{27} = \frac{9 \times 38.5}{27} = 12.833

然后计算原始统计量 M M

M=27×ln(12.833)9×[ln(15.2)+ln(10.8)+ln(12.5)]M = 27 \times \ln(12.833) - 9 \times [\ln(15.2) + \ln(10.8) + \ln(12.5)]

计算各对数项:

ln(12.833)2.552,ln(15.2)2.721,ln(10.8)2.380,ln(12.5)2.526\ln(12.833) \approx 2.552, \quad \ln(15.2) \approx 2.721, \quad \ln(10.8) \approx 2.380, \quad \ln(12.5) \approx 2.526

代入得:

M=27×2.5529×(2.721+2.380+2.526)=68.9049×7.627=68.90468.643=0.261M = 27 \times 2.552 - 9 \times (2.721 + 2.380 + 2.526) = 68.904 - 9 \times 7.627 = 68.904 - 68.643 = 0.261

校正因子:

C=1+13×2×(3×19127)=1+16×(13127)=1+16×827=1+81621.049C = 1 + \frac{1}{3 \times 2} \times \left( 3 \times \frac{1}{9} - \frac{1}{27} \right) = 1 + \frac{1}{6} \times \left( \frac{1}{3} - \frac{1}{27} \right) = 1 + \frac{1}{6} \times \frac{8}{27} = 1 + \frac{8}{162} \approx 1.049

校正后的 χ2=0.261/1.0490.249 \chi^2 = 0.261 / 1.049 \approx 0.249 。自由度为 k1=2 k - 1 = 2 。查卡方分布表,α=0.05 \alpha = 0.05 时临界值为 5.991 5.991 。由于 0.249<5.991 0.249 < 5.991 ,无法拒绝零假设,即没有充分证据表明三种教学方法下学生成绩的方差存在显著差异。

局限性与注意事项

  1. 正态性敏感:如前所述,这是Bartlett检验最大的局限。建议在使用前进行正态性诊断,或直接使用更稳健的Levene检验。
  1. 样本量要求:各组的样本量不宜过小。当某些组样本量极小时(如 ni<5 n_i < 5 ),检验的可靠性会下降。
  1. 对异常值敏感:样本中的异常值(Outliers)会夸大组内方差,从而影响检验结果。在应用Bartlett检验前,应检查各组数据中是否存在极端值。
  1. 不等样本量的影响:当各组样本量相差悬殊时,检验的统计功效和第一类错误率可能受到影响。不过Bartlett检验在设计上已通过加权方式对样本量差异进行了部分调整。
  1. 结论的解读:Bartlett检验显著(即拒绝方差齐性假设)并不一定意味着数据完全无法使用参数检验。对于样本量较大的情况,ANOVA对方差轻微不等具有一定的鲁棒性。但若方差异常悬殊,则应考虑使用Welch's ANOVA或Brown-Forsythe检验等修正方法。

总而言之,Bartlett检验是检验多组方差齐性的经典方法,在数据满足正态假设时表现出优异的统计功效。然而,由于其对方差偏离的高度敏感,在现代统计实践中,研究者往往更倾向于使用Levene检验或Brown-Forsythe检验作为默认的方差齐性诊断工具。正确选择和使用方差齐性检验方法,对于保证后续统计推断的有效性和可靠性具有重要意义。