ARTICLE

Bartlett检验

Bartlett检验 (Bartlett's Test) Bartlett检验 (Bartlett's Test)，由英国统计学家Maurice Stevenson Bartlett于1937年提出，是一种用于检验多个样本组的方差齐性（Homogeneity of Variances）的统计检验方法。在方差分析（ANOVA）等参数检验中，方差齐性是一个核心前

浏览 4 更新 2025-10-26

Bartlett检验 (Bartlett's Test)

Bartlett检验 (Bartlett's Test)，由英国统计学家Maurice Stevenson Bartlett于1937年提出，是一种用于检验多个样本组的方差齐性（Homogeneity of Variances）的统计检验方法。在方差分析（ANOVA）等参数检验中，方差齐性是一个核心前提假设，即要求各组的总体方差相等。Bartlett检验正是判断该假设是否成立的最经典工具之一。

检验目的与零假设

Bartlett检验旨在回答一个关键问题：来自 $k$ 个不同总体的样本，其方差是否存在显著差异？其假设设定如下：

零假设 ( $H_0$ )： $\sigma_1^2 = \sigma_2^2 = \dots = \sigma_k^2$ ，即所有组的总体方差相等。
备择假设 ( $H_1$ )：至少有一组的方差与其它组不相等。

若检验的 p-value 小于预设的显著性水平（如 $\alpha = 0.05$ ），则拒绝零假设，表明数据违反了方差齐性假设。

检验统计量

Bartlett检验的统计量基于各组方差的加权算术平均与加权几何平均之比。对于 $k$ 个独立样本组，设第 $i$ 组的样本量为 $n_i$ ，样本方差为 $s_i^2$ ，总样本量为 $N = \sum_{i=1}^k n_i$ 。定义合并方差（Pooled Variance） $s_p^2$ 为各组方差的加权算术平均：

s_p^2 = \frac{\sum_{i=1}^k (n_i - 1) s_i^2}{N - k}

则Bartlett检验统计量的原始形式为：

M = (N - k) \ln(s_p^2) - \sum_{i=1}^k (n_i - 1) \ln(s_i^2)

该统计量 $M$ 在零假设下近似服从卡方分布。为了提高近似精度，引入校正因子 $C$ ：

C = 1 + \frac{1}{3(k - 1)} \left( \sum_{i=1}^k \frac{1}{n_i - 1} - \frac{1}{N - k} \right)

校正后的统计量为：

\chi^2 = \frac{M}{C}

此 $\chi^2$ 统计量近似服从自由度为 $df = k - 1$ 的卡方分布。当 $\chi^2$ 值大于卡方分布在该自由度下的临界值时，拒绝零假设。

理论推导：与似然比检验的关系

Bartlett检验实际上是一种似然比检验（Likelihood Ratio Test）的特例。假设 $k$ 个独立样本均来自正态分布，即 $X_{ij} \sim N(\mu_i, \sigma_i^2)$ ，其中 $i = 1,\dots,k$ ， $j = 1,\dots,n_i$ 。在零假设 $\sigma_1^2 = \dots = \sigma_k^2 = \sigma^2$ 下，所有样本共享同一个方差参数，其最大似然估计为合并方差 $s_p^2$ ；而在备择假设下，各组方差的估计值为各自的样本方差 $s_i^2$ 。

通过计算两个模型（约束模型与无约束模型）的对数似然函数之差，并乘以 $-2$ ，即可得到 $-2\ln(\Lambda) = M$ 形式的统计量。这正是Bartlett检验统计量 $M$ 的来源。从这一角度出发，Bartlett检验可以理解为对数据正态性和方差齐性的联合检验——若数据非正态，则似然比检验的理论基础不再成立，这也解释了为何Bartlett检验对正态性偏离如此敏感。

多组比较的后续分析方法

当Bartlett检验的结果显著（即拒绝方差齐性假设）时，研究者面临下一步的选择。除了转向非参数方法外，还可以采用以下策略：

Welch's ANOVA：该方法不对方差齐性做要求，通过对自由度的校正来调整因方差异导致的检验偏差。Welch's ANOVA在各组样本量不等时尤其适用。
Brown-Forsythe检验：作为方差齐性的另一种检验方法，它基于各组中位数而非均值来计算绝对偏差，因此对异常值更为稳健。
数据变换：对原始数据进行方差稳定变换（Variance-Stabilizing Transformation），如Box-Cox变换或对数变换，可以在一定程度上消除方差异质性。
加权最小二乘法：在回归框架下，当方差异质性被识别后，可以使用加权最小二乘法（WLS）以方差的倒数为权重进行估计，从而获得更有效的参数估计。

对正态性的敏感性

Bartlett检验的一个关键特点是它对数据来自正态分布这一假设高度敏感。换句话说：

若数据严格服从正态分布，Bartlett检验是检验方差齐性的最有效方法之一，具有较高的统计功效。
若数据偏离正态分布（如存在厚尾、偏斜或异常值），Bartlett检验极易产生假阳性——即倾向于错误地拒绝零假设，即使各组方差实际相等。

因此，在实际应用中，研究者通常建议在使用Bartlett检验前先对数据进行正态性检验（如Shapiro-Wilk检验）。若数据严重偏离正态，应考虑使用对正态性假设不敏感的替代方法。

与Levene检验的对比

由于Bartlett检验对正态性偏离十分敏感，统计学家提出了更为稳健的替代方案，其中最常用的是Levene检验（Levene's Test）。

特性	Bartlett检验	Levene检验
对正态性假设的依赖	高度依赖	较不敏感
统计功效（数据正态时）	较高	略低
对厚尾分布的稳健性	差	较好
应用场景	数据确认正态时首选	数据分布未知或非正态时推荐

此外，对于仅有两个组的比较，还可以使用F检验（方差比检验）来检验方差是否相等，但F检验同样对正态性较为敏感。

应用场景

Bartlett检验在以下领域中具有重要应用：

方差分析（ANOVA）的前提检验：单因素或多因素ANOVA要求各组方差齐性。在进行ANOVA之前，使用Bartlett检验评估该假设是否成立，若检验显著，可考虑使用Welch's ANOVA或Kruskal-Wallis检验等非参数替代方法。

质量管理与工程：在统计过程控制（SPC）中，需要评估不同批次或不同生产条件下产品质量特性的方差是否稳定。

计量经济学：在异方差性检验中，Bartlett检验的思想被扩展到回归框架中。虽然Breusch-Pagan检验和White检验更为常用，但Bartlett检验在处理分组数据的方差齐性时仍有应用价值。

教育与心理测量：在比较不同群体间测验分数的离散程度时，使用Bartlett检验判断方差是否一致，以确保后续比较的合理性。

计算示例

考虑一个简单的情形：比较三种教学方法下学生考试成绩的方差是否相等。假设三组数据如下：

组别	样本量 ( $n_i$ )	样本方差 ( $s_i^2$ )
方法A	$n_1 = 10$	$s_1^2 = 15.2$
方法B	$n_2 = 10$	$s_2^2 = 10.8$
方法C	$n_3 = 10$	$s_3^2 = 12.5$

总样本量 $N = 30$ ， $k = 3$ 。首先计算合并方差：

s_p^2 = \frac{9 \times 15.2 + 9 \times 10.8 + 9 \times 12.5}{30 - 3} = \frac{9 \times (15.2 + 10.8 + 12.5)}{27} = \frac{9 \times 38.5}{27} = 12.833

然后计算原始统计量 $M$ ：

M = 27 \times \ln(12.833) - 9 \times [\ln(15.2) + \ln(10.8) + \ln(12.5)]

计算各对数项：

\ln(12.833) \approx 2.552, \quad \ln(15.2) \approx 2.721, \quad \ln(10.8) \approx 2.380, \quad \ln(12.5) \approx 2.526

代入得：

M = 27 \times 2.552 - 9 \times (2.721 + 2.380 + 2.526) = 68.904 - 9 \times 7.627 = 68.904 - 68.643 = 0.261

校正因子：

C = 1 + \frac{1}{3 \times 2} \times \left( 3 \times \frac{1}{9} - \frac{1}{27} \right) = 1 + \frac{1}{6} \times \left( \frac{1}{3} - \frac{1}{27} \right) = 1 + \frac{1}{6} \times \frac{8}{27} = 1 + \frac{8}{162} \approx 1.049

校正后的 $\chi^2 = 0.261 / 1.049 \approx 0.249$ 。自由度为 $k - 1 = 2$ 。查卡方分布表， $\alpha = 0.05$ 时临界值为 $5.991$ 。由于 $0.249 < 5.991$ ，无法拒绝零假设，即没有充分证据表明三种教学方法下学生成绩的方差存在显著差异。

局限性与注意事项

正态性敏感：如前所述，这是Bartlett检验最大的局限。建议在使用前进行正态性诊断，或直接使用更稳健的Levene检验。

样本量要求：各组的样本量不宜过小。当某些组样本量极小时（如 $n_i < 5$ ），检验的可靠性会下降。

对异常值敏感：样本中的异常值（Outliers）会夸大组内方差，从而影响检验结果。在应用Bartlett检验前，应检查各组数据中是否存在极端值。

不等样本量的影响：当各组样本量相差悬殊时，检验的统计功效和第一类错误率可能受到影响。不过Bartlett检验在设计上已通过加权方式对样本量差异进行了部分调整。

结论的解读：Bartlett检验显著（即拒绝方差齐性假设）并不一定意味着数据完全无法使用参数检验。对于样本量较大的情况，ANOVA对方差轻微不等具有一定的鲁棒性。但若方差异常悬殊，则应考虑使用Welch's ANOVA或Brown-Forsythe检验等修正方法。

总而言之，Bartlett检验是检验多组方差齐性的经典方法，在数据满足正态假设时表现出优异的统计功效。然而，由于其对方差偏离的高度敏感，在现代统计实践中，研究者往往更倾向于使用Levene检验或Brown-Forsythe检验作为默认的方差齐性诊断工具。正确选择和使用方差齐性检验方法，对于保证后续统计推断的有效性和可靠性具有重要意义。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。