ARTICLE

安德森-达令检验

安德森-达令检验 (Anderson-Darling Test) 安德森-达令检验 (Anderson-Darling Test,简称A-D检验) 是一种用于假设检验的非参数统计方法。它专门用于判断一个随机样本是否来自某个特定的连续分布(例如正态分布、指数分布或威布尔分布等),属于拟合优度检验 (Goodness-of-Fit Test) 的一种。 该检验由

浏览 0 更新 2025-10-26

安德森-达令检验 (Anderson-Darling Test)

安德森-达令检验 (Anderson-Darling Test,简称A-D检验) 是一种用于假设检验的非参数统计方法。它专门用于判断一个随机样本是否来自某个特定的连续分布(例如正态分布指数分布威布尔分布等),属于拟合优度检验 (Goodness-of-Fit Test) 的一种。

该检验由美国统计学家西奥多·安德森 (Theodore W. Anderson) 和唐纳德·达令 (Donald A. Darling) 于1952年提出。与经典的柯尔莫哥洛夫-斯米尔诺夫检验 (K-S检验) 相比,安德森-达令检验的一大优势在于它对分布尾部的差异更为敏感,因为其对经验分布函数与理论分布函数之间的偏差施以加权处理,赋予尾部数据更大的权重。这使得它在检测偏离正态性的"厚尾"或"偏斜"特征时尤其有力。

核心思想:加权平方距离

安德森-达令检验的核心思想建立在经验分布函数 (Empirical Distribution Function, EDF) 的基础之上。设有一个容量为 nn 的独立同分布样本 X1,X2,,XnX_1, X_2, \ldots, X_n,其经验分布函数记为 Fn(x)F_n(x),待检验的理论分布的累积分布函数记为 F(x)F(x)

检验统计量衡量的是 Fn(x)F_n(x)F(x)F(x) 之间的"距离"。与K-S检验使用最大绝对偏差不同,安德森-达令检验使用的是两者的加权平方偏差积分:

A2=n[Fn(x)F(x)]2F(x)(1F(x))dF(x)A^2 = n \int_{-\infty}^{\infty} \frac{[F_n(x) - F(x)]^2}{F(x)(1 - F(x))} \, dF(x)

分母中的权重函数 1/[F(x)(1F(x))]1/[F(x)(1 - F(x))] 在分布的两端(即 F(x)F(x) 接近0或1时)取较大值,这意味着偏离理论分布的点在尾部受到的惩罚更重,从而使检验对尾部差异更加敏感。

统计量的计算

在实际应用中,对于完全指定的分布(即理论分布 F(x)F(x) 的所有参数均已知),安德森-达令检验统计量的计算采用以下公式。将样本从小到大排序为 x(1)x(2)x(n)x_{(1)} \le x_{(2)} \le \ldots \le x_{(n)},并令 z(i)=F(x(i))z_{(i)} = F(x_{(i)}),则:

A2=n1ni=1n(2i1)[ln(z(i))+ln(1z(ni+1))]A^2 = -n - \frac{1}{n} \sum_{i=1}^{n} (2i - 1) \big[ \ln(z_{(i)}) + \ln(1 - z_{(n-i+1)}) \big]

其中 ln\ln自然对数。该公式易于编程实现,是绝大多数统计软件包计算的基础。

在许多实际场景中,分布的参数并非事先已知,而需要从样本数据中估计(例如在检验正态性时,使用样本均值 xˉ\bar{x} 和样本标准差 ss 估计 μ\muσ\sigma)。此时需要使用经过修正的统计量,即所谓"复合假设" (Composite Hypothesis) 情形。对于正态分布,修正形式为:

A=A2(1+0.75n+2.25n2)A^* = A^2 \left(1 + \frac{0.75}{n} + \frac{2.25}{n^2}\right)

这种修正使得临界值表可以适用于参数未知的情况,显著拓展了检验的实用性。

假设检验过程

  1. 建立假设:原假设 H0H_0 为样本数据来自指定的分布;备择假设 HaH_a 为样本数据并非来自该分布。
  2. 选择显著性水平:通常取 α=0.05\alpha = 0.050.010.01
  3. 计算检验统计量:根据上述公式计算出 A2A^2 或修正后的 AA^* 值。
  4. 查临界值或计算p值:将计算值与临界值表进行比较,或计算p值 (p-value)。临界值依赖于所检验的特定分布以及是否从数据中估算了参数。
  5. 做出决策:若 A2A^2 大于临界值(或 p值小于 α\alpha),则拒绝原假设,认为样本并非来自该理论分布。

安德森-达令检验与K-S检验的比较

柯尔莫哥洛夫-斯米尔诺夫检验 (K-S检验) 和安德森-达令检验均为基于经验分布函数的拟合优度检验,但二者存在关键差异:

  • 敏感性差异:K-S检验对分布中心区域的差异相对敏感,而安德森-达令检验对分布尾部的差异更为敏感。若关注的是极端事件或异常值(如金融风险评估中的尾部事件),安德森-达令检验更为合适。
  • 临界值依赖分布:K-S检验的临界值与所检验的具体分布无关(对连续分布而言),而安德森-达令检验的临界值依赖于所检验的分布类型,使用时需要查对应的临界值表。
  • 功效比较:大量仿真研究表明,在大多数常见的偏离正态假设的情景下,安德森-达令检验的统计功效 (Statistical Power) 高于K-S检验,尤其是对厚尾分布和偏斜分布。对于检验正态性这一特定任务,Shapiro-Wilk检验 通常具有更高的功效,但安德森-达令检验的适用范围更广(可用于检验任意指定的连续分布)。

多样本安德森-达令检验

除单样本情形外,还存在多样本安德森-达令检验 (k-Sample Anderson-Darling Test),用于检验两个或多个独立样本是否来自同一总体分布(无需指定该分布的具体形式)。该检验由Scholz和Stephens于1987年提出,是对单样本方法的自然推广。

设有 kk 个样本,样本量分别为 n1,n2,,nkn_1, n_2, \ldots, n_k,总样本量为 N=j=1knjN = \sum_{j=1}^k n_j。将全部数据合并排序后,多样本检验统计量为:

Ak2=1Nj=1k1nji=1N1(NMijinj)2i(Ni)A^2_{k} = \frac{1}{N} \sum_{j=1}^{k} \frac{1}{n_j} \sum_{i=1}^{N-1} \frac{(NM_{ij} - i n_j)^2}{i(N-i)}

其中 MijM_{ij} 为第 jj 个样本中不超过合并排序后第 ii 个观测值的个数。该检验的临界值通过大样本近似或数值方法获得。

应用领域

安德森-达令检验在自然科学和社会科学的多个领域得到广泛应用:

  • 金融风险管理:检验资产收益率是否服从正态分布——大量实证表明金融收益率存在"厚尾"特征,使用安德森-达令检验可更灵敏地检测到对正态性的偏离,为在险价值 (VaR) 等风险度量建模提供依据。
  • 工程质量控制:检验生产过程中关键质量特性是否符合特定分布,以判断制程是否处于受控状态。
  • 环境科学:检验水文气象数据(如降雨量、河流流量)的分布假设,为极端事件概率分析奠定基础。
  • 气象学:验证气候模型输出是否与实际观测数据的分布一致,用于模型校准与评估。

局限性

安德森-达令检验也存在若干局限:其一,临界值依赖于所检验的分布,不同分布需使用不同的临界值表,增加了使用的复杂性;其二,当样本量较大时(如 n>1000n > 1000),即使极微小的偏离也能导致拒绝原假设,此时需结合效应量 (Effect Size) 进行综合判断;其三,该检验本质上是针对连续分布设计的,直接应用于离散数据可能导致检验结果偏保守。

尽管存在上述局限,安德森-达令检验因其良好的功效和对尾部差异的敏感性,至今仍是拟合优度检验领域应用最广泛的方法之一,在众多统计软件包(如R语言、Python的SciPy、Minitab等)中均有标准实现。