ARTICLE
Shapiro-Wilk检验
夏皮罗-威尔克检验 (Shapiro-Wilk Test) 夏皮罗-威尔克检验 (Shapiro-Wilk Test) 是一种在 频率学统计 (frequentist statistics) 中广泛使用的 假设检验 (hypothesis testing) 方法,专门用于检验一个给定的 样本 (sample) 是否来自于一个 正态分布 (normally d
夏皮罗-威尔克检验 (Shapiro-Wilk Test)
夏皮罗-威尔克检验 (Shapiro-Wilk Test) 是一种在 频率学统计 (frequentist statistics) 中广泛使用的 假设检验 (hypothesis testing) 方法,专门用于检验一个给定的 样本 (sample) 是否来自于一个 正态分布 (normally distributed) 的 总体 (population)。该检验由 Samuel Shapiro 和 Martin Wilk 于1965年提出,被公认为是最具 功效 (power) 的 正态性检验 (normality test) 之一,尤其在小样本情况下表现卓越。
在应用许多经典的参数统计方法之前,检验数据的正态性是一项至关重要的预备步骤。例如,t检验 (t-test)、方差分析 (ANOVA) 和 线性回归 (linear regression) 等模型的有效性,在不同程度上都依赖于数据(或残差)服从正态分布的假设。Shapiro-Wilk 检验为此类 假设检验 提供了可靠的数学依据。
检验的基本原理与假设
Shapiro-Wilk 检验的核心在于比较样本数据的分布与理论上正态分布的期望分布之间的吻合程度。其检验的 零假设 () 和 备择假设 () 设定如下:
- : 样本数据来自于一个正态分布的总体。
- : 样本数据不来自于一个正态分布的总体。
与所有假设检验一样,我们通过计算一个 检验统计量 (test statistic),并据此得到一个 p值 (p-value)。如果 p-value 小于预先设定的 显著性水平 (significance level) (通常为 0.05),我们便有充分的统计证据拒绝零假设 ,即认为数据不符合正态分布。反之,如果 p-value 大于 ,我们则"无法拒绝"零假设,这意味着没有足够的证据表明数据不是来自正态分布。值得注意的是,无法拒绝 并不等同于"证明"了数据是正态的,它仅仅表示在该显著性水平下,数据与正态分布的偏差不显著。
检验统计量
Shapiro-Wilk 检验的统计量用 表示,其计算公式定义为:
我们可以将这个公式的分子和分母拆解开来理解:
- 分母 :这是样本数据点与其 样本均值 () 的离差平方和,它与 样本方差 成正比,衡量了数据的总变异程度。
- 分子 :这是理解 统计量的关键,也较为复杂。 \begin{itemize}
- :表示样本的第 个 次序统计量 (order statistic),也就是将原始样本数据从小到大排序后,排在第 位的数值。例如, 是最小值, 是最大值。
- :这是一组根据样本量 计算出的最优权重系数。这些系数的计算涉及到从标准正态分布(均值为0,方差为1)中抽取的样本的次序统计量的期望值和协方差矩阵。 \end{itemize}
概念上的解释:分子的本质可以理解为对样本次序统计量 和标准正态分布的期望次序统计量之间 相关性 (correlation) 的度量。如果样本数据确实来自正态分布,那么其排序后的数据 与正态分布中对应的分位数应该呈现出高度的线性关系。这会导致分子的值非常接近分母的值,从而使得 统计量接近于1。反之,如果数据偏离正态分布(例如出现 偏度 (skewness) 或异常的 峰度 (kurtosis)),这种线性关系就会被破坏,导致分子相对变小, 的值也随之减小。
统计量的取值范围为 。一个接近 1 的 值表明数据与正态分布拟合得很好,而一个显著小于 1 的值则表明数据偏离了正态分布。
结果的解读与实践
在实践中,分析师通常不需要手动计算 统计量,而是借助统计软件(如 R, Python, SPSS 等)直接获得 值和对应的 p-value。
解读步骤:
- 确定显著性水平 :通常选择 。
- 运行 Shapiro-Wilk 检验:在软件中输入待检验的数据集。
- 比较 p-value 与 : \begin{itemize}
- 如果 p-value < :拒绝 。结论是数据很可能不是来自正态分布。此时,若要进行依赖正态性假设的分析,应考虑对数据进行变换,或改用 非参数检验 (non-parametric test)(如使用 威尔科克森符号秩检验 (Wilcoxon signed-rank test) 替代 t-test)。
- 如果 p-value :无法拒绝 。结论是没有足够证据表明数据不服从正态分布。此时,我们可以较为放心地继续使用那些假定数据正态性的统计方法。 \end{itemize}
优缺点与注意事项
优点:
- 高功效:Shapiro-Wilk 检验在检测各种偏离正态分布的情况时,通常比其他检验(如 柯尔莫哥洛夫-斯米尔诺夫检验 (Kolmogorov-Smirnov test))具有更高的统计功效。
- 对小样本友好:该检验最初就是为小样本()设计的,在小样本情况下表现尤其稳健和可靠。
缺点与注意事项:
- 对大样本过于敏感:当样本量非常大时(例如 ),Shapiro-Wilk 检验会变得极其敏感,能够检测出与正态分布极其微小的、在实践中没有实质性影响的偏差,从而导致轻易地拒绝 。然而,根据 中心极限定理 (Central Limit Theorem),对于大样本,许多统计程序(如t检验)对正态性假设的偏离具有一定的稳健性。因此,对于大样本,研究者常常更依赖于视觉检查工具。
- 建议与视觉方法结合:任何正式的统计检验都应与视觉检查相结合。Q-Q图 (Q-Q plot) 是一个绝佳的补充工具,它能够直观地展示数据点是否落在理论正态分布的分位数线上。此外,直方图 (histogram) 和核密度估计图也能提供关于数据分布形状的直观感受。formal test + visual inspection 的组合是进行正态性评估的最佳实践。
与其他正态性检验的比较
- 安德森-达令检验 (Anderson-Darling Test):与 Shapiro-Wilk 检验一样,也是一种功效很高的检验。它对数据尾部的偏差尤为敏感,因此在需要关注数据是否存在"肥尾"现象时特别有用。
- 雅克-贝拉检验 (Jarque-Bera Test):这是一种基于样本的 偏度 和 峰度 的检验,通常用于 计量经济学 (econometrics) 中的大样本场景。当数据不符合正态分布是由于偏度或峰度异常引起时,该检验非常有效。
- 柯尔莫哥洛夫-斯米尔诺夫检验 (Kolmogorov-Smirnov Test):经过 Lilliefors 修正后可用于正态性检验。它比较的是经验累积分布函数与理论正态累积分布函数之间的最大差异。通常其功效低于 Shapiro-Wilk 和 Anderson-Darling 检验。