ARTICLE

夏皮罗-威尔克检验

夏皮罗-威尔克检验 (Shapiro-Wilk Test) 夏皮罗-威尔克检验 (Shapiro-Wilk Test) 是一种在频率学派统计中用于检验样本数据是否来自于一个正态分布总体的假设检验。该检验由萨缪尔·夏皮罗 (Samuel Shapiro) 和马丁·威尔克 (Martin Wilk) 于1965年在《Biometrika》期刊上首次提出。由于其出

浏览 0 更新 2026-07-15

夏皮罗-威尔克检验 (Shapiro-Wilk Test)

夏皮罗-威尔克检验 (Shapiro-Wilk Test) 是一种在频率学派统计中用于检验样本数据是否来自于一个正态分布总体的假设检验。该检验由萨缪尔·夏皮罗 (Samuel Shapiro) 和马丁·威尔克 (Martin Wilk) 于1965年在《Biometrika》期刊上首次提出。由于其出色的检验效力，夏皮罗-威尔克检验被广泛公认为检验正态性最有效的方法之一，特别是在样本量较小 ( $n < 50$ ) 的情况下表现尤为突出。

检验的核心思想与假设

在许多统计分析方法（如t检验、方差分析 (ANOVA)和线性回归）中，一个关键的前提假设是数据或模型中的残差服从正态分布。如果这一假设被违反，相关的统计推断结果可能不可靠。夏皮罗-威尔克检验提供了一种形式化的假设检验方法来系统地验证这一假设。

该检验的基本假设结构如下：

零假设 ( $H_0$ )：样本数据来自于一个服从正态分布的总体。
备择假设 ( $H_1$ )：样本数据不来自于一个服从正态分布的总体。

检验的直观思想是比较样本数据的顺序统计量与理论正态分布数据的期望顺序统计量之间的相关性。如果样本数据确实来自于正态分布，那么将样本观测值排序后得到的顺序统计量，与对应于相同样本量的标准正态分布的理论顺序统计量之间，应存在高度的线性正相关关系。反之，若数据严重偏离正态分布（例如呈现明显的偏斜或厚尾特征），这种线性关系将被削弱。

检验统计量 $W$

夏皮罗-威尔克检验的核心是一个被称为 $W$ 的检验统计量。其计算公式为：

W = \frac{\left( \sum_{i=1}^n a_i x_{(i)} \right)^2}{\sum_{i=1}^n (x_i - \bar{x})^2}

公式中各组成部分的含义如下：

$x_i$ 为原始样本观测值。
$x_{(i)}$ 为顺序统计量，即按从小到大的顺序排列后的样本数据，满足 $x_{(1)} \le x_{(2)} \le \dots \le x_{(n)}$ 。
$\bar{x} = \frac{1}{n} \sum_{i=1}^n x_i$ 为样本均值。
$\sum_{i=1}^n (x_i - \bar{x})^2$ 是分母，代表样本数据围绕其均值的总离差平方和，与样本方差成正比，度量了数据的总体变异程度。
$a_i$ 是一组经由理论推导预先计算好的最优系数，其数学定义为： \[ (a_1, a_2, \dots, a_n) = \frac{m^T V^{-1}}{\| m^T V^{-1} \|} \] 其中 $m = (m_1, \dots, m_n)^T$ 是标准正态分布的顺序统计量的期望值向量， $V$ 是这些顺序统计量的协方差矩阵。在实际应用中，研究者无需手动计算这些系数——统计软件会根据样本量 $n$ 直接从预制的对照表中提取相应的系数值。这些系数的设计使得检验对数据尾部的偏离特征（如厚尾或轻尾）具有较高的敏感性。

$W$ 统计量的解释

$W$ 统计量的值域为 $[0, 1]$ 。分子 $\left( \sum_{i=1}^n a_i x_{(i)} \right)^2$ 可理解为通过顺序统计量对总体方差进行的加权估计——它衡量的是排序后的数据在多大程度上与正态分布的理论顺序统计量模式一致。分母 $\sum_{i=1}^n (x_i - \bar{x})^2$ 则是数据的实际总变异性度量。

当样本数据完美地服从正态分布时，分子与分母的值近似相等， $W$ 值非常接近 1。
当样本数据显著偏离正态分布（例如存在严重的偏度或峰度异常）时，分子将显著小于分母， $W$ 值趋向于 0。

因此，较小的 $W$ 值是反对零假设（即数据服从正态分布）的有力证据。通常，统计软件会同时报告 $W$ 值及其对应的 p 值，以辅助研究者做出判断。

检验的执行与决策

在实际应用中，夏皮罗-威尔克检验几乎总是通过统计软件来完成。标准的执行流程包含以下四个步骤：

设定显著性水平 ( $\alpha$ )： $\alpha$ 代表研究者愿意承受的第一类错误（即错误地拒绝真实零假设）的概率上限。通常选定为 0.05，在要求较为严格的研究中可取 0.01，在探索性分析中亦可取 0.10。
计算 $W$ 统计量：软件根据样本数据自动计算出 $W$ 的具体数值。
确定p值：软件根据 $W$ 值和样本量 $n$ ，通过查阅 $W$ 统计量的分布表或使用近似算法，计算出对应的 p 值。p 值表示在零假设为真的条件下，观测到当前 $W$ 值或更极端值的概率。
做出统计决策：若 $p \le \alpha$ ，拒绝零假设，认为数据不来自正态分布总体；若 $p > \alpha$ ，未能拒绝零假设，即没有充分证据否定正态性假设。

需要强调的是，未能拒绝零假设并不等同于 "证明" 了正态性——它仅表明在当前样本提供的证据强度下，不足以推翻正态分布这一假设。

优缺点与注意事项

优点

检验效力高：夏皮罗-威尔克检验通常被认为是所有正态性检验中统计功效最高的方法之一。在小样本情境下（如 $n < 50$ ），其检验功效显著优于柯尔莫哥洛夫-斯米尔诺夫检验等其他常用方法，能够在数据确实非正态时准确地检测出非正态性。

注意事项与局限性

对大样本过于敏感：当样本量非常大时（如 $n > 1000$ ），即使数据与正态分布之间仅存在微小且在实践中完全可忽略的偏离，检验也可能产生极小的 p 值并导致拒绝零假设。此时，研究者应结合Q-Q图和直方图等可视化方法综合判断偏离的实际严重程度，而非单纯依赖检验结果。

对小样本效力不足：当样本量极小时（如 $n < 10$ ），检验的统计功效可能较低，即使数据明显偏离正态分布，也可能无法提供足够的统计证据来拒绝零假设。

适用范围有限：与柯尔莫哥洛夫-斯米尔诺夫检验（经 Lilliefors 修正后）等可用于检验多种概率分布的拟合优度检验不同，夏皮罗-威尔克检验专用于正态性检验，无法直接推广到其他分布类型。

实践中的应用

在进行参数统计分析之前，研究者通常首先使用夏皮罗-威尔克检验来评估正态性假设的合理性。若检验结果拒绝了正态性假设，可以考虑以下三种处理策略：

使用非参数检验：选择不依赖于正态分布假设的统计方法。例如，以曼-惠特尼U检验代替双样本 t 检验，或以克鲁斯卡尔-沃利斯检验代替单因素方差分析。非参数方法的代价通常是统计功效有所降低，但在分布假设不满足时更为稳健。
数据转换：对数据进行数学变换以改善其分布形态。常用的变换方法包括对数转换、平方根转换、倒数转换以及更一般化的Box-Cox转换，后者通过极大似然估计自动确定最优变换参数。
使用稳健统计方法：采用对正态性偏离不那么敏感的稳健估计方法（如 Huber 估计量、三均值等），这些方法在数据存在轻度至中度偏离时仍能提供可靠的推断结果。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。

夏皮罗-威尔克检验