ARTICLE

符号检验

符号检验(Sign Test)是一种经典的非参数统计假设检验方法,主要用于检验单样本中位数或配对样本差值的中位数是否等于某个指定值。该方法完全不依赖总体分布形态的假设(如正态性),仅利用每个观测值相对于假设中位数的正号或负号信息——即数据之间的大小关系方向。因此符号检验被归类为「分布自由」(distribution-free)方法,在数据分布未知、非正态或存

浏览 9 更新 2025-10-26

符号检验(Sign Test)是一种经典的非参数统计假设检验方法,主要用于检验单样本中位数或配对样本差值的中位数是否等于某个指定值。该方法完全不依赖总体分布形态的假设(如正态性),仅利用每个观测值相对于假设中位数的正号或负号信息——即数据之间的大小关系方向。因此符号检验被归类为「分布自由」(distribution-free)方法,在数据分布未知、非正态或存在离群值时尤为适用,是统计学工具箱中最基础的非参数检验之一。

基本原理

符号检验的核心思想十分简洁:对于 n n 个独立观测值(或配对差值),仅记录每个值是否大于假设中位数 m0 m_0 (记为 + + )、是否小于 m0 m_0 (记为 - ),或恰好等于 m0 m_0 (记为 0 0 ,即结,ties)。若总体中位数确实为 m0 m_0 ,则「大于 m0 m_0 」和「小于 m0 m_0 」的观测数应大致相等——每个观测大于 m0 m_0 的概率 p=0.5 p = 0.5 。因此在零假设 H0:m=m0 H_0: m = m_0 下,大于 m0 m_0 的观测数 S+ S_+ 服从二项分布 Binomial(n,0.5) \text{Binomial}(n, 0.5) ,其中 n n 是剔除恰好等于 m0 m_0 的观测后的有效样本量。

检验统计量通常取 S+ S_+ (正号个数)或 S S_- (负号个数),p 值通过对二项分布尾端概率求和得出。单侧检验(如 Ha:m>m0 H_a: m > m_0 )的 p 值为 P(S+s+) P(S_+ \geq s_+) ,双侧检验则将单侧 p 值乘以 2,或取 min(S+,S) \min(S_+, S_-) 对应尾端概率的两倍。

检验步骤

实际操作可概括为四步:第一,计算每个观测值与假设中位数的差值,记录符号;第二,剔除差值为零的观测,记有效样本量为 n n ;第三,统计正号个数 S+ S_+ ;第四,在二项分布 Binomial(n,0.5) \text{Binomial}(n, 0.5) 下计算出现 S+ S_+ 或更极端结果的概率作为 p 值,与显著性水平 α \alpha 比较做出推断。整个过程无需查表即可手动完成,是统计检验中最易操作的方法之一。

与 Wilcoxon 符号秩检验比较

符号检验与 Wilcoxon 符号秩检验 同属配对或单样本非参数检验家族,但两者存在关键差异。符号检验只使用方向信息(正或负),完全忽略差异的幅度;Wilcoxon 检验在此基础上对差值的绝对值取秩并赋予符号权重,因此利用了更多信息。在数据近似对称时,Wilcoxon 检验的检验功效(power)通常更高。然而当数据中存在极端离群值或测量尺度仅为定序变量时,符号检验的稳健性反而更强——任何严格单调变换都不会改变符号,却可能显著影响秩次。此外符号检验的解释更为直观:它直接回答「大多数观测是否在假设中位数的某一侧」,而非秩次加权后的偏向性。

适用场景

符号检验适用于以下典型场景:第一,定序数据——当仅有「A 是否大于 B」的判断而无精确测量值时,符号检验是唯一自然的选择。第二,严重偏态分布——均值失去代表性、t 检验假设严重不满足时,符号检验提供可靠的替代方案。第三,小样本情形——样本量太小无法有效评估正态性时,精确二项分布性质确保检验水平可控。第四,快速初步判断——作为数据筛选工具,快速回答「两组间是否存在方向一致的差异」。第五,单侧偏好检验——在市场调研或消费者偏好场景中,直接询问偏好方向即可收集符号数据进行分析。

局限性

符号检验仅依赖符号信息,在样本量较小时统计功效较低。若真实差异微小,使得符号正确率仅略高于 50\%,则需要相当大的样本量才能检测出显著结果。相比之下 t 检验或 Wilcoxon 检验在同样条件下可能更早达到显著。此外若「等于 m0 m_0 」的结占比较高,有效样本量会被严重稀释,进一步降低检验灵敏度。当数据呈对称分布且正态性大致满足时,使用符号检验会损失信息效率——其渐近相对效率(ARE)约为 0.637,意味着为达到相同检验功效需约 t 检验 1.57 倍的样本量。

大样本近似

n>30 n > 30 左右时,二项分布可用正态分布近似计算:Z=S+n/2n/4N(0,1) Z = \frac{S_+ - n/2}{\sqrt{n/4}} \stackrel{\cdot}{\sim} N(0,1) ,由此可快速计算近似 p 值。为提高精度,常加入连续性校正(continuity correction):Zc=S+n/2±0.5n/4 Z_c = \frac{S_+ - n/2 \pm 0.5}{\sqrt{n/4}} ,使正态分布更精确地逼近离散的二项分布。

置信区间

基于符号检验可构造总体中位数的置信区间。将样本观测值排序为 X(1)X(2)X(n) X_{(1)} \leq X_{(2)} \leq \dots \leq X_{(n)} ,则中位数的 100(1α)% 100(1-\alpha)\% 置信区间为 [X(r),X(nr+1)] [X_{(r)}, X_{(n-r+1)}] ,其中 r r 是满足 P(S+<r)α/2 P(S_+ < r) \leq \alpha/2 的最大整数,可直接查询二项分布累积概率表。该区间构造完全无需分布假设,在偏态数据中表现尤为可靠。

历史注记

符号检验是已知最古老的统计检验之一,其思想可追溯到 John Arbuthnot(1710) 对伦敦出生性别比的开创性分析。Arbuthnot 发现连续 82 年间伦敦男性出生数均多于女性,计算得出若男女出生概率相等,这一事件连续发生的二项概率仅为 (0.5)82 (0.5)^{82} ,数值极小,从而推断存在非随机因素。这一论证在统计学史上被视为首次正式假设检验的雏形。

软件实现

主流统计软件均支持符号检验。R 语言可用 \texttt{binom.test()} 获得精确 p 值,或加载 \texttt{BSDA} 包后调用 \texttt{SIGN.test()}。Python 可用 \texttt{scipy.stats.binomtest} 构造二项检验。SAS 通过 \texttt{PROC UNIVARIATE} 的 \texttt{loccount} 选项输出结果。Stata 使用 \texttt{signrank} 命令实现。这些实现均基于精确二项分布计算,小样本和大样本场景下同样适用。

符号检验以极少的假设前提和极高的可操作性赢得了广泛的应用空间。它不需要正态性、不需要方差齐性、甚至不需要连续测量——只要有方向信息即可完成推断。实际应用中应在符号检验与参数方法(t 检验)、更强效的非参数方法(Wilcoxon 符号秩检验)之间根据数据特征做出权衡选择。