ARTICLE

Z-分数

Z-分数 (Z-Score) Z-分数(Z-Score),也称为标准分数(Standard Score)或标准化值,是描述统计学中将任意观测值转化为相对位置度量的核心工具。对于来自均值为 、标准差为 的总体的观测值 X,其 Z-分数定义为: 该公式的直观含义是:Z-分数度量了一个观测值偏离均值多少个标准差单位。Z > 0 表示观测值高于均值,Z < 0 表示

浏览 0 更新 2025-10-26

Z-分数 (Z-Score)

Z-分数(Z-Score),也称为标准分数(Standard Score)或标准化值,是描述统计学中将任意观测值转化为相对位置度量的核心工具。对于来自均值为 μ\mu、标准差为 σ\sigma 的总体的观测值 XX,其 Z-分数定义为:

Z=XμσZ = \frac{X - \mu}{\sigma}

该公式的直观含义是:Z-分数度量了一个观测值偏离均值多少个标准差单位Z>0Z > 0 表示观测值高于均值,Z<0Z < 0 表示低于均值,Z|Z| 的大小刻画了偏离的极端程度。无论原始数据的量纲和尺度如何,Z-分数始终是无量纲的纯数,这使得不同分布、不同单位的变量之间可以直接进行比较。

基本性质

Z-分数具有以下数学性质:

  1. 均值为零:经过标准化后,所有 Z-分数的算术平均恒为零,即 Zˉ=0\bar{Z} = 0。这是因为分子 XμX - \mu 的期望值为零。
  2. 标准差为 1:Z-分数的总体标准差恒为 1,即 σZ=1\sigma_Z = 1。这源于标准差的性质 σ(aX+b)=aσX\sigma(aX + b) = |a|\sigma_X,当 a=1/σa = 1/\sigma 时即得。
  3. 分布形状不变:Z-变换是线性变换 Z=μσ+1σXZ = -\frac{\mu}{\sigma} + \frac{1}{\sigma}X,只改变位置和尺度,不改变分布的偏度、峰度等形状特征。若 XX 服从正态分布,则 ZZ 服从标准正态分布 N(0,1)N(0, 1)
  4. 切比雪夫不等式:对任意分布,至少 11/k21 - 1/k^2 的观测值落在 Zk|Z| \leq k 的范围内。例如,无论分布形态如何,至少 75\% 的数据满足 Z2|Z| \leq 2

与标准正态分布的关系

当原始数据 XN(μ,σ2)X \sim N(\mu, \sigma^2) 时,经 Z-变换后,ZN(0,1)Z \sim N(0, 1)。这一结论是中心极限定理推论和绝大多数参数统计推断方法的基础。标准正态分布的累积分布函数 Φ(z)\Phi(z) 给出了 Z-分数不超过 zz 的概率,其数值表(Z 表)是统计推断的经典工具。

基于标准正态分布,Z-分数与分位数之间存在一一对应关系:Z=1.96Z = 1.96 对应双尾 5\% 显著性水平,Z=2.58Z = 2.58 对应双尾 1\% 显著性水平。著名的68-95-99.7 经验法则(Empirical Rule)指出,在正态分布下,约 68\% 的数据满足 Z1|Z| \leq 1,约 95\% 满足 Z2|Z| \leq 2,约 99.7\% 满足 Z3|Z| \leq 3

核心应用

  1. 跨分布比较。Z-分数最直接的应用是使不同量纲的测量结果具有可比性。例如,一名学生在数学考试中得 85 分(班级均值 70,标准差 10)和英语考试中得 78 分(班级均值 65,标准差 8),其数学 Z-分数为 Zmath=(8570)/10=1.5Z_{\text{math}} = (85 - 70)/10 = 1.5,英语 Z-分数为 Zeng=(7865)/8=1.625Z_{\text{eng}} = (78 - 65)/8 = 1.625。尽管英语原始分较低,但该生在英语中的相对排名更高。
  1. 异常值检测。在探索性数据分析中,Z-分数是识别离群值(outlier)的常用工具。经验上,Z>3|Z| > 3 的观测值通常被视为可疑异常点,需进一步审查其产生原因。更严格的标准(如 Z>2.5|Z| > 2.5 对大样本)也可采用,但需结合领域知识,避免机械截断。
  1. Z-检验。当总体标准差 σ\sigma 已知时,关于均值的假设检验可直接使用 Z-统计量 Z=(Xˉμ0)/(σ/n)Z = (\bar{X} - \mu_0)/(\sigma/\sqrt{n})。该统计量在零假设下服从标准正态分布,对应的检验称为Z-检验(Z-test),是假设检验中最基础的参数方法之一。在大样本下,即使总体非正态,由中心极限定理,Z-检验仍近似有效。
  1. 置信区间构建。在方差已知时,总体均值的 100(1α)%100(1-\alpha)\% 置信区间为 Xˉ±zα/2σ/n\bar{X} \pm z_{\alpha/2} \cdot \sigma/\sqrt{n},其中 zα/2z_{\alpha/2} 是标准正态分布的上 α/2\alpha/2 分位数。这一构造直接以 Z-分数的分布理论为基础。
  1. 效应量标准化。在元分析(Meta-analysis)中,Cohen 的 dd 统计量本质上是两组均值差除以合并标准差,可理解为组间差异的标准化度量,其形式与 Z-分数一脉相承:d=(Xˉ1Xˉ2)/spooledd = (\bar{X}_1 - \bar{X}_2)/s_{\text{pooled}}

样本Z-分数与t-分数的区别

在实际应用中,总体参数 μ\muσ\sigma 通常未知,需以样本均值 Xˉ\bar{X} 和样本标准差 ss 替代。此时计算的是样本 Z-分数,而在推断中用 ss 替代 σ\sigma 导出的统计量服从 t分布 而非标准正态分布,由此进入 t检验 的框架。当样本量增大时,t 分布收敛于标准正态,两者结果趋于一致。

局限性与注意事项

  • 对异常值敏感:Z-分数的计算依赖于均值与标准差,而均值与标准差本身受极端值影响较大。在存在严重偏态或离群值的数据中,使用中位数四分位距(IQR)进行标准化(如稳健 Z-分数)更为妥当。
  • 非正态数据的警示:对于严重偏态或厚尾分布,以正态分布分位数进行概率解释可能产生严重误导。此时应使用切比雪夫不等式给出保守界限,或采用Bootstrap等非参数方法。
  • 标准化不等于正态化:Z-变换是线性变换,绝不改变数据的分布形态。若原始数据偏态,标准化后的 Z-分数依然偏态,不能假设其服从正态分布。

Z-分数的核心价值在于它为任意数据提供了一个统一的、无单位的相对位置框架,是现代统计推断和数据分析不可或缺的基础工具。