ARTICLE

z-score

z-score (标准分数) z-score,也称为标准分数 (Standard Score),是统计学中一个核心且应用广泛的概念。它是一种度量,用于描述一个特定的数据点(或观测值)与其所在数据集的平均值之间的相对位置。具体而言,z-score表示一个数据点与平均值相差了多少个标准差。 通过将原始数据转换为z-score,我们可以对数据进行标准化 (Stan

浏览 100 更新 2025-10-26

z-score (标准分数)

z-score,也称为标准分数 (Standard Score),是统计学中一个核心且应用广泛的概念。它是一种度量,用于描述一个特定的数据点(或观测值)与其所在数据集的平均值之间的相对位置。具体而言,z-score表示一个数据点与平均值相差了多少个标准差。

通过将原始数据转换为z-score,我们可以对数据进行标准化 (Standardization)。这个过程移除了原始数据的单位和量纲,使得来自不同分布、具有不同均值和标准差的数据集之间可以进行直接的比较。

定义与计算公式

z-score的计算方式是通过原始分数减去数据集的平均值,然后除以该数据集的标准差。根据我们处理的是总体数据还是样本数据,公式略有不同。

1. 总体z-score

当已知整个总体的参数时(即总体平均值 μ \mu 和总体标准差 σ \sigma ),单个数据点 x x 的z-score计算公式为:

z=xμσz = \frac{x - \mu}{\sigma}

其中:

  • z z 是计算出的z-score。
  • x x 是单个原始数据点或观测值。
  • μ \mu 是总体的平均值 (population mean)。
  • σ \sigma 是总体的标准差 (population standard deviation)。

2. 样本z-score

在实际研究中,我们通常无法获取总体数据,而是通过抽样获得样本。此时,我们使用样本统计量(样本均值 xˉ \bar{x} 和样本标准差 s s )来估计总体的z-score。公式如下:

z=xxˉsz = \frac{x - \bar{x}}{s}

其中:

  • z z 是计算出的z-score。
  • x x 是单个原始数据点或观测值。
  • xˉ \bar{x} 是样本的平均值 (sample mean)。
  • s s 是样本的标准差 (sample standard deviation)。

z-score的解释

z-score的值包含了两个重要的信息:符号大小

  • 符号 (Sign)
  • 正z-score (z>0 z > 0 ) 表示该数据点位于其数据集平均值的上方
  • 负z-score (z<0 z < 0 ) 表示该数据点位于其数据集平均值的下方
  • z-score为0 (z=0 z = 0 ) 表示该数据点等于平均值。
  • 大小 (Magnitude)
  • z-score的绝对值 z |z| 表示数据点与平均值相距多少个标准差。例如,z-score为 2.0 2.0 意味着该数据点比平均值高出 2 2 个标准差。z-score为 1.5 -1.5 意味着该数据点比平均值低 1.5 1.5 个标准差。数值越大,说明该数据点距离平均值越远,也就越“不寻常”。

z-score的核心性质

将一个数据集中的所有原始分数转换为z-score后,得到的新的z-score数据集具有以下关键性质:

  1. 均值为0:任何经过z-score转换后的数据集,其平均值恒为 0 0
  2. 标准差为1:任何经过z-score转换后的数据集,其标准差恒为 1 1

这个转换过程被称为标准化z-转换。值得注意的是,标准化改变了数据的尺度,但不改变数据分布的形状。如果原始数据是右偏的,那么其z-score的分布同样是右偏的。

应用与重要性

z-score在数据分析、假设检验和机器学习等领域有着广泛的应用。

1. 比较不同分布的数据

这是z-score最经典的应用之一。假设一名学生在两门不同的考试中分别得分。

  • 考试A:得分80分,班级平均分70分,标准差5分。
  • 考试B:得分88分,班级平均分80分,标准差10分。

仅从原始分数看,88分高于80分。但哪个分数相对更优异呢?我们可以计算z-score来比较:

  • 考试A的z-score: zA=80705=105=2.0 z_A = \frac{80 - 70}{5} = \frac{10}{5} = 2.0
  • 考试B的z-score: zB=888010=810=0.8 z_B = \frac{88 - 80}{10} = \frac{8}{10} = 0.8

结果显示,该学生在考试A中的表现(高于平均值2个标准差)远优于在考试B中的表现(仅高于平均值0.8个标准差)。

2. 离群值检测 (Outlier Detection)

z-score是识别离群值或异常值的常用工具。在近似正态分布的数据中,大部分数据点都聚集在均值附近。

  • 根据经验法则 (Empirical Rule),约95\%的数据点的z-score会落在 [2,2] [-2, 2] 的区间内。
  • 约99.7\%的数据点的z-score会落在 [3,3] [-3, 3] 的区间内。

因此,一个z-score的绝对值大于2或3(例如 z>3 z > 3 z<3 z < -3 )的数据点通常被视为潜在的离群值,值得进一步研究。

3. 概率计算与正态分布

z-score与正态分布 (Normal Distribution) 紧密相关。任何正态分布 N(μ,σ2) \mathcal{N}(\mu, \sigma^2) 都可以通过z-score转换为标准正态分布 (Standard Normal Distribution) N(0,1) \mathcal{N}(0, 1)

这个转换极为重要,因为它允许我们使用单一的标准正态分布表(z-table)来查找任何正态分布下的概率。例如,要计算原始分数 X X 小于某个值 x x 的概率 P(X<x) P(X < x) ,我们可以先计算其对应的z-score z=(xμ)/σ z = (x - \mu) / \sigma ,然后在z-table中查找 P(Z<z) P(Z < z) ,其中 Z Z 是标准正态分布的随机变量。

4. 假设检验

在统计推断中,z-score是z检验 (z-test) 的基础。z检验通常用于在总体方差已知的情况下,检验关于总体均值的原假设。计算出的检验统计量本身就是一个z-score,它衡量了样本均值与假设的总体均值之间相差了多少个标准误。

计算示例

假设一组学生的智商(IQ)测试分数是一个样本,其样本均值 xˉ=105 \bar{x} = 105 ,样本标准差 s=15 s = 15

  • 问题1:一个IQ为135分的学生的z-score是多少?
  • 计算
z=13510515=3015=2.0 z = \frac{135 - 105}{15} = \frac{30}{15} = 2.0
  • 解释:该学生的IQ分数比样本平均值高出2个标准差。
  • 问题2:一个IQ为90分的学生的z-score是多少?
  • 计算
z=9010515=1515=1.0 z = \frac{90 - 105}{15} = \frac{-15}{15} = -1.0
  • 解释:该学生的IQ分数比样本平均值低1个标准差。

局限性

虽然z-score是一个强大的工具,但它也有一些局限性:

  1. 对分布形状的依赖:z-score的解释力在数据接近对称或钟形(如正态分布)时最强。对于高度偏态的分布,z-score可能无法准确反映一个数据点的相对位置。
  2. 对均值和标准差的敏感性:均值和标准差本身对离群值非常敏感。数据集中若存在极端离群值,会影响均值和标准差的计算,从而扭曲该数据集中所有数据点的z-score。在这种情况下,可以考虑使用基于中位数和四分位距的更稳健的度量。