ARTICLE

z-score

z-score (标准分数) z-score，也称为标准分数 (Standard Score)，是统计学中一个核心且应用广泛的概念。它是一种度量，用于描述一个特定的数据点（或观测值）与其所在数据集的平均值之间的相对位置。具体而言，z-score表示一个数据点与平均值相差了多少个标准差。通过将原始数据转换为z-score，我们可以对数据进行标准化 (Stan

浏览 100 更新 2025-10-26

z-score (标准分数)

z-score，也称为标准分数 (Standard Score)，是统计学中一个核心且应用广泛的概念。它是一种度量，用于描述一个特定的数据点（或观测值）与其所在数据集的平均值之间的相对位置。具体而言，z-score表示一个数据点与平均值相差了多少个标准差。

通过将原始数据转换为z-score，我们可以对数据进行标准化 (Standardization)。这个过程移除了原始数据的单位和量纲，使得来自不同分布、具有不同均值和标准差的数据集之间可以进行直接的比较。

定义与计算公式

z-score的计算方式是通过原始分数减去数据集的平均值，然后除以该数据集的标准差。根据我们处理的是总体数据还是样本数据，公式略有不同。

1. 总体z-score

当已知整个总体的参数时（即总体平均值 $\mu$ 和总体标准差 $\sigma$ ），单个数据点 $x$ 的z-score计算公式为：

z = \frac{x - \mu}{\sigma}

其中：

$z$ 是计算出的z-score。
$x$ 是单个原始数据点或观测值。
$\mu$ 是总体的平均值 (population mean)。
$\sigma$ 是总体的标准差 (population standard deviation)。

2. 样本z-score

在实际研究中，我们通常无法获取总体数据，而是通过抽样获得样本。此时，我们使用样本统计量（样本均值 $\bar{x}$ 和样本标准差 $s$ ）来估计总体的z-score。公式如下：

z = \frac{x - \bar{x}}{s}

其中：

$z$ 是计算出的z-score。
$x$ 是单个原始数据点或观测值。
$\bar{x}$ 是样本的平均值 (sample mean)。
$s$ 是样本的标准差 (sample standard deviation)。

z-score的解释

z-score的值包含了两个重要的信息：符号和大小。

符号 (Sign)：
正z-score ( $z > 0$ ) 表示该数据点位于其数据集平均值的上方。
负z-score ( $z < 0$ ) 表示该数据点位于其数据集平均值的下方。
z-score为0 ( $z = 0$ ) 表示该数据点等于平均值。

大小 (Magnitude)：
z-score的绝对值 $|z|$ 表示数据点与平均值相距多少个标准差。例如，z-score为 $2.0$ 意味着该数据点比平均值高出 $2$ 个标准差。z-score为 $-1.5$ 意味着该数据点比平均值低 $1.5$ 个标准差。数值越大，说明该数据点距离平均值越远，也就越“不寻常”。

z-score的核心性质

将一个数据集中的所有原始分数转换为z-score后，得到的新的z-score数据集具有以下关键性质：

均值为0：任何经过z-score转换后的数据集，其平均值恒为 $0$ 。
标准差为1：任何经过z-score转换后的数据集，其标准差恒为 $1$ 。

这个转换过程被称为标准化或z-转换。值得注意的是，标准化改变了数据的尺度，但不改变数据分布的形状。如果原始数据是右偏的，那么其z-score的分布同样是右偏的。

应用与重要性

z-score在数据分析、假设检验和机器学习等领域有着广泛的应用。

1. 比较不同分布的数据

这是z-score最经典的应用之一。假设一名学生在两门不同的考试中分别得分。

考试A：得分80分，班级平均分70分，标准差5分。
考试B：得分88分，班级平均分80分，标准差10分。

仅从原始分数看，88分高于80分。但哪个分数相对更优异呢？我们可以计算z-score来比较：

考试A的z-score: $z_A = \frac{80 - 70}{5} = \frac{10}{5} = 2.0$
考试B的z-score: $z_B = \frac{88 - 80}{10} = \frac{8}{10} = 0.8$

结果显示，该学生在考试A中的表现（高于平均值2个标准差）远优于在考试B中的表现（仅高于平均值0.8个标准差）。

2. 离群值检测 (Outlier Detection)

z-score是识别离群值或异常值的常用工具。在近似正态分布的数据中，大部分数据点都聚集在均值附近。

根据经验法则 (Empirical Rule)，约95\%的数据点的z-score会落在 $[-2, 2]$ 的区间内。
约99.7\%的数据点的z-score会落在 $[-3, 3]$ 的区间内。

因此，一个z-score的绝对值大于2或3（例如 $z > 3$ 或 $z < -3$ ）的数据点通常被视为潜在的离群值，值得进一步研究。

3. 概率计算与正态分布

z-score与正态分布 (Normal Distribution) 紧密相关。任何正态分布 $\mathcal{N}(\mu, \sigma^2)$ 都可以通过z-score转换为标准正态分布 (Standard Normal Distribution) $\mathcal{N}(0, 1)$ 。

这个转换极为重要，因为它允许我们使用单一的标准正态分布表（z-table）来查找任何正态分布下的概率。例如，要计算原始分数 $X$ 小于某个值 $x$ 的概率 $P(X < x)$ ，我们可以先计算其对应的z-score $z = (x - \mu) / \sigma$ ，然后在z-table中查找 $P(Z < z)$ ，其中 $Z$ 是标准正态分布的随机变量。

4. 假设检验

在统计推断中，z-score是z检验 (z-test) 的基础。z检验通常用于在总体方差已知的情况下，检验关于总体均值的原假设。计算出的检验统计量本身就是一个z-score，它衡量了样本均值与假设的总体均值之间相差了多少个标准误。

计算示例

假设一组学生的智商(IQ)测试分数是一个样本，其样本均值 $\bar{x} = 105$ ，样本标准差 $s = 15$ 。

问题1：一个IQ为135分的学生的z-score是多少？
计算：

z = \frac{135 - 105}{15} = \frac{30}{15} = 2.0

解释：该学生的IQ分数比样本平均值高出2个标准差。

问题2：一个IQ为90分的学生的z-score是多少？
计算：

z = \frac{90 - 105}{15} = \frac{-15}{15} = -1.0

解释：该学生的IQ分数比样本平均值低1个标准差。

局限性

虽然z-score是一个强大的工具，但它也有一些局限性：

对分布形状的依赖：z-score的解释力在数据接近对称或钟形（如正态分布）时最强。对于高度偏态的分布，z-score可能无法准确反映一个数据点的相对位置。
对均值和标准差的敏感性：均值和标准差本身对离群值非常敏感。数据集中若存在极端离群值，会影响均值和标准差的计算，从而扭曲该数据集中所有数据点的z-score。在这种情况下，可以考虑使用基于中位数和四分位距的更稳健的度量。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。