ARTICLE

Z-score

Z-score（标准分数）是统计学中衡量数据点与总体均值之间相对距离的核心指标，定义为数据点与均值的差值除以标准差。Z-score 将不同尺度、不同分布的观测值映射到一个统一的标准尺度上，使得跨数据集的比较和异常值识别成为可能。它以零为中心、以1为单位，是统计推断、假设检验和机器学习数据预处理中最常用的标准化工具之一。 1. 定义与计算公式 1.1 总体 Z

浏览 3 更新 2025-11-08

Z-score（标准分数）是统计学中衡量数据点与总体均值之间相对距离的核心指标，定义为数据点与均值的差值除以标准差。Z-score 将不同尺度、不同分布的观测值映射到一个统一的标准尺度上，使得跨数据集的比较和异常值识别成为可能。它以零为中心、以1为单位，是统计推断、假设检验和机器学习数据预处理中最常用的标准化工具之一。

1. 定义与计算公式

1.1 总体 Z-score

对于总体均值为 $\mu$ 、总体标准差为 $\sigma$ 的分布，任意观测值 $x$ 的 Z-score 定义为：

z = \frac{x - \mu}{\sigma}

该分数直接度量 $x$ 偏离均值多少个标准差。 $z = 1.5$ 意味着观测值比均值高出 1.5 个标准差； $z = -0.8$ 则意味着低于均值 0.8 个标准差。Z-score 无量纲，因此可以跨越不同单位（如身高厘米与体重千克）进行比较。

1.2 样本 Z-score

在实际应用中，总体参数往往未知，此时使用样本均值 $\bar{x}$ 和样本标准差 $s$ 代替：

z = \frac{x - \bar{x}}{s}

样本 Z-score 在探索性数据分析（EDA）和异常检测中广泛使用，但需注意：当样本量较小时，样本标准差 $s$ 的波动可能导致 Z-score 的稳定性下降，此时更稳健的方法是使用中位数和中位数绝对偏差（MAD）构造类似分数。

2. 数学性质

2.1 标准化效应

对一组数据全体计算 Z-score 后，得到的 Z 分数序列均值为 0、标准差为 1。数学上，若 $\{x_1, x_2, \ldots, x_n\}$ 的均值为 $\bar{x}$ 、标准差为 $s_x$ ，则 $\{z_1, z_2, \ldots, z_n\}$ 满足 $\bar{z} = 0$ 且 $s_z = 1$ 。这种线性变换不会改变数据的分布形状——偏度和峰度保持不变——仅将数据平移并缩放至标准尺度。因此，Z-score 变换是保持分布形态的标准化操作，区别于 Box-Cox 变换等改变分布形状的非线性方法。

2.2 与正态分布的关系

当原始数据服从正态分布 $N(\mu, \sigma^2)$ 时，Z-score 服从标准正态分布 $N(0, 1)$ 。利用这一关系，可通过标准正态分布表（Z 表）快速计算概率： $P(x < a) = \Phi\left(\frac{a - \mu}{\sigma}\right)$ ，其中 $\Phi$ 为标准正态累积分布函数。例如，Z-score = 1.96 对应约 97.5\% 的累积概率，这一临界值在 95\% 置信水平的双侧检验中被广泛使用；Z-score = 2.58 对应约 99.5\% 的累积概率，用于 99\% 置信水平的推断。

2.3 切比雪夫不等式

当分布形态未知时，切比雪夫不等式提供了 Z-score 的保守概率界：对于任意 $k > 0$ ，Z-score 绝对值大于 $k$ 的概率不超过 $1/k^2$ 。该不等式适用于任何具有有限方差的分布，为基于 Z-score 的异常检测提供了理论下限。例如， $|z| > 3$ 的概率不超过 $1/9 \approx 11.1\%$ ； $|z| > 4$ 的概率不超过 $1/16 = 6.25\%$ 。虽然正态分布下的实际概率远小于这些上界（ $|z| > 3$ 在正态分布中仅约 0.27\%），但切比雪夫不等式的"无分布假设"特性使其在非参数场景中仍有独特价值。

3. 主要应用

3.1 异常值检测

Z-score 是最经典的异常值识别方法之一。在实践中，常以 $|z| > 3$ 作为判定异常值的阈值（对应正态分布下约 0.27\% 的概率），或以 $|z| > 2$ 作为警告阈值。然而，Z-score 法对极端值本身敏感——因为均值和标准差都受异常值影响，多个大型异常值可能"掩蔽"彼此，导致 Z-score 无法有效检出。为此，改进方法包括使用修正的 Z-score（基于中位数和 MAD，计算公式为 $(x - \text{median}) / \text{MAD} \times 0.6745$ ），该修正使统计量对异常值更稳健，在非对称或重尾分布中表现更好。

3.2 数据标准化与特征缩放

在机器学习和统计建模中，Z-score 标准化（Standardization）是最常用的特征缩放方法之一。它使各特征处于同一数量级，避免数值量级差异主导模型训练。对于线性回归、支持向量机（SVM）、主成分分析（PCA）和 K 近邻等对特征尺度敏感的算法，Z-score 标准化是数据预处理的标配步骤。具体操作时，训练集的均值和标准差会被保存并应用于测试集和预测阶段，以确保数据变换的一致性。

3.3 假设检验：Z 检验

Z 检验是当总体方差已知或样本量足够大（通常 $n > 30$ ）时，关于总体均值的假设检验方法。检验统计量为：

Z = \frac{\bar{x} - \mu_0}{\sigma / \sqrt{n}}

在原假设 $H_0: \mu = \mu_0$ 成立的条件下，该统计量近似服从标准正态分布。Z 检验常用于：单样本均值检验（如检验某批产品的平均重量是否达标）；双样本均值差检验（如比较两组患者的平均康复时间）；比例检验（如比较两个群体的支持率差异）。当总体方差未知且样本量较小时，应使用 t 检验替代 Z 检验。

3.4 百分位数与标准分数的换算

Z-score 与百分位数之间存在一一对应关系（在正态假设下）。Z-score = 0 对应第 50 百分位数（中位数）；Z-score = 1 对应约第 84.13 百分位数；Z-score = 2 对应约第 97.72 百分位数。这一换算在教育测评、心理测量和标准化考试（如 IQ 测试、SAT、GRE）中有广泛应用。例如，韦氏智力测验以 100 为均值、15 为标准差，IQ 为 130 即对应 Z-score = 2，意味着受试者的智商高于约 97.7\% 的同龄人群。

4. 局限性与注意事项

4.1 对正态性假设的依赖

Z-score 在解释概率时高度依赖正态性假设。当数据严重偏斜或具有厚尾特征时，Z-score = 2 对应的实际累积概率可能远偏离 97.72\%——在厚尾分布中， $|z| > 3$ 的观测可能并不罕见，此时基于正态近似的异常判定将产生大量误报。因此，在使用 Z-score 进行概率解释前，应通过 Q-Q 图或夏皮罗-威尔克检验验证数据的正态性。

4.2 小样本问题

当样本量极小时（如 $n < 10$ ），样本标准差 $s$ 的估计方差很大，导致 Z-score 不可靠。此时应使用基于 t 分布的临界值（即 t-score）替代 Z-score 进行推断。t 分布相比正态分布具有更厚的尾部，能更好地包容小样本下估计量变异性的增大；当自由度趋于无穷时，t 分布收敛于标准正态分布。

4.3 多重比较中的累积效应

在大规模假设检验或高维数据中（如基因组学中的数千个基因表达水平），若对每个变量独立计算 Z-score 并使用 $|z| > 3$ 的标准，由于多重比较的累积效应，假阳性数量可能急剧膨胀。例如，对 10,000 个独立变量按 $|z| > 3$ 的标准筛选，即使所有变量均无异常，仍预期约有 27 个变量被误判为异常（10,000 × 0.0027）。此时应引入多重比较校正方法，如 Bonferroni 校正或错误发现率（FDR）控制。

5. 扩展概念

5.1 T-score

T-score 是 Z-score 的变体，通常定义为 $T = 10 \times Z + 50$ ，使均值为 50、标准差为 10。T-score 在教育与心理测量中广泛使用，以规避 Z-score 中负数和小数带来的解释困难。例如，T-score = 60 意味着原始分数比均值高出一个标准差。另一种常见的线性变换是 IQ 分数（均值 100、标准差 15）和 SAT 分数（均值 500、标准差 100）。

5.2 标准化矩与峰度偏度

Z-score 的更高阶矩可用于定义分布的偏度和峰度。偏度（Skewness）定义为 Z-score 的三次方的期望： $\gamma_1 = E[Z^3]$ ，衡量分布的不对称性；峰度（Kurtosis）定义为 $\gamma_2 = E[Z^4] - 3$ ，衡量分布的尾部厚度。标准正态分布的偏度为 0、超额峰度为 0，这使 Z-score 成为诊断分布形态的"基准标尺"。若样本 Z-score 的三次方均值显著偏离零，提示分布存在偏斜；若四次方均值显著大于 3，提示分布存在厚尾。

6. 计算示例

假定某班级期中考试成绩的均值为 75 分、标准差为 10 分。学生 A 得分为 90 分，其 Z-score 为 $(90 - 75)/10 = 1.5$ ，表明成绩高于均值 1.5 个标准差。若成绩服从正态分布，学生 A 的成绩约高于 93.3\% 的同学（查标准正态分布表得 $P(Z < 1.5) \approx 0.9332$ ）。若该班级成绩不服从正态分布，则 Z-score = 1.5 仅能说明该学生成绩的相对位置，无法直接换算为精确的百分位数。

Z-score 作为一种简洁而强大的统计工具，在数据分析、金融风险管理、教育评估和科学研究的各个领域中都扮演着基础性角色。理解其数学性质、适用条件和局限性，是正确运用这一工具的前提。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。