ARTICLE

z-分数

z-分数(z-score),又称标准分数(standard score),是统计学中用以衡量一个观测值相对于其所在数据分布的位置的标准化度量。它表示该观测值与总体均值之间相差多少个标准差。z-分数的计算公式为: 其中 x 是原始观测值, 是总体均值, 是总体标准差。当使用样本数据时,公式中的 和 分别替换为样本均值 x 和样本标准差 s 。 核心性质与解释

浏览 7 更新 2025-10-26

z-分数(z-score),又称标准分数(standard score),是统计学中用以衡量一个观测值相对于其所在数据分布的位置的标准化度量。它表示该观测值与总体均值之间相差多少个标准差。z-分数的计算公式为:

z=xμσz = \frac{x - \mu}{\sigma}

其中 x x 是原始观测值,μ \mu 是总体均值,σ \sigma 是总体标准差。当使用样本数据时,公式中的 μ \mu σ \sigma 分别替换为样本均值 xˉ \bar{x} 和样本标准差 s s

核心性质与解释

z-分数的核心价值在于它提供了一种统一尺度,使得来自不同分布的数据可以相互比较。一个观测值的 z-分数为 0 意味着它恰好等于均值;为正表示高于均值,为负表示低于均值。z-分数的绝对值越大,表明该观测值偏离均值的程度越大。

在标准正态分布中,约 68\% 的数据落在 z-分数介于 -1 和 1 之间,约 95\% 落在 -2 和 2 之间,约 99.7\% 落在 -3 和 3 之间。这一规律被称为经验法则(empirical rule)或三西格玛法则。因此,z-分数绝对值超过 3 的观测值通常被视为潜在异常值。

应用领域

教育测评与心理测量

z-分数广泛应用于标准化考试的成绩报告。例如,学生在一场考试中获得的原始分数可以通过 z-分数转换为标准九分制(stanine)或其他标准化量表。不同科目、不同难度的考试成绩经过 z-分数转换后可以在同一尺度上进行比较。

金融风险管理

在金融领域,z-分数用于衡量资产收益相对于其历史均值的偏离程度。Altman Z-score 是财务困境预测的经典模型,它利用多个财务指标的加权组合计算出一个综合 z-分数,用于判断企业破产风险。当 Altman Z-score 低于 1.8 时,企业被判定为高风险;高于 3.0 则表明财务安全。

医学与流行病学

在儿童生长发育评估中,z-分数用于衡量身高、体重等指标相对于同龄同性别参考人群的位置。世界卫生组织(WHO)的生长标准即采用 z-分数体系:低于 -2 表示生长迟缓或消瘦,高于 2 表示超重。z-分数使得不同年龄、不同性别的儿童生长数据可以统一比较。

数据预处理与异常检测

在机器学习中,z-分数常被用作数据标准化的方法之一(Z-score Normalization),将数据转换为均值为 0、标准差为 1 的分布。这不仅消除了量纲影响,还使得梯度下降等优化算法收敛更快。同时,z-分数也是异常检测的常用工具——将 z-分数绝对值超过某一阈值(通常为 2.5 或 3)的样本标记为异常值。

z-分数的优势与局限

优势方面,z-分数是一种无单位的纯数值,不受原始数据量纲的影响,这使得不同单位和量级的数据可以公平比较。计算公式简单直观,计算复杂度低,适合在大规模数据集上快速运算。此外,z-分数保留了原始数据的分布形态信息,不会改变数据内部的相对顺序。

局限方面,z-分数对异常值极其敏感。这是因为均值和标准差本身都容易受极端值影响,一个严重的异常值会拉偏均值并扩大标准差,从而导致其他观测值的 z-分数被压缩。其次,z-分数默认数据分布大致对称且呈单峰形态,对于偏态分布或多峰分布,z-分数的解释力会大打折扣。在这些情况下,基于中位数和四分位距的标准化方法(如稳健 z-分数)更为合适。

相关概念辨析

z-分数与 t-分数

两者容易混淆但适用场景不同:z-分数适用于已知总体标准差或大样本情形;t-分数(t-statistic)则用于小样本且总体标准差未知时,它使用样本标准差并服从 t 分布。从计算公式上看,t 统计量 t=xˉμs/n t = \frac{\bar{x} - \mu}{s / \sqrt{n}} 与 z-分数在结构上相似,但分母是标准误而非标准差。

z-分数与标准化

在机器学习语境下,"标准化"(standardization)通常特指 z-分数变换,即将数据减去均值后除以标准差。这与归一化(normalization)不同,后者通常将数据缩放到 [0,1] 区间。z-分数标准化不保证数据落在某一固定区间内,但它保留了数据的分布形态。

稳健 z-分数

为克服经典 z-分数对异常值的敏感性,稳健 z-分数使用中位数替代均值、使用中位数绝对偏差(MAD)替代标准差:

zrobust=xmedian(X)MAD(X)z_{\text{robust}} = \frac{x - \text{median}(X)}{\text{MAD}(X)}

其中 MAD=median(ximedian(X)) \text{MAD} = \text{median}(|x_i - \text{median}(X)|) 。稳健 z-分数在异常检测中更为可靠,尤其适用于含有大量离群点的实际数据。

计算示例

假设某班级数学考试成绩分别为 {70, 75, 80, 85, 90, 95, 100},均值为 85,标准差约为 10.8。分数 100 的 z-分数为 (10085)/10.81.39 (100 - 85) / 10.8 \approx 1.39 ,这意味着该分数高于均值约 1.39 个标准差,属于较优秀的成绩但并非极端值。分数 70 的 z-分数为 (7085)/10.81.39 (70 - 85) / 10.8 \approx -1.39 ,处于均值以下 1.39 个标准差。

在实际应用中,z-分数可以与标准正态分布表配合使用,将 z-分数转换为百分位数,从而直接得出观测值在总体中所处的位置。例如,z-分数为 1.96 对应的百分位约为 97.5\%,这意味着该观测值高于约 97.5\% 的数据。

扩展:多元 z-分数与马氏距离

当数据扩展到多维时,单变量的 z-分数概念推广为马哈拉诺比斯距离(Mahalanobis distance)。马氏距离考虑了变量之间的相关性,其计算公式为 DM(x)=(xμ)TΣ1(xμ) D_M(x) = \sqrt{(x - \mu)^T \Sigma^{-1} (x - \mu)} ,其中 Σ \Sigma 为协方差矩阵。马氏距离本质上是多元版本的 z-分数,在多变量异常检测和分类问题中有广泛应用。

总之,z-分数作为统计学的基石概念之一,从基础的数据标准化到复杂的多元分析都发挥着重要作用。理解其原理、掌握其计算方法并认识其适用边界,是进行科学数据分析的基本功。