知经 KNOWECON · 卓越的经济金融统计数学学习平台

z-score

# z-score (标准分数)

z-score,也称为标准分数 (Standard Score),是{{{统计学}}}中一个核心且应用广泛的概念。它是一种度量,用于描述一个特定的数据点(或观测值)与其所在数据集的{{{平均值}}}之间的相对位置。具体而言,z-score表示一个数据点与平均值相差了多少个{{{标准差}}}。

通过将原始数据转换为z-score,我们可以对数据进行{{{标准化}}} (Standardization)。这个过程移除了原始数据的单位和量纲,使得来自不同分布、具有不同均值和标准差的数据集之间可以进行直接的比较。

## 定义与计算公式

z-score的计算方式是通过原始分数减去数据集的平均值,然后除以该数据集的标准差。根据我们处理的是{{{总体}}}数据还是{{{样本}}}数据,公式略有不同。

### 1. 总体z-score

当已知整个{{{总体}}}的参数时(即总体平均值 $\mu$ 和总体标准差 $\sigma$),单个数据点 $x$ 的z-score计算公式为:

$$ z = \frac{x - \mu}{\sigma} $$

其中: * $z$ 是计算出的z-score。 * $x$ 是单个原始数据点或观测值。 * $\mu$ 是总体的{{{平均值}}} (population mean)。 * $\sigma$ 是总体的{{{标准差}}} (population standard deviation)。

### 2. 样本z-score

在实际研究中,我们通常无法获取总体数据,而是通过{{{抽样}}}获得{{{样本}}}。此时,我们使用样本统计量(样本均值 $\bar{x}$ 和样本标准差 $s$)来估计总体的z-score。公式如下:

$$ z = \frac{x - \bar{x}}{s} $$

其中: * $z$ 是计算出的z-score。 * $x$ 是单个原始数据点或观测值。 * $\bar{x}$ 是样本的{{{平均值}}} (sample mean)。 * $s$ 是样本的{{{标准差}}} (sample standard deviation)。

## z-score的解释

z-score的值包含了两个重要的信息:符号大小

* 符号 (Sign): * 正z-score ($z > 0$) 表示该数据点位于其数据集平均值的上方。 * 负z-score ($z < 0$) 表示该数据点位于其数据集平均值的下方。 * z-score为0 ($z = 0$) 表示该数据点等于平均值。

* 大小 (Magnitude): * z-score的绝对值 $|z|$ 表示数据点与平均值相距多少个标准差。例如,z-score为 $2.0$ 意味着该数据点比平均值高出 $2$ 个标准差。z-score为 $-1.5$ 意味着该数据点比平均值低 $1.5$ 个标准差。数值越大,说明该数据点距离平均值越远,也就越“不寻常”。

## z-score的核心性质

将一个数据集中的所有原始分数转换为z-score后,得到的新的z-score数据集具有以下关键性质:

1. 均值为0:任何经过z-score转换后的数据集,其平均值恒为 $0$。 2. 标准差为1:任何经过z-score转换后的数据集,其标准差恒为 $1$。

这个转换过程被称为{{{标准化}}}z-转换。值得注意的是,标准化改变了数据的尺度,但不改变数据分布的形状。如果原始数据是右偏的,那么其z-score的分布同样是右偏的。

## 应用与重要性

z-score在数据分析、{{{假设检验}}}和机器学习等领域有着广泛的应用。

### 1. 比较不同分布的数据

这是z-score最经典的应用之一。假设一名学生在两门不同的考试中分别得分。 * 考试A:得分80分,班级平均分70分,标准差5分。 * 考试B:得分88分,班级平均分80分,标准差10分。

仅从原始分数看,88分高于80分。但哪个分数相对更优异呢?我们可以计算z-score来比较:

* 考试A的z-score: $z_A = \frac{80 - 70}{5} = \frac{10}{5} = 2.0$ * 考试B的z-score: $z_B = \frac{88 - 80}{10} = \frac{8}{10} = 0.8$

结果显示,该学生在考试A中的表现(高于平均值2个标准差)远优于在考试B中的表现(仅高于平均值0.8个标准差)。

### 2. {{{离群值}}}检测 (Outlier Detection)

z-score是识别{{{离群值}}}或异常值的常用工具。在近似{{{正态分布}}}的数据中,大部分数据点都聚集在均值附近。 * 根据{{{经验法则}}} (Empirical Rule),约95%的数据点的z-score会落在 $[-2, 2]$ 的区间内。 * 约99.7%的数据点的z-score会落在 $[-3, 3]$ 的区间内。

因此,一个z-score的绝对值大于2或3(例如 $z > 3$ 或 $z < -3$)的数据点通常被视为潜在的离群值,值得进一步研究。

### 3. {{{概率}}}计算与正态分布

z-score与{{{正态分布}}} (Normal Distribution) 紧密相关。任何正态分布 $\mathcal{N}(\mu, \sigma^2)$ 都可以通过z-score转换为{{{标准正态分布}}} (Standard Normal Distribution) $\mathcal{N}(0, 1)$。

这个转换极为重要,因为它允许我们使用单一的标准正态分布表(z-table)来查找任何正态分布下的{{{概率}}}。例如,要计算原始分数 $X$ 小于某个值 $x$ 的概率 $P(X < x)$,我们可以先计算其对应的z-score $z = (x - \mu) / \sigma$,然后在z-table中查找 $P(Z < z)$,其中 $Z$ 是标准正态分布的{{{随机变量}}}。

### 4. 假设检验

在统计推断中,z-score是{{{z检验}}} (z-test) 的基础。z检验通常用于在总体方差已知的情况下,检验关于总体均值的{{{原假设}}}。计算出的检验统计量本身就是一个z-score,它衡量了样本均值与假设的总体均值之间相差了多少个{{{标准误}}}。

## 计算示例

假设一组学生的智商(IQ)测试分数是一个样本,其样本均值 $\bar{x} = 105$,样本标准差 $s = 15$。

* 问题1:一个IQ为135分的学生的z-score是多少? * 计算: $$ z = \frac{135 - 105}{15} = \frac{30}{15} = 2.0 $$ * 解释:该学生的IQ分数比样本平均值高出2个标准差。

* 问题2:一个IQ为90分的学生的z-score是多少? * 计算: $$ z = \frac{90 - 105}{15} = \frac{-15}{15} = -1.0 $$ * 解释:该学生的IQ分数比样本平均值低1个标准差。

## 局限性

虽然z-score是一个强大的工具,但它也有一些局限性:

1. 对分布形状的依赖:z-score的解释力在数据接近对称或钟形(如正态分布)时最强。对于高度{{{偏态}}}的分布,z-score可能无法准确反映一个数据点的相对位置。 2. 对均值和标准差的敏感性:均值和标准差本身对离群值非常敏感。数据集中若存在极端离群值,会影响均值和标准差的计算,从而扭曲该数据集中所有数据点的z-score。在这种情况下,可以考虑使用基于{{{中位数}}}和{{{四分位距}}}的更稳健的度量。