知经 KNOWECON · 卓越的经济金融统计数学学习平台

标准正态分布

# 标准正态分布 (Standard Normal Distribution)

标准正态分布 (Standard Normal Distribution),也称为 Z分布 (Z-distribution),是{{{概率论}}}和{{{统计学}}}中极为重要的一个连续{{{概率分布}}}。它是{{{正态分布}}} (Normal Distribution) 家族中的一个特例,其特殊之处在于它的{{{均值}}} (mean) 为 0,{{{标准差}}} (standard deviation) 为 1

这个分布之所以在统计学中占据核心地位,是因为任何一个服从正态分布的{{{随机变量}}}都可以通过一个简单的线性变换(称为{{{标准化}}}) 转换为标准正态分布。这一特性极大地简化了概率计算和{{{统计推断}}}过程,使其成为构建{{{假设检验}}}和{{{置信区间}}}等理论的基石。

## 数学定义

一个服从标准正态分布的连续随机变量通常用大写字母 $Z$ 表示。其特征由以下的{{{概率密度函数}}} (Probability Density Function, PDF) 完全确定。

### 概率密度函数 (PDF)

标准正态分布的概率密度函数,通常用 $\phi(z)$ 表示,其数学表达式为:

$$ \phi(z) = \frac{1}{\sqrt{2\pi}} e^{-\frac{1}{2}z^2} $$

其中: * $z$ 是随机变量可以取到的任意实数。 * $e$ 是{{{欧拉数}}} (Euler's number),约等于 2.71828。 * $\pi$ 是圆周率,约等于 3.14159。

这个函数描述了标准正态分布曲线(著名的“钟形曲线”)的形状。函数值 $\phi(z)$ 本身并不是概率,而是随机变量在点 $z$ 附近的概率密度。特定区间内的概率是通过对该区间上的概率密度函数进行{{{积分}}}得到的。

### 累积分布函数 (CDF)

标准正态分布的{{{累积分布函数}}} (Cumulative Distribution Function, CDF),通常用大写希腊字母 $\Phi(z)$ (Phi) 表示,它给出了随机变量 $Z$ 的值小于或等于某个特定值 $z$ 的概率。其定义为:

$$ \Phi(z) = P(Z \le z) = \int_{-\infty}^{z} \phi(t) \, dt = \int_{-\infty}^{z} \frac{1}{\sqrt{2\pi}} e^{-\frac{1}{2}t^2} \, dt $$

这个积分没有解析解(即不能用初等函数表示),因此它的值通常通过查阅 {{{Z-table}}} (标准正态分布表) 或使用统计软件来获得。例如,$\Phi(0) = 0.5$,这表示随机变量 $Z$ 小于或等于0的概率是50%。

## 主要性质

标准正态分布具有一系列清晰且实用的性质,这使其在理论和应用中都非常方便。

1. 对称性 (Symmetry):分布曲线关于均值 0 完美对称。这意味着: * 在图形上,y轴是其对称轴。 * 在概率密度函数上,$\phi(z) = \phi(-z)$。 * 在累积分布函数上,有一个非常重要的关系:$P(Z \le -z) = P(Z > z) = 1 - P(Z \le z)$,即 $\Phi(-z) = 1 - \Phi(z)$。这个性质在计算概率时非常有用。

2. 集中趋势 (Central Tendency):其{{{均值}}}、{{{中位数}}} (Median) 和{{{众数}}} (Mode) 都等于 0。

3. 离散程度 (Dispersion):其{{{标准差}}} $\sigma$ 等于 1,因此其{{{方差}}} $\sigma^2$ 也等于 1。

4. 峰度与偏度 (Kurtosis and Skewness): * 由于分布的对称性,其{{{偏度}}} (Skewness) 为 0。 * 其{{{峰度}}} (Kurtosis) 为 3。在统计学中,更常用的是 超额峰度 (Excess Kurtosis),即 (峰度 - 3),因此标准正态分布的超额峰度为 0。这使得它成为比较其他分布“尖峰”程度的基准。

5. 经验法则 (Empirical Rule):这条法则,也称为 68-95-99.7法则,描述了数据在均值周围的分布情况: * 大约 68.27% 的值位于均值的1个标准差范围内,即区间 $[-1, 1]$ 内。 * 大约 95.45% 的值位于均值的2个标准差范围内,即区间 $[-2, 2]$ 内。(注意:在统计推断中常用的95%置信水平对应的临界值是 $\pm 1.96$,而不是整数2。) * 大约 99.73% 的值位于均值的3个标准差范围内,即区间 $[-3, 3]$ 内。

## 标准化 (Standardization) 与 Z-score

标准正态分布的强大功能主要体现在 标准化 这一过程中。任何一个服从一般正态分布 $N(\mu, \sigma^2)$ 的随机变量 $X$(均值为 $\mu$,标准差为 $\sigma$),都可以通过以下公式转换为一个服从标准正态分布 $N(0, 1)$ 的随机变量 $Z$:

$$ Z = \frac{X - \mu}{\sigma} $$

这个转换后得到的 $Z$ 值被称为 {{{Z-score}}}标准分数。它度量了一个原始观测值 $X$ 偏离其均值 $\mu$ 的距离,并以标准差 $\sigma$ 的个数为单位。

示例:假设某地区成年男性的身高服从均值为 175cm、标准差为 5cm 的正态分布。我们想知道随机抽取一名男性,其身高超过 185cm 的概率是多少。

1. 定义问题:随机变量 $X \sim N(175, 5^2)$。我们要求 $P(X > 185)$。 2. 标准化:计算身高 185cm 对应的 Z-score。 $$ Z = \frac{185 - 175}{5} = \frac{10}{5} = 2 $$ 3. 转换问题:原始问题 $P(X > 185)$ 等价于标准正态分布下的问题 $P(Z > 2)$。 4. 计算概率:利用标准正态分布的性质和CDF。 $$ P(Z > 2) = 1 - P(Z \le 2) = 1 - \Phi(2) $$ 通过查阅 Z-table 或使用软件,我们知道 $\Phi(2) \approx 0.9772$。 因此,概率为 $1 - 0.9772 = 0.0228$。 这意味着大约有 2.28% 的该地区成年男性身高超过 185cm。

通过标准化,我们无需为每一个可能的 $(\mu, \sigma)$ 组合准备一张概率表,而只需一张标准正态分布表即可解决所有正态分布的概率计算问题。

## 在统计推断中的核心作用

标准正态分布是{{{统计推断}}}的理论基础,这主要得益于{{{中心极限定理}}} (Central Limit Theorem, CLT)。

* {{{中心极限定理}}}:该定理指出,在相当普遍的条件下,从任何分布的总体中抽取的大量独立随机样本,其样本均值的抽样分布(经过适当标准化后)会趋近于标准正态分布。这解释了为何正态分布在自然界和社会现象中如此常见。

* {{{假设检验}}}:在许多假设检验中(如Z检验),检验统计量在{{{零假设}}} (Null Hypothesis) 下服从或近似服从标准正态分布。我们可以计算样本数据得到的Z-score,并将其与来自标准正态分布的{{{临界值}}}进行比较,从而决定是否拒绝零假设。计算出的{{{P值}}} (p-value) 本质上就是在标准正态分布下观察到更极端结果的概率。

* {{{置信区间}}}:在为总体参数(如总体均值)构建置信区间时,常常需要用到标准正态分布的临界值。例如,一个95%的置信区间通常使用 $Z_{.025} = 1.96$ 这个值,它表示标准正态分布中尾部面积为2.5%的分位数。