词条：样本标准差 · 卓越的经济金融统计考研辅导

# 样本标准差 (Sample Standard Deviation)

样本标准差 (Sample Standard Deviation) 是{{{统计学}}}中衡量一组{{{样本}}}数据点离散程度或变异性的核心指标。它量化了样本中各个观测值与其{{{样本均值}}}的平均偏离距离。在{{{推断统计学}}}中，样本标准差是一个至关重要的{{{统计量}}}，因为它通常被用作对未知{{{总体标准差}}} (Population Standard Deviation) 的{{{估计量}}}。

样本标准差通常用小写字母 $s$ 或 $SD$ 表示。

## 计算公式

样本标准差的计算公式如下：

$$ s = \sqrt{\frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{n-1}} $$

其中： * $s$ 是 样本标准差。 * $n$ 是样本中的观测值数量（{{{样本容量}}}）。 * $x_i$ 是样本中的第 $i$ 个观测值。 * $\bar{x}$ 是样本的算术平均值（{{{样本均值}}}），其计算公式为 $\bar{x} = \frac{\sum_{i=1}^{n}x_i}{n}$。 * $\sum$ 是求和符号，表示将所有项相加。

公式的核心部分是 $(x_i - \bar{x})$，被称为离差（deviation），即单个数据点与样本均值的差异。样本标准差本质上是这些离差的平方和的平均值的平方根。

## 关键概念：为什么除以 n-1？(贝塞尔校正)

在公式中，分母使用 $n-1$ 而不是 $n$ 是一个非常关键且经常引起困惑的点。这种调整被称为 {{{贝塞尔校正}}} (Bessel's Correction)。

其根本原因在于，我们使用样本数据计算出的统计量（如样本标准差）是为了估计总体的相应参数（总体标准差）。

1. {{{自由度}}} (Degrees of Freedom) 的损失：当我们计算样本标准差时，我们首先需要计算样本均值 $\bar{x}$。一旦样本均值 $\bar{x}$ 被确定，样本中的数据点就不再是完全独立的了。具体来说，如果我们知道其中 $n-1$ 个数据点的值和样本均值，那么最后一个数据点的值就完全确定了，因为它必须满足所有数据点总和为 $n\bar{x}$ 的条件。因此，在计算离差平方和时，只有 $n-1$ 个值可以“自由”变化。这个可以自由变化的数据点的数量就是自由度。

2. 获得{{{无偏估计量}}} (Unbiased Estimator)：统计学中的一个理想性质是估计量具有无偏性。对于方差而言，如果使用 $n-1$ 作为分母来计算样本方差 $s^2$，那么 $s^2$ 就是对总体方差 $\sigma^2$ 的一个无偏估计量。这意味着，如果我们从同一个总体中抽取无数个相同大小的样本，并计算每个样本的方差 $s^2$，那么这些 $s^2$ 的平均值将会精确地等于总体方差 $\sigma^2$。相反，如果分母使用 $n$，得到的样本方差会系统性地低估总体方差，成为一个{{{有偏估计量}}}。

需要注意的是，虽然 $s^2$ 是 $\sigma^2$ 的无偏估计量，但它的平方根 $s$（样本标准差）实际上是总体标准差 $\sigma$ 的一个有偏估计量（尽管偏差很小，并且随着样本容量 $n$ 的增大而趋近于零）。然而，在实践中，$s$ 仍然是估计 $\sigma$ 最常用和最广泛接受的方法。

## 计算步骤

计算样本标准差可以分解为以下几个清晰的步骤：

1. 计算样本均值 ($\bar{x}$)：将样本中所有数据点的值相加，然后除以数据点的数量 $n$。 2. 计算每个数据点的离差：用每个数据点 $x_i$ 减去样本均值 $\bar{x}$，得到 $(x_i - \bar{x})$。 3. 计算离差的平方：将上一步得到的每个离差进行平方，得到 $(x_i - \bar{x})^2$。这一步可以确保所有值都是非负的，并放大了远离均值的值的影响。 4. 求离差平方和 (Sum of Squares)：将所有离差的平方相加，得到 $\sum_{i=1}^{n}(x_i - \bar{x})^2$。 5. 计算样本方差 ($s^2$)：将离差平方和除以自由度 $(n-1)$。这个结果就是{{{样本方差}}}。 $$ s^2 = \frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{n-1} $$ 6. 计算样本标准差 ($s$)：取样本方差的非负{{{平方根}}}，即可得到样本标准差 $s$。

### 计算示例

假设我们有一个样本，记录了5名学生某次测试的成绩（满分100）：{85, 90, 75, 95, 80}。我们来计算这个样本的标准差。

第1步：计算样本均值 ($\bar{x}$) $$ \bar{x} = \frac{85 + 90 + 75 + 95 + 80}{5} = \frac{425}{5} = 85 $$

第2-4步：计算离差平方和 我们可以用一个表格来清晰地展示这个过程：

| 学生成绩 ($x_i$) | 离差 ($x_i - \bar{x}$) | 离差平方 ($(x_i - \bar{x})^2$) | | :---: | :---: | :---: | | 85 | $85 - 85 = 0$ | $0^2 = 0$ | | 90 | $90 - 85 = 5$ | $5^2 = 25$ | | 75 | $75 - 85 = -10$ | $(-10)^2 = 100$ | | 95 | $95 - 85 = 10$ | $10^2 = 100$ | | 80 | $80 - 85 = -5$ | $(-5)^2 = 25$ | | 总和 | 0 | $\sum(x_i - \bar{x})^2 = 250$ |

离差平方和为 250。

第5步：计算样本方差 ($s^2$) 样本容量 $n=5$，所以自由度是 $n-1=4$。 $$ s^2 = \frac{250}{5-1} = \frac{250}{4} = 62.5 $$

第6步：计算样本标准差 ($s$) $$ s = \sqrt{62.5} \approx 7.91 $$

因此，这组成绩的样本标准差约为 7.91 分。

## 解释与应用

样本标准差的值提供了关于数据分布的关键信息：

* 衡量{{{分散性}}}：它是数据点围绕样本均值分散程度的量度。一个较大的标准差意味着数据点分布范围更广，波动性更大；一个较小的标准差则意味着数据点更紧密地聚集在均值周围。 * 与方差的关系：标准差是{{{方差}}}的平方根。它的一个主要优点是其单位与原始数据相同（在我们的例子中是“分”），这使得它比方差（单位是“平方分”）更具直观解释性。 * 在推断统计中的作用：样本标准差是许多统计推断方法的基础，包括： * 构建{{{置信区间}}} (Confidence Interval)：例如，在估计总体均值的置信区间时，样本标准差是计算{{{标准误}}} (Standard Error) 的关键组成部分。 * 进行{{{假设检验}}} (Hypothesis Testing)：例如，在进行 t-检验 (t-test) 时，需要用到样本标准差来计算 t-统计量。

## 与总体标准差的对比

区分样本标准差 ($s$) 和总体标准差 ($\sigma$) 至关重要。

| 特征 | 样本标准差 ($s$) | 总体标准差 ($\sigma$) | | :--- | :--- | :--- | | 定义 | 一个{{{样本}}}数据的离散程度。是一个{{{统计量}}}。 | 整个{{{总体}}}数据的离散程度。是一个{{{参数}}}。 | | 目的 | 描述样本的变异性，并作为 $\sigma$ 的一个估计。 | 描述总体的真实变异性。 | | 计算公式 | $$ s = \sqrt{\frac{\sum(x_i - \bar{x})^2}{n-1}} $$ | $$ \sigma = \sqrt{\frac{\sum(X_i - \mu)^2}{N}} $$ | | 分母 | $n-1$ (样本容量减一) | $N$ (总体容量) | | 均值 | 使用样本均值 $\bar{x}$ | 使用总体均值 $\mu$ | | 可知性 | 通常可以在实践中计算得出。 | 通常是未知的，需要通过 $s$ 来估计。 |

在实际研究和分析中，我们几乎总是处理样本数据，因为普查整个总体往往是不现实或不可能的。因此，样本标准差是我们最常使用和计算的离散度度量。