ARTICLE

样本标准差

样本标准差 (Sample Standard Deviation) 样本标准差 (Sample Standard Deviation) 是统计学中衡量一组样本数据点离散程度或变异性的核心指标。它量化了样本中各个观测值与其样本均值的平均偏离距离。在推断统计学中,样本标准差是一个至关重要的统计量,因为它通常被用作对未知总体标准差 (Population Stan

浏览 232 更新 2025-10-25

样本标准差 (Sample Standard Deviation)

样本标准差 (Sample Standard Deviation) 是统计学中衡量一组样本数据点离散程度或变异性的核心指标。它量化了样本中各个观测值与其样本均值的平均偏离距离。在推断统计学中,样本标准差是一个至关重要的统计量,因为它通常被用作对未知总体标准差 (Population Standard Deviation) 的估计量

样本标准差通常用小写字母 s s SD SD 表示。

计算公式

样本标准差的计算公式如下:

s=i=1n(xixˉ)2n1s = \sqrt{\frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{n-1}}

其中:

  • s s 样本标准差
  • n n 是样本中的观测值数量(样本容量)。
  • xi x_i 是样本中的第 i i 个观测值。
  • xˉ \bar{x} 是样本的算术平均值(样本均值),其计算公式为 xˉ=i=1nxin \bar{x} = \frac{\sum_{i=1}^{n}x_i}{n}
  • \sum 是求和符号,表示将所有项相加。

公式的核心部分是 (xixˉ) (x_i - \bar{x}) ,被称为 离差(deviation),即单个数据点与样本均值的差异。样本标准差本质上是这些离差的平方和的平均值的平方根。

关键概念:为什么除以 n-1?(贝塞尔校正)

在公式中,分母使用 n1 n-1 而不是 n n 是一个非常关键且经常引起困惑的点。这种调整被称为 贝塞尔校正 (Bessel's Correction)

其根本原因在于,我们使用样本数据计算出的统计量(如样本标准差)是为了估计总体的相应参数(总体标准差)。

  1. 自由度 (Degrees of Freedom) 的损失:当我们计算样本标准差时,我们首先需要计算样本均值 xˉ \bar{x} 。一旦样本均值 xˉ \bar{x} 被确定,样本中的数据点就不再是完全独立的了。具体来说,如果我们知道其中 n1 n-1 个数据点的值和样本均值,那么最后一个数据点的值就完全确定了,因为它必须满足所有数据点总和为 nxˉ n\bar{x} 的条件。因此,在计算离差平方和时,只有 n1 n-1 个值可以"自由"变化。这个可以自由变化的数据点的数量就是自由度。
  1. 获得无偏估计量 (Unbiased Estimator):统计学中的一个理想性质是估计量具有无偏性。对于方差而言,如果使用 n1 n-1 作为分母来计算样本方差 s2 s^2 ,那么 s2 s^2 就是对总体方差 σ2 \sigma^2 的一个无偏估计量。这意味着,如果我们从同一个总体中抽取无数个相同大小的样本,并计算每个样本的方差 s2 s^2 ,那么这些 s2 s^2 的平均值将会精确地等于总体方差 σ2 \sigma^2 。相反,如果分母使用 n n ,得到的样本方差会系统性地低估总体方差,成为一个有偏估计量

需要注意的是,虽然 s2 s^2 σ2 \sigma^2 的无偏估计量,但它的平方根 s s (样本标准差)实际上是总体标准差 σ \sigma 的一个有偏估计量(尽管偏差很小,并且随着样本容量 n n 的增大而趋近于零)。然而,在实践中,s s 仍然是估计 σ \sigma 最常用和最广泛接受的方法。

计算步骤

计算样本标准差可以分解为以下几个清晰的步骤:

  1. 计算样本均值 (xˉ \bar{x} ):将样本中所有数据点的值相加,然后除以数据点的数量 n n
  2. 计算每个数据点的离差:用每个数据点 xi x_i 减去样本均值 xˉ \bar{x} ,得到 (xixˉ) (x_i - \bar{x})
  3. 计算离差的平方:将上一步得到的每个离差进行平方,得到 (xixˉ)2 (x_i - \bar{x})^2 。这一步可以确保所有值都是非负的,并放大了远离均值的值的影响。
  4. 求离差平方和 (Sum of Squares):将所有离差的平方相加,得到 i=1n(xixˉ)2 \sum_{i=1}^{n}(x_i - \bar{x})^2
  5. 计算样本方差 (s2 s^2 ):将离差平方和除以自由度 (n1) (n-1) 。这个结果就是样本方差
s2=i=1n(xixˉ)2n1s^2 = \frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{n-1}
  1. 计算样本标准差 (s s ):取样本方差的非负平方根,即可得到样本标准差 s s

计算示例

假设我们有一个样本,记录了5名学生某次测试的成绩(满分100):{85, 90, 75, 95, 80}。我们来计算这个样本的标准差。

第1步:计算样本均值 (xˉ \bar{x} )

xˉ=85+90+75+95+805=4255=85\bar{x} = \frac{85 + 90 + 75 + 95 + 80}{5} = \frac{425}{5} = 85

第2-4步:计算离差平方和 我们可以用一个表格来清晰地展示这个过程:

| 学生成绩 (xi x_i ) | 离差 (xixˉ x_i - \bar{x} ) | 离差平方 ((xixˉ)2 (x_i - \bar{x})^2 ) | | :---: | :---: | :---: | | 85 | 8585=0 85 - 85 = 0 | 02=0 0^2 = 0 | | 90 | 9085=5 90 - 85 = 5 | 52=25 5^2 = 25 | | 75 | 7585=10 75 - 85 = -10 | (10)2=100 (-10)^2 = 100 | | 95 | 9585=10 95 - 85 = 10 | 102=100 10^2 = 100 | | 80 | 8085=5 80 - 85 = -5 | (5)2=25 (-5)^2 = 25 | | 总和 | 0 | (xixˉ)2=250 \sum(x_i - \bar{x})^2 = 250 |

离差平方和为 250。

第5步:计算样本方差 (s2 s^2 ) 样本容量 n=5 n=5 ,所以自由度是 n1=4 n-1=4

s2=25051=2504=62.5s^2 = \frac{250}{5-1} = \frac{250}{4} = 62.5

第6步:计算样本标准差 (s s )

s=62.57.91s = \sqrt{62.5} \approx 7.91

因此,这组成绩的样本标准差约为 7.91 分。

解释与应用

样本标准差的值提供了关于数据分布的关键信息:

  • 衡量分散性:它是数据点围绕样本均值分散程度的量度。一个较大的标准差意味着数据点分布范围更广,波动性更大;一个较小的标准差则意味着数据点更紧密地聚集在均值周围。
  • 与方差的关系:标准差是方差的平方根。它的一个主要优点是其单位与原始数据相同(在我们的例子中是"分"),这使得它比方差(单位是"平方分")更具直观解释性。
  • 在推断统计中的作用:样本标准差是许多统计推断方法的基础,包括:
  • 构建置信区间 (Confidence Interval):例如,在估计总体均值的置信区间时,样本标准差是计算标准误 (Standard Error) 的关键组成部分。
  • 进行假设检验 (Hypothesis Testing):例如,在进行 t-检验 (t-test) 时,需要用到样本标准差来计算 t-统计量。

与总体标准差的对比

区分样本标准差 (s s ) 和总体标准差 (σ \sigma ) 至关重要。

| 特征 | 样本标准差 (s s ) | 总体标准差 (σ \sigma ) | | :--- | :--- | :--- | | 定义 | 一个样本数据的离散程度。是一个统计量。 | 整个总体数据的离散程度。是一个参数。 | | 目的 | 描述样本的变异性,并作为 σ \sigma 的一个估计。 | 描述总体的真实变异性。 | | 计算公式 |

s=(xixˉ)2n1s = \sqrt{\frac{\sum(x_i - \bar{x})^2}{n-1}}

| σ\sigma = \sqrt{(Xiμ)2N\frac{\sum(X_i - \mu)^2}{N}} | | 分母 | n1 n-1 (样本容量减一) | N N (总体容量) | | 均值 | 使用样本均值 xˉ \bar{x} | 使用总体均值 μ \mu | | 可知性 | 通常可以在实践中计算得出。 | 通常是未知的,需要通过 s s 来估计。 |

在实际研究和分析中,我们几乎总是处理样本数据,因为普查整个总体往往是不现实或不可能的。因此,样本标准差是我们最常使用和计算的离散度度量。