ARTICLE
样本标准差
样本标准差 (Sample Standard Deviation) 样本标准差 (Sample Standard Deviation) 是统计学中衡量一组样本数据点离散程度或变异性的核心指标。它量化了样本中各个观测值与其样本均值的平均偏离距离。在推断统计学中,样本标准差是一个至关重要的统计量,因为它通常被用作对未知总体标准差 (Population Stan
样本标准差 (Sample Standard Deviation)
样本标准差 (Sample Standard Deviation) 是统计学中衡量一组样本数据点离散程度或变异性的核心指标。它量化了样本中各个观测值与其样本均值的平均偏离距离。在推断统计学中,样本标准差是一个至关重要的统计量,因为它通常被用作对未知总体标准差 (Population Standard Deviation) 的估计量。
样本标准差通常用小写字母 或 表示。
计算公式
样本标准差的计算公式如下:
其中:
公式的核心部分是 ,被称为 离差(deviation),即单个数据点与样本均值的差异。样本标准差本质上是这些离差的平方和的平均值的平方根。
关键概念:为什么除以 n-1?(贝塞尔校正)
在公式中,分母使用 而不是 是一个非常关键且经常引起困惑的点。这种调整被称为 贝塞尔校正 (Bessel's Correction)。
其根本原因在于,我们使用样本数据计算出的统计量(如样本标准差)是为了估计总体的相应参数(总体标准差)。
- 自由度 (Degrees of Freedom) 的损失:当我们计算样本标准差时,我们首先需要计算样本均值 。一旦样本均值 被确定,样本中的数据点就不再是完全独立的了。具体来说,如果我们知道其中 个数据点的值和样本均值,那么最后一个数据点的值就完全确定了,因为它必须满足所有数据点总和为 的条件。因此,在计算离差平方和时,只有 个值可以"自由"变化。这个可以自由变化的数据点的数量就是自由度。
- 获得无偏估计量 (Unbiased Estimator):统计学中的一个理想性质是估计量具有无偏性。对于方差而言,如果使用 作为分母来计算样本方差 ,那么 就是对总体方差 的一个无偏估计量。这意味着,如果我们从同一个总体中抽取无数个相同大小的样本,并计算每个样本的方差 ,那么这些 的平均值将会精确地等于总体方差 。相反,如果分母使用 ,得到的样本方差会系统性地低估总体方差,成为一个有偏估计量。
需要注意的是,虽然 是 的无偏估计量,但它的平方根 (样本标准差)实际上是总体标准差 的一个有偏估计量(尽管偏差很小,并且随着样本容量 的增大而趋近于零)。然而,在实践中, 仍然是估计 最常用和最广泛接受的方法。
计算步骤
计算样本标准差可以分解为以下几个清晰的步骤:
- 计算样本均值 ():将样本中所有数据点的值相加,然后除以数据点的数量 。
- 计算每个数据点的离差:用每个数据点 减去样本均值 ,得到 。
- 计算离差的平方:将上一步得到的每个离差进行平方,得到 。这一步可以确保所有值都是非负的,并放大了远离均值的值的影响。
- 求离差平方和 (Sum of Squares):将所有离差的平方相加,得到 。
- 计算样本方差 ():将离差平方和除以自由度 。这个结果就是样本方差。
- 计算样本标准差 ():取样本方差的非负平方根,即可得到样本标准差 。
计算示例
假设我们有一个样本,记录了5名学生某次测试的成绩(满分100):{85, 90, 75, 95, 80}。我们来计算这个样本的标准差。
第1步:计算样本均值 ()
第2-4步:计算离差平方和 我们可以用一个表格来清晰地展示这个过程:
| 学生成绩 () | 离差 () | 离差平方 () | | :---: | :---: | :---: | | 85 | | | | 90 | | | | 75 | | | | 95 | | | | 80 | | | | 总和 | 0 | |
离差平方和为 250。
第5步:计算样本方差 () 样本容量 ,所以自由度是 。
第6步:计算样本标准差 ()
因此,这组成绩的样本标准差约为 7.91 分。
解释与应用
样本标准差的值提供了关于数据分布的关键信息:
- 衡量分散性:它是数据点围绕样本均值分散程度的量度。一个较大的标准差意味着数据点分布范围更广,波动性更大;一个较小的标准差则意味着数据点更紧密地聚集在均值周围。
- 与方差的关系:标准差是方差的平方根。它的一个主要优点是其单位与原始数据相同(在我们的例子中是"分"),这使得它比方差(单位是"平方分")更具直观解释性。
- 在推断统计中的作用:样本标准差是许多统计推断方法的基础,包括:
- 构建置信区间 (Confidence Interval):例如,在估计总体均值的置信区间时,样本标准差是计算标准误 (Standard Error) 的关键组成部分。
- 进行假设检验 (Hypothesis Testing):例如,在进行 t-检验 (t-test) 时,需要用到样本标准差来计算 t-统计量。
与总体标准差的对比
区分样本标准差 () 和总体标准差 () 至关重要。
| 特征 | 样本标准差 () | 总体标准差 () | | :--- | :--- | :--- | | 定义 | 一个样本数据的离散程度。是一个统计量。 | 整个总体数据的离散程度。是一个参数。 | | 目的 | 描述样本的变异性,并作为 的一个估计。 | 描述总体的真实变异性。 | | 计算公式 |
| = \sqrt{} | | 分母 | (样本容量减一) | (总体容量) | | 均值 | 使用样本均值 | 使用总体均值 | | 可知性 | 通常可以在实践中计算得出。 | 通常是未知的,需要通过 来估计。 |
在实际研究和分析中,我们几乎总是处理样本数据,因为普查整个总体往往是不现实或不可能的。因此,样本标准差是我们最常使用和计算的离散度度量。