ARTICLE

样本方差

样本方差 (Sample Variance) 样本方差 (Sample Variance),在统计学中用符号 s^2 表示,是用于衡量一组样本数据离散程度的核心描述性统计量之一。它量化了样本中各个观测值相对于其样本均值的平均偏离程度的平方。更重要的是,在推断统计学中,样本方差是总体方差 (Population Variance) 的一个关键估计量 (Esti

浏览 35 更新 2025-10-26

样本方差 (Sample Variance)

样本方差 (Sample Variance),在统计学中用符号 s2 s^2 表示,是用于衡量一组样本数据离散程度的核心描述性统计量之一。它量化了样本中各个观测值相对于其样本均值的平均偏离程度的平方。更重要的是,在推断统计学中,样本方差是总体方差 (Population Variance) 的一个关键估计量 (Estimator)。

定义与公式

对于一个包含 n n 个观测值的样本 {x1,x2,,xn} \{x_1, x_2, \dots, x_n\} ,其样本方差 s2 s^2 的计算公式为:

s2=1n1i=1n(xixˉ)2s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2

其中:

  • s2 s^2 样本方差
  • n n 是样本容量或样本大小 (Sample Size)。
  • xi x_i 是样本中的第 i i 个观测值。
  • xˉ \bar{x} 样本均值 (Sample Mean),其计算公式为 xˉ=1ni=1nxi \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i
  • (xixˉ) (x_i - \bar{x}) 是每个观测值与样本均值之间的离差 (Deviation)。
  • i=1n(xixˉ)2 \sum_{i=1}^{n} (x_i - \bar{x})^2 离差平方和 (Sum of Squared Deviations),也常被称为Sum of Squares (SS)。

可以看出,样本方差的计算逻辑是:先计算出数据与均值的差值,然后将这些差值平方(以消除正负号并放大较远的偏差),再将它们加总,最后除以一个特定的值。

计算简化公式

在实际手工计算中,离差平方和可以采用更简便的等价形式:

i=1n(xixˉ)2=i=1nxi2(i=1nxi)2n\sum_{i=1}^{n} (x_i - \bar{x})^2 = \sum_{i=1}^{n} x_i^2 - \frac{(\sum_{i=1}^{n} x_i)^2}{n}

这一形式避免了逐一计算离差及平方的过程,仅需先求得数据的平方和与和的平方,即可快速获得结果。

核心概念:为何除以 n1 n-1

在样本方差的公式中,分母使用 n1 n-1 而不是样本量 n n 是一个至关重要且常引起困惑的细节。这与样本方差作为总体方差 σ2 \sigma^2 的估计量的性质有关。这个调整被称为贝塞尔校正 (Bessel's Correction)

目标:在大多数统计应用中,我们计算样本方差的目的并不仅仅是为了描述当前样本,而是为了用它来推断我们无法观测到的整个总体方差 σ2 \sigma^2

问题:如果我们使用样本均值 xˉ \bar{x} 来计算离差,并用样本量 n n 作为分母,即 1n(xixˉ)2 \frac{1}{n} \sum (x_i - \bar{x})^2 ,那么我们得到的这个估计量在多次抽样中,其平均值会系统性地小于真实的总体方差 σ2 \sigma^2 。这样的估计量被称为有偏估计量 (Biased Estimator)

原因:偏差的来源在于我们使用了样本均值 xˉ \bar{x} 而非总体均值 μ \mu 。可以证明,一组数据的离差平方和围绕其自身均值(xˉ \bar{x} )计算时,其值总是小于或等于围绕任何其他值(包括真实的总体均值 μ \mu )计算的离差平方和。即 (xixˉ)2(xiμ)2 \sum (x_i - \bar{x})^2 \le \sum (x_i - \mu)^2 。因此,使用 xˉ \bar{x} 会导致计算出的离差平方和偏小。

修正:通过将分母从 n n 减小到 n1 n-1 ,我们人为地增大了计算结果的数值。这个调整恰好可以修正因使用 xˉ \bar{x} 带来的系统性低估。经过这个修正后,样本方差 s2 s^2 就成为了总体方差 σ2 \sigma^2 无偏估计量 (Unbiased Estimator)。这意味着,如果我们从同一个总体中抽取大量不同的样本,并计算每个样本的 s2 s^2 ,那么所有这些 s2 s^2 的平均值将会非常接近真实的总体方差 σ2 \sigma^2

自由度 (Degrees of Freedom)

分母 n1 n-1 也被称为自由度 (Degrees of Freedom)。其直观理解是:在计算样本方差时,由于样本均值 xˉ \bar{x} 已经被确定,样本中的 n n 个离差 (xixˉ) (x_i - \bar{x}) 并不是完全独立的。因为所有离差的总和必须为零,即 i=1n(xixˉ)=0 \sum_{i=1}^{n} (x_i - \bar{x}) = 0 。所以,一旦我们知道了前 n1 n-1 个离差的值,第 n n 个离差的值就已经被确定了。因此,在这个计算中,只有 n1 n-1 个信息是"自由"变化的。

与总体方差的区别

必须明确区分样本方差 (s2 s^2 ) 和总体方差 (σ2 \sigma^2 )。

| 特性 | 样本方差 (s2 s^2 ) | 总体方差 (σ2 \sigma^2 ) | | :--- | :--- | :--- | | 定义 | 一个从总体中抽取的样本的方差 | 整个总体的方差 | | 目的 | 作为总体方差的估计量,描述样本离散度 | 描述总体离散度的真实参数 (Parameter) | | 计算公式 | s2=1n1i=1n(xixˉ)2 s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2 | σ2=1Ni=1N(xiμ)2 \sigma^2 = \frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2 | | 均值 | 使用样本均值 xˉ \bar{x} | 使用总体均值 μ \mu | | 分母 | n1 n-1 (自由度) | N N (总体大小) | | 符号 | s2 s^2 (拉丁字母,统计量) | σ2 \sigma^2 (希腊字母,参数) |

在实践中,总体方差 σ2 \sigma^2 通常是未知的,我们只能通过计算样本方差 s2 s^2 来对其进行估计。

计算步骤示例

假设我们有一个样本,包含5名学生的测验成绩:{85,90,75,80,95} \{85, 90, 75, 80, 95\}

第一步:计算样本均值 xˉ \bar{x}

xˉ=85+90+75+80+955=4255=85\bar{x} = \frac{85 + 90 + 75 + 80 + 95}{5} = \frac{425}{5} = 85

第二步:计算每个观测值的离差 (xixˉ) (x_i - \bar{x})

  • 8585=0 85 - 85 = 0
  • 9085=5 90 - 85 = 5
  • 7585=10 75 - 85 = -10
  • 8085=5 80 - 85 = -5
  • 9585=10 95 - 85 = 10

第三步:计算离差的平方 (xixˉ)2 (x_i - \bar{x})^2

  • 02=0 0^2 = 0
  • 52=25 5^2 = 25
  • (10)2=100 (-10)^2 = 100
  • (5)2=25 (-5)^2 = 25
  • 102=100 10^2 = 100

第四步:计算离差平方和 (xixˉ)2 \sum(x_i - \bar{x})^2

(xixˉ)2=0+25+100+25+100=250\sum(x_i - \bar{x})^2 = 0 + 25 + 100 + 25 + 100 = 250

第五步:除以自由度 n1 n-1 得到样本方差 s2 s^2 样本量 n=5 n=5 ,所以自由度为 n1=4 n-1 = 4

s2=2504=62.5s^2 = \frac{250}{4} = 62.5

因此,该样本成绩的样本方差为 62.5。

性质与应用

  • 单位问题:样本方差的单位是原始数据单位的平方(例如,如果数据是"米",方差的单位就是"平方米"),这使得其在直观解释上存在困难。为了解决这个问题,我们通常使用它的平方根——样本标准差 (Sample Standard Deviation)s=s2 s = \sqrt{s^2} 。在上面的例子中,样本标准差 s=62.57.91 s = \sqrt{62.5} \approx 7.91
  • 非负性:方差永远是非负的。当且仅当所有样本观测值都相同时,方差为0。
  • 对异常值的敏感性:由于计算公式中涉及平方运算,样本方差对极端值(异常值)非常敏感。单个离群点可能大幅推高方差值,因此在分析含有异常值的数据时,有时会考虑使用更稳健的离散度度量,如四分位距 (IQR)。
  • 抽样分布:当总体服从正态分布时,样本方差与总体方差的比值服从卡方分布(Chi-Square Distribution),即 (n1)s2σ2χn12 \frac{(n-1)s^2}{\sigma^2} \sim \chi^2_{n-1} 。这一性质是置信区间构造和假设检验中关于方差推断的理论基础。
  • 在统计推断中的应用:样本方差是许多重要统计推断方法的基础,包括:
  • 假设检验:例如,在t检验中,样本方差被用来计算t统计量,以比较两个或多个群体的均值。
  • 置信区间:在为总体均值或总体方差构建置信区间时,样本方差是关键的组成部分。
  • 方差分析 (ANOVA):该方法直接比较不同组间的样本方差,以判断这些组的总体均值是否存在显著差异。
  • 回归分析:在评估回归模型的拟合优度时,需要用到残差的方差。
  • 分组数据的样本方差:当数据以频率分布形式呈现时,可先计算各组组中值与频数的加权均值,再以加权方式计算离差平方和,最终获得样本方差的近似值。这一方法广泛应用于大规模调查数据的初步分析中。