# 样本方差 (Sample Variance)
样本方差 (Sample Variance),在{{{统计学}}}中用符号 $s^2$ 表示,是用于衡量一组{{{样本}}}数据离散程度的核心{{{描述性统计}}}量之一。它量化了样本中各个观测值相对于其{{{样本均值}}}的平均偏离程度的平方。更重要的是,在{{{推断统计学}}}中,样本方差是总体方差 (Population Variance) 的一个关键{{{估计量}}} (Estimator)。
## 定义与公式
对于一个包含 $n$ 个观测值的样本 $\{x_1, x_2, \dots, x_n\}$,其样本方差 $s^2$ 的计算公式为:
$$ s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2 $$
其中: * $s^2$ 是样本方差。 * $n$ 是样本容量或样本大小 (Sample Size)。 * $x_i$ 是样本中的第 $i$ 个观测值。 * $\bar{x}$ 是样本均值 (Sample Mean),其计算公式为 $\bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i$。 * $(x_i - \bar{x})$ 是每个观测值与样本均值之间的离差 (Deviation)。 * $\sum_{i=1}^{n} (x_i - \bar{x})^2$ 是离差平方和 (Sum of Squared Deviations),也常被称为{{{Sum of Squares}}} (SS)。
可以看出,样本方差的计算逻辑是:先计算出数据与均值的差值,然后将这些差值平方(以消除正负号并放大较远的偏差),再将它们加总,最后除以一个特定的值。
## 核心概念:为何除以 $n-1$?
在样本方差的公式中,分母使用 $n-1$ 而不是样本量 $n$ 是一个至关重要且常引起困惑的细节。这与样本方差作为{{{总体方差}}} $\sigma^2$ 的估计量的性质有关。这个调整被称为贝塞尔校正 (Bessel's Correction)。
目标:在大多数统计应用中,我们计算样本方差的目的并不仅仅是为了描述当前样本,而是为了用它来推断我们无法观测到的整个{{{总体}}}的{{{方差}}} $\sigma^2$。
问题:如果我们使用样本均值 $\bar{x}$ 来计算离差,并用样本量 $n$ 作为分母,即 $\frac{1}{n} \sum (x_i - \bar{x})^2$ ,那么我们得到的这个估计量在多次抽样中,其平均值会系统性地小于真实的总体方差 $\sigma^2$。这样的估计量被称为{{{有偏估计量}}} (Biased Estimator)。
原因:偏差的来源在于我们使用了样本均值 $\bar{x}$ 而非总体均值 $\mu$。可以证明,一组数据的离差平方和围绕其自身均值($\bar{x}$)计算时,其值总是小于或等于围绕任何其他值(包括真实的总体均值 $\mu$)计算的离差平方和。即 $\sum (x_i - \bar{x})^2 \le \sum (x_i - \mu)^2$。因此,使用 $\bar{x}$ 会导致计算出的离差平方和偏小。
修正:通过将分母从 $n$ 减小到 $n-1$,我们人为地增大了计算结果的数值。这个调整恰好可以修正因使用 $\bar{x}$ 带来的系统性低估。经过这个修正后,样本方差 $s^2$ 就成为了总体方差 $\sigma^2$ 的{{{无偏估计量}}} (Unbiased Estimator)。这意味着,如果我们从同一个总体中抽取大量不同的样本,并计算每个样本的 $s^2$,那么所有这些 $s^2$ 的平均值将会非常接近真实的总体方差 $\sigma^2$。
### 自由度 (Degrees of Freedom)
分母 $n-1$ 也被称为{{{自由度}}} (Degrees of Freedom)。其直观理解是:在计算样本方差时,由于样本均值 $\bar{x}$ 已经被确定,样本中的 $n$ 个离差 $(x_i - \bar{x})$ 并不是完全独立的。因为所有离差的总和必须为零,即 $\sum_{i=1}^{n} (x_i - \bar{x}) = 0$。所以,一旦我们知道了前 $n-1$ 个离差的值,第 $n$ 个离差的值就已经被确定了。因此,在这个计算中,只有 $n-1$ 个信息是“自由”变化的。
## 与总体方差的区别
必须明确区分样本方差 ($s^2$) 和{{{总体方差}}} ($\sigma^2$)。
| 特性 | 样本方差 ($s^2$) | 总体方差 ($\sigma^2$) | | :--- | :--- | :--- | | 定义 | 一个从总体中抽取的样本的方差 | 整个总体的方差 | | 目的 | 作为总体方差的估计量,描述样本离散度 | 描述总体离散度的真实{{{参数}}} (Parameter) | | 计算公式 | $s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2$ | $\sigma^2 = \frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2$ | | 均值 | 使用样本均值 $\bar{x}$ | 使用总体均值 $\mu$ | | 分母 | $n-1$ (自由度) | $N$ (总体大小) | | 符号 | $s^2$ (拉丁字母,统计量) | $\sigma^2$ (希腊字母,参数) |
在实践中,总体方差 $\sigma^2$ 通常是未知的,我们只能通过计算样本方差 $s^2$ 来对其进行估计。
## 计算步骤示例
假设我们有一个样本,包含5名学生的测验成绩:$\{85, 90, 75, 80, 95\}$。
第一步:计算样本均值 $\bar{x}$ $$ \bar{x} = \frac{85 + 90 + 75 + 80 + 95}{5} = \frac{425}{5} = 85 $$
第二步:计算每个观测值的离差 $(x_i - \bar{x})$ * $85 - 85 = 0$ * $90 - 85 = 5$ * $75 - 85 = -10$ * $80 - 85 = -5$ * $95 - 85 = 10$
第三步:计算离差的平方 $(x_i - \bar{x})^2$ * $0^2 = 0$ * $5^2 = 25$ * $(-10)^2 = 100$ * $(-5)^2 = 25$ * $10^2 = 100$
第四步:计算离差平方和 $\sum(x_i - \bar{x})^2$ $$ \sum(x_i - \bar{x})^2 = 0 + 25 + 100 + 25 + 100 = 250 $$
第五步:除以自由度 $n-1$ 得到样本方差 $s^2$ 样本量 $n=5$,所以自由度为 $n-1 = 4$。 $$ s^2 = \frac{250}{4} = 62.5 $$ 因此,该样本成绩的样本方差为 62.5。
## 性质与应用
* 单位问题:样本方差的单位是原始数据单位的平方(例如,如果数据是“米”,方差的单位就是“平方米”),这使得其在直观解释上存在困难。为了解决这个问题,我们通常使用它的平方根——{{{样本标准差}}} (Sample Standard Deviation),$s = \sqrt{s^2}$。在上面的例子中,样本标准差 $s = \sqrt{62.5} \approx 7.91$。 * 非负性:方差永远是非负的。当且仅当所有样本观测值都相同时,方差为0。 * 在统计推断中的应用:样本方差是许多重要统计推断方法的基础,包括: * {{{假设检验}}}:例如,在{{{t检验}}}中,样本方差被用来计算t统计量,以比较两个或多个群体的均值。 * {{{置信区间}}}:在为总体均值或总体方差构建{{{置信区间}}}时,样本方差是关键的组成部分。 * {{{方差分析}}} (ANOVA):该方法直接比较不同组间的样本方差,以判断这些组的总体均值是否存在显著差异。 * {{{回归分析}}}:在评估回归模型的拟合优度时,需要用到残差的方差。