# 贝塞尔校正 (Bessel's Correction)
贝塞尔校正 (Bessel's Correction) 是{{{统计学}}}中用于修正以{{{样本}}}数据估算{{{总体方差}}} (population variance) 时产生的系统性偏差 (bias) 的一种方法。此修正以19世纪德国数学家和天文学家[[弗里德里希·贝塞尔]] (Friedrich Bessel) 的名字命名。其核心思想在于,计算{{{样本方差}}} (sample variance) 并将其作为{{{总体方差}}}的{{{估计量}}}时,分母应使用 $n-1$ 而不是样本容量 $n$。
使用 $n-1$ 作为除数的样本方差,被称为 无偏样本方差 (unbiased sample variance),它对总体方差提供了一个{{{无偏估计}}}。
## 为什么需要校正:估计偏差问题
在统计推断中,我们通常无法获取整个{{{总体}}}的数据,而是通过抽取一个{{{样本}}}来推断总体的{{{参数}}}。{{{方差}}}是衡量数据离散程度的关键参数。
* {{{总体方差}}} ($\sigma^2$):描述了整个总体中数据点与其{{{总体均值}}} $\mu$ 的偏离程度。其定义为: $$ \sigma^2 = \frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2 $$ 其中 $N$ 是总体的大小,$\mu$ 是总体的平均值。
* 估计问题:在实践中,我们通常不知道总体均值 $\mu$。因此,我们使用从样本中计算出的{{{样本均值}}} $\bar{x}$ 来代替它。一个直观的总体方差估计量可能是计算样本数据点与其自身均值 $\bar{x}$ 的平均平方偏差,即: $$ s_n^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2 $$ 其中 $n$ 是样本容量。这个量确实是样本数据本身的方差,但作为对总体方差 $\sigma^2$ 的估计,它是有偏的。
偏差的根源在于:对于任意一组数据,其数据点离其自身均值(样本均值 $\bar{x}$)的平方和,总是小于或等于其离任何其他常数(包括未知的总体均值 $\mu$)的平方和。即: $$ \sum_{i=1}^{n} (x_i - \bar{x})^2 \le \sum_{i=1}^{n} (x_i - \mu)^2 $$
由于我们用 $\bar{x}$ 替代了 $\mu$,我们实质上是选择了能使平方和最小化的那个中心点。这导致计算出的偏差平方和系统性地偏小,从而低估了真实的总体方差。
## 数学推导与校正公式
为了理解并修正这种偏差,我们需要运用{{{期望值}}} ($E[\cdot]$) 的概念来检验估计量的性质。一个好的估计量应该是 {{{无偏}}} 的,即其期望值应等于它所要估计的参数。
我们来检验上面提到的估计量 $s_n^2$ 的期望值:
1. 首先,我们将偏差平方和 $\sum (x_i - \bar{x})^2$ 进行代数展开。在式中加入并减去总体均值 $\mu$: $$ \sum_{i=1}^{n} (x_i - \bar{x})^2 = \sum_{i=1}^{n} [(x_i - \mu) - (\bar{x} - \mu)]^2 $$
2. 展开这个平方项: $$ \sum_{i=1}^{n} \left[ (x_i - \mu)^2 - 2(x_i - \mu)(\bar{x} - \mu) + (\bar{x} - \mu)^2 \right] $$
3. 将求和符号分配到各项: $$ \sum_{i=1}^{n} (x_i - \mu)^2 - 2(\bar{x} - \mu) \sum_{i=1}^{n} (x_i - \mu) + \sum_{i=1}^{n} (\bar{x} - \mu)^2 $$
4. 根据样本均值的定义,我们知道 $\sum (x_i - \mu) = n(\bar{x} - \mu)$。代入上式: $$ \sum (x_i - \mu)^2 - 2(\bar{x} - \mu) \cdot n(\bar{x} - \mu) + n(\bar{x} - \mu)^2 $$ $$ = \sum_{i=1}^{n} (x_i - \mu)^2 - n(\bar{x} - \mu)^2 $$
5. 现在,我们对这个表达式取期望值: $$ E\left[\sum_{i=1}^{n} (x_i - \bar{x})^2\right] = E\left[\sum_{i=1}^{n} (x_i - \mu)^2\right] - E\left[n(\bar{x} - \mu)^2\right] $$
6. 根据期望的线性性质和方差的定义: * $E[(x_i - \mu)^2] = \sigma^2$ (总体方差的定义)。因此,$E\left[\sum (x_i - \mu)^2\right] = \sum E[(x_i - \mu)^2] = n\sigma^2$。 * $E[(\bar{x} - \mu)^2]$ 是样本均值 $\bar{x}$ 的方差,记为 $Var(\bar{x})$。根据{{{中心极限定理}}}相关推论, $Var(\bar{x}) = \frac{\sigma^2}{n}$。
7. 将这些结果代入第5步的等式: $$ E\left[\sum_{i=1}^{n} (x_i - \bar{x})^2\right] = n\sigma^2 - n\left(\frac{\sigma^2}{n}\right) = n\sigma^2 - \sigma^2 = (n-1)\sigma^2 $$
8. 最后,我们计算有偏估计量 $s_n^2 = \frac{1}{n} \sum (x_i - \bar{x})^2$ 的期望值: $$ E[s_n^2] = \frac{1}{n} E\left[\sum_{i=1}^{n} (x_i - \bar{x})^2\right] = \frac{1}{n} (n-1)\sigma^2 = \frac{n-1}{n}\sigma^2 $$ 这个结果表明,$s_n^2$ 的期望值并不是 $\sigma^2$,而是比它小了一个因子 $\frac{n-1}{n}$。因此,它是一个有偏估计量。
为了得到一个无偏估计,我们只需将 $s_n^2$ 乘以一个校正因子 $\frac{n}{n-1}$ 即可。这就引出了 无偏样本方差 的公式,通常用 $s^2$ 表示: $$ s^2 = \frac{n}{n-1} s_n^2 = \frac{n}{n-1} \left( \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2 \right) = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2 $$ 这个使用 $n-1$ 作为分母的公式,就是应用了贝塞尔校正的结果。它的期望值为: $$ E[s^2] = E\left[\frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2\right] = \frac{1}{n-1} (n-1)\sigma^2 = \sigma^2 $$ 因此,$s^2$ 是总体方差 $\sigma^2$ 的一个{{{无偏估计量}}}。
## 自由度 (Degrees of Freedom)
分母中的 $n-1$ 通常被称为{{{自由度}}}。这提供了一个理解贝塞尔校正的直观方式。自由度是指在计算一个统计量时,可以自由变化的数据值的数量。
在计算样本方差时,我们首先需要计算样本均值 $\bar{x}$。一旦 $\bar{x}$ 被确定,样本中的数据点就不再是完全独立的了。它们受到一个约束:所有数据点与样本均值的偏差之和必须为零。 $$ \sum_{i=1}^{n} (x_i - \bar{x}) = 0 $$ 这意味着,如果我们知道了前 $n-1$ 个数据点的值和样本均值,那么最后一个数据点的值就完全确定了,它不能自由变化。因此,在用于估计方差的 $n$ 个偏差 $(x_i - \bar{x})$ 中,只有 $n-1$ 个是独立的。我们实际上是用 $n-1$ 个独立的信息片段来估计总体的离散程度,所以平均每个独立信息的贡献时,应该除以 $n-1$ 而不是 $n$。
## 实际应用与注意事项
* 样本大小的影响:当样本容量 $n$ 很大时,校正因子 $\frac{n}{n-1}$ 非常接近1,因此校正与否差异很小。例如,当 $n=100$ 时,因子为 $100/99 \approx 1.01$。然而,当处理{{{小样本}}}时(例如 $n=5$),因子为 $5/4 = 1.25$,此时贝塞尔校正就显得至关重要。
* 描述性统计 vs. 推断性统计: * 在{{{推断性统计}}} (inferential statistics) 中,我们的目标是使用样本来估计总体参数,此时应使用贝塞尔校正后的无偏样本方差 $s^2$(分母为 $n-1$)。 * 在{{{描述性统计}}} (descriptive statistics) 中,如果我们仅关心描述样本数据本身的特征,而不做任何关于总体的推断,那么使用分母为 $n$ 的方差 $s_n^2$ 是完全正确的,因为它准确地描述了该样本数据的离散程度。
* 对标准差的估计:一个重要的细节是,虽然 $s^2$ 是 $\sigma^2$ 的无偏估计,但其平方根 $s = \sqrt{\frac{\sum(x_i - \bar{x})^2}{n-1}}$ (即{{{样本标准差}}}) 并不是 {{{总体标准差}}} $\sigma$ 的无偏估计。由于平方根函数是一个凹函数,根据{{{琴生不等式}}} (Jensen's Inequality),$E[s] = E[\sqrt{s^2}] \le \sqrt{E[s^2]} = \sigma$。这表明样本标准差 $s$ 倾向于略微低估总体标准差 $\sigma$。尽管如此,在大多数应用中,这种偏差很小,因此 $s$ 仍然是实践中最常用的 $\sigma$ 的估计量。
### 总结比较
| 术语 | 公式 | 分母 | 用途与性质 | | :--- | :--- | :--- | :--- | | {{{总体方差}}} | $\sigma^2 = \frac{\sum (x_i - \mu)^2}{N}$ | $N$ | 描述整个总体的真实方差,是一个未知的{{{参数}}}。 | | 样本的方差 | $s_n^2 = \frac{\sum (x_i - \bar{x})^2}{n}$ | $n$ | 描述样本数据自身的离散程度。作为对$\sigma^2$的估计是有偏的。 | | 无偏样本方差 | $s^2 = \frac{\sum (x_i - \bar{x})^2}{n-1}$ | $n-1$ | 对总体方差 $\sigma^2$ 的{{{无偏估计量}}}。在统计推断中使用。 |