ARTICLE

贝塞尔校正

贝塞尔校正 (Bessel's Correction) 贝塞尔校正 (Bessel's Correction) 是统计学中用于修正以样本数据估算总体方差 (population variance) 时产生的系统性偏差 (bias) 的一种方法。此修正以19世纪德国数学家和天文学家[[弗里德里希·贝塞尔]] (Friedrich Bessel) 的名字命名。其

浏览 60 更新 2025-10-26

贝塞尔校正 (Bessel's Correction)

贝塞尔校正 (Bessel's Correction) 是统计学中用于修正以样本数据估算总体方差 (population variance) 时产生的系统性偏差 (bias) 的一种方法。此修正以19世纪德国数学家和天文学家[[弗里德里希·贝塞尔]] (Friedrich Bessel) 的名字命名。其核心思想在于,计算样本方差 (sample variance) 并将其作为总体方差估计量时,分母应使用 n1 n-1 而不是样本容量 n n

使用 n1 n-1 作为除数的样本方差,被称为 无偏样本方差 (unbiased sample variance),它对总体方差提供了一个无偏估计

为什么需要校正:估计偏差问题

在统计推断中,我们通常无法获取整个总体的数据,而是通过抽取一个样本来推断总体的参数方差是衡量数据离散程度的关键参数。

  • 总体方差 (σ2 \sigma^2 ):描述了整个总体中数据点与其总体均值 μ \mu 的偏离程度。其定义为:
σ2=1Ni=1N(xiμ)2\sigma^2 = \frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2

其中 N N 是总体的大小,μ \mu 是总体的平均值。

  • 估计问题:在实践中,我们通常不知道总体均值 μ \mu 。因此,我们使用从样本中计算出的样本均值 xˉ \bar{x} 来代替它。一个直观的总体方差估计量可能是计算样本数据点与其自身均值 xˉ \bar{x} 的平均平方偏差,即:
sn2=1ni=1n(xixˉ)2s_n^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2

其中 n n 是样本容量。这个量确实是样本数据本身的方差,但作为对总体方差 σ2 \sigma^2 的估计,它是有偏的。

偏差的根源在于:对于任意一组数据,其数据点离其自身均值(样本均值 xˉ \bar{x} )的平方和,总是小于或等于其离任何其他常数(包括未知的总体均值 μ \mu )的平方和。即:

i=1n(xixˉ)2i=1n(xiμ)2\sum_{i=1}^{n} (x_i - \bar{x})^2 \le \sum_{i=1}^{n} (x_i - \mu)^2

由于我们用 xˉ \bar{x} 替代了 μ \mu ,我们实质上是选择了能使平方和最小化的那个中心点。这导致计算出的偏差平方和系统性地偏小,从而低估了真实的总体方差。

数学推导与校正公式

为了理解并修正这种偏差,我们需要运用期望值 (E[] E[\cdot] ) 的概念来检验估计量的性质。一个好的估计量应该是 无偏 的,即其期望值应等于它所要估计的参数。

我们来检验上面提到的估计量 sn2 s_n^2 的期望值:

  1. 首先,我们将偏差平方和 (xixˉ)2 \sum (x_i - \bar{x})^2 进行代数展开。在式中加入并减去总体均值 μ \mu
i=1n(xixˉ)2=i=1n[(xiμ)(xˉμ)]2\sum_{i=1}^{n} (x_i - \bar{x})^2 = \sum_{i=1}^{n} [(x_i - \mu) - (\bar{x} - \mu)]^2
  1. 展开这个平方项:
i=1n[(xiμ)22(xiμ)(xˉμ)+(xˉμ)2]\sum_{i=1}^{n} \left[ (x_i - \mu)^2 - 2(x_i - \mu)(\bar{x} - \mu) + (\bar{x} - \mu)^2 \right]
  1. 将求和符号分配到各项:
i=1n(xiμ)22(xˉμ)i=1n(xiμ)+i=1n(xˉμ)2\sum_{i=1}^{n} (x_i - \mu)^2 - 2(\bar{x} - \mu) \sum_{i=1}^{n} (x_i - \mu) + \sum_{i=1}^{n} (\bar{x} - \mu)^2
  1. 根据样本均值的定义,我们知道 (xiμ)=n(xˉμ) \sum (x_i - \mu) = n(\bar{x} - \mu) 。代入上式:
(xiμ)22(xˉμ)n(xˉμ)+n(xˉμ)2\sum (x_i - \mu)^2 - 2(\bar{x} - \mu) \cdot n(\bar{x} - \mu) + n(\bar{x} - \mu)^2
=i=1n(xiμ)2n(xˉμ)2= \sum_{i=1}^{n} (x_i - \mu)^2 - n(\bar{x} - \mu)^2
  1. 现在,我们对这个表达式取期望值:
E[i=1n(xixˉ)2]=E[i=1n(xiμ)2]E[n(xˉμ)2]E\left[\sum_{i=1}^{n} (x_i - \bar{x})^2\right] = E\left[\sum_{i=1}^{n} (x_i - \mu)^2\right] - E\left[n(\bar{x} - \mu)^2\right]
  1. 根据期望的线性性质和方差的定义:
  • E[(xiμ)2]=σ2 E[(x_i - \mu)^2] = \sigma^2 (总体方差的定义)。因此,E[(xiμ)2]=E[(xiμ)2]=nσ2 E\left[\sum (x_i - \mu)^2\right] = \sum E[(x_i - \mu)^2] = n\sigma^2
  • E[(xˉμ)2] E[(\bar{x} - \mu)^2] 是样本均值 xˉ \bar{x} 的方差,记为 Var(xˉ) Var(\bar{x}) 。根据中心极限定理相关推论, Var(xˉ)=σ2n Var(\bar{x}) = \frac{\sigma^2}{n}
  1. 将这些结果代入第5步的等式:
E[i=1n(xixˉ)2]=nσ2n(σ2n)=nσ2σ2=(n1)σ2E\left[\sum_{i=1}^{n} (x_i - \bar{x})^2\right] = n\sigma^2 - n\left(\frac{\sigma^2}{n}\right) = n\sigma^2 - \sigma^2 = (n-1)\sigma^2
  1. 最后,我们计算有偏估计量 sn2=1n(xixˉ)2 s_n^2 = \frac{1}{n} \sum (x_i - \bar{x})^2 的期望值:
E[sn2]=1nE[i=1n(xixˉ)2]=1n(n1)σ2=n1nσ2E[s_n^2] = \frac{1}{n} E\left[\sum_{i=1}^{n} (x_i - \bar{x})^2\right] = \frac{1}{n} (n-1)\sigma^2 = \frac{n-1}{n}\sigma^2

这个结果表明,sn2 s_n^2 的期望值并不是 σ2 \sigma^2 ,而是比它小了一个因子 n1n \frac{n-1}{n} 。因此,它是一个有偏估计量。

为了得到一个无偏估计,我们只需将 sn2 s_n^2 乘以一个校正因子 nn1 \frac{n}{n-1} 即可。这就引出了 无偏样本方差 的公式,通常用 s2 s^2 表示:

s2=nn1sn2=nn1(1ni=1n(xixˉ)2)=1n1i=1n(xixˉ)2s^2 = \frac{n}{n-1} s_n^2 = \frac{n}{n-1} \left( \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2 \right) = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2

这个使用 n1 n-1 作为分母的公式,就是应用了贝塞尔校正的结果。它的期望值为:

E[s2]=E[1n1i=1n(xixˉ)2]=1n1(n1)σ2=σ2E[s^2] = E\left[\frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2\right] = \frac{1}{n-1} (n-1)\sigma^2 = \sigma^2

因此,s2 s^2 是总体方差 σ2 \sigma^2 的一个无偏估计量

自由度 (Degrees of Freedom)

分母中的 n1 n-1 通常被称为自由度。这提供了一个理解贝塞尔校正的直观方式。自由度是指在计算一个统计量时,可以自由变化的数据值的数量。

在计算样本方差时,我们首先需要计算样本均值 xˉ \bar{x} 。一旦 xˉ \bar{x} 被确定,样本中的数据点就不再是完全独立的了。它们受到一个约束:所有数据点与样本均值的偏差之和必须为零。

i=1n(xixˉ)=0\sum_{i=1}^{n} (x_i - \bar{x}) = 0

这意味着,如果我们知道了前 n1 n-1 个数据点的值和样本均值,那么最后一个数据点的值就完全确定了,它不能自由变化。因此,在用于估计方差的 n n 个偏差 (xixˉ) (x_i - \bar{x}) 中,只有 n1 n-1 个是独立的。我们实际上是用 n1 n-1 个独立的信息片段来估计总体的离散程度,所以平均每个独立信息的贡献时,应该除以 n1 n-1 而不是 n n

实际应用与注意事项

  • 样本大小的影响:当样本容量 n n 很大时,校正因子 nn1 \frac{n}{n-1} 非常接近1,因此校正与否差异很小。例如,当 n=100 n=100 时,因子为 100/991.01 100/99 \approx 1.01 。然而,当处理小样本时(例如 n=5 n=5 ),因子为 5/4=1.25 5/4 = 1.25 ,此时贝塞尔校正就显得至关重要。
  • 描述性统计 vs. 推断性统计
  • 推断性统计 (inferential statistics) 中,我们的目标是使用样本来估计总体参数,此时应使用贝塞尔校正后的无偏样本方差 s2 s^2 (分母为 n1 n-1 )。
  • 描述性统计 (descriptive statistics) 中,如果我们仅关心描述样本数据本身的特征,而不做任何关于总体的推断,那么使用分母为 n n 的方差 sn2 s_n^2 是完全正确的,因为它准确地描述了该样本数据的离散程度。
  • 对标准差的估计:一个重要的细节是,虽然 s2 s^2 σ2 \sigma^2 的无偏估计,但其平方根 s=(xixˉ)2n1 s = \sqrt{\frac{\sum(x_i - \bar{x})^2}{n-1}} (即样本标准差) 并不是 总体标准差 σ \sigma 的无偏估计。由于平方根函数是一个凹函数,根据琴生不等式 (Jensen's Inequality),E[s]=E[s2]E[s2]=σ E[s] = E[\sqrt{s^2}] \le \sqrt{E[s^2]} = \sigma 。这表明样本标准差 s s 倾向于略微低估总体标准差 σ \sigma 。尽管如此,在大多数应用中,这种偏差很小,因此 s s 仍然是实践中最常用的 σ \sigma 的估计量。

总结比较

| 术语 | 公式 | 分母 | 用途与性质 | | :--- | :--- | :--- | :--- | | 总体方差 | σ2=(xiμ)2N \sigma^2 = \frac{\sum (x_i - \mu)^2}{N} | N N | 描述整个总体的真实方差,是一个未知的参数。 | | 样本的方差 | sn2=(xixˉ)2n s_n^2 = \frac{\sum (x_i - \bar{x})^2}{n} | n n | 描述样本数据自身的离散程度。作为对σ2 \sigma^2 的估计是有偏的。 | | 无偏样本方差 | s2=(xixˉ)2n1 s^2 = \frac{\sum (x_i - \bar{x})^2}{n-1} | n1 n-1 | 对总体方差 σ2 \sigma^2 无偏估计量。在统计推断中使用。 |