贝塞尔校正 (Bessel's Correction)
贝塞尔校正 (Bessel's Correction) 是统计学中用于修正以样本数据估算总体方差 (population variance) 时产生的系统性偏差 (bias) 的一种方法。此修正以19世纪德国数学家和天文学家[[弗里德里希·贝塞尔]] (Friedrich Bessel) 的名字命名。其核心思想在于,计算样本方差 (sample variance) 并将其作为总体方差的估计量时,分母应使用 n−1 而不是样本容量 n。
使用 n−1 作为除数的样本方差,被称为 无偏样本方差 (unbiased sample variance),它对总体方差提供了一个无偏估计。
为什么需要校正:估计偏差问题
在统计推断中,我们通常无法获取整个总体的数据,而是通过抽取一个样本来推断总体的参数。方差是衡量数据离散程度的关键参数。
- 总体方差 (σ2):描述了整个总体中数据点与其总体均值 μ 的偏离程度。其定义为:
σ2=N1i=1∑N(xi−μ)2
其中 N 是总体的大小,μ 是总体的平均值。
- 估计问题:在实践中,我们通常不知道总体均值 μ。因此,我们使用从样本中计算出的样本均值 xˉ 来代替它。一个直观的总体方差估计量可能是计算样本数据点与其自身均值 xˉ 的平均平方偏差,即:
sn2=n1i=1∑n(xi−xˉ)2
其中 n 是样本容量。这个量确实是样本数据本身的方差,但作为对总体方差 σ2 的估计,它是有偏的。
偏差的根源在于:对于任意一组数据,其数据点离其自身均值(样本均值 xˉ)的平方和,总是小于或等于其离任何其他常数(包括未知的总体均值 μ)的平方和。即:
i=1∑n(xi−xˉ)2≤i=1∑n(xi−μ)2
由于我们用 xˉ 替代了 μ,我们实质上是选择了能使平方和最小化的那个中心点。这导致计算出的偏差平方和系统性地偏小,从而低估了真实的总体方差。
数学推导与校正公式
为了理解并修正这种偏差,我们需要运用期望值 (E[⋅]) 的概念来检验估计量的性质。一个好的估计量应该是 无偏 的,即其期望值应等于它所要估计的参数。
我们来检验上面提到的估计量 sn2 的期望值:
- 首先,我们将偏差平方和 ∑(xi−xˉ)2 进行代数展开。在式中加入并减去总体均值 μ:
i=1∑n(xi−xˉ)2=i=1∑n[(xi−μ)−(xˉ−μ)]2
- 展开这个平方项:
i=1∑n[(xi−μ)2−2(xi−μ)(xˉ−μ)+(xˉ−μ)2]
- 将求和符号分配到各项:
i=1∑n(xi−μ)2−2(xˉ−μ)i=1∑n(xi−μ)+i=1∑n(xˉ−μ)2
- 根据样本均值的定义,我们知道 ∑(xi−μ)=n(xˉ−μ)。代入上式:
∑(xi−μ)2−2(xˉ−μ)⋅n(xˉ−μ)+n(xˉ−μ)2
=i=1∑n(xi−μ)2−n(xˉ−μ)2
- 现在,我们对这个表达式取期望值:
E[i=1∑n(xi−xˉ)2]=E[i=1∑n(xi−μ)2]−E[n(xˉ−μ)2]
- 根据期望的线性性质和方差的定义:
- E[(xi−μ)2]=σ2 (总体方差的定义)。因此,E[∑(xi−μ)2]=∑E[(xi−μ)2]=nσ2。
- E[(xˉ−μ)2] 是样本均值 xˉ 的方差,记为 Var(xˉ)。根据中心极限定理相关推论, Var(xˉ)=nσ2。
- 将这些结果代入第5步的等式:
E[i=1∑n(xi−xˉ)2]=nσ2−n(nσ2)=nσ2−σ2=(n−1)σ2
- 最后,我们计算有偏估计量 sn2=n1∑(xi−xˉ)2 的期望值:
E[sn2]=n1E[i=1∑n(xi−xˉ)2]=n1(n−1)σ2=nn−1σ2
这个结果表明,sn2 的期望值并不是 σ2,而是比它小了一个因子 nn−1。因此,它是一个有偏估计量。
为了得到一个无偏估计,我们只需将 sn2 乘以一个校正因子 n−1n 即可。这就引出了 无偏样本方差 的公式,通常用 s2 表示:
s2=n−1nsn2=n−1n(n1i=1∑n(xi−xˉ)2)=n−11i=1∑n(xi−xˉ)2
这个使用 n−1 作为分母的公式,就是应用了贝塞尔校正的结果。它的期望值为:
E[s2]=E[n−11i=1∑n(xi−xˉ)2]=n−11(n−1)σ2=σ2
因此,s2 是总体方差 σ2 的一个无偏估计量。
自由度 (Degrees of Freedom)
分母中的 n−1 通常被称为自由度。这提供了一个理解贝塞尔校正的直观方式。自由度是指在计算一个统计量时,可以自由变化的数据值的数量。
在计算样本方差时,我们首先需要计算样本均值 xˉ。一旦 xˉ 被确定,样本中的数据点就不再是完全独立的了。它们受到一个约束:所有数据点与样本均值的偏差之和必须为零。
i=1∑n(xi−xˉ)=0
这意味着,如果我们知道了前 n−1 个数据点的值和样本均值,那么最后一个数据点的值就完全确定了,它不能自由变化。因此,在用于估计方差的 n 个偏差 (xi−xˉ) 中,只有 n−1 个是独立的。我们实际上是用 n−1 个独立的信息片段来估计总体的离散程度,所以平均每个独立信息的贡献时,应该除以 n−1 而不是 n。
实际应用与注意事项
- 样本大小的影响:当样本容量 n 很大时,校正因子 n−1n 非常接近1,因此校正与否差异很小。例如,当 n=100 时,因子为 100/99≈1.01。然而,当处理小样本时(例如 n=5),因子为 5/4=1.25,此时贝塞尔校正就显得至关重要。
- 描述性统计 vs. 推断性统计:
- 在推断性统计 (inferential statistics) 中,我们的目标是使用样本来估计总体参数,此时应使用贝塞尔校正后的无偏样本方差 s2(分母为 n−1)。
- 在描述性统计 (descriptive statistics) 中,如果我们仅关心描述样本数据本身的特征,而不做任何关于总体的推断,那么使用分母为 n 的方差 sn2 是完全正确的,因为它准确地描述了该样本数据的离散程度。
- 对标准差的估计:一个重要的细节是,虽然 s2 是 σ2 的无偏估计,但其平方根 s=n−1∑(xi−xˉ)2 (即样本标准差) 并不是 总体标准差 σ 的无偏估计。由于平方根函数是一个凹函数,根据琴生不等式 (Jensen's Inequality),E[s]=E[s2]≤E[s2]=σ。这表明样本标准差 s 倾向于略微低估总体标准差 σ。尽管如此,在大多数应用中,这种偏差很小,因此 s 仍然是实践中最常用的 σ 的估计量。
总结比较
| 术语 | 公式 | 分母 | 用途与性质 | | :--- | :--- | :--- | :--- | | 总体方差 | σ2=N∑(xi−μ)2 | N | 描述整个总体的真实方差,是一个未知的参数。 | | 样本的方差 | sn2=n∑(xi−xˉ)2 | n | 描述样本数据自身的离散程度。作为对σ2的估计是有偏的。 | | 无偏样本方差 | s2=n−1∑(xi−xˉ)2 | n−1 | 对总体方差 σ2 的无偏估计量。在统计推断中使用。 |