ARTICLE

Bessel's correction

贝塞尔校正 (Bessel's Correction) 贝塞尔校正是指在计算样本方差时,使用分母 n-1 而非 n 的做法。具体而言,给定一个来自总体的随机样本 X_1, X_2, , X_n,样本方差定义为: 其中 X = 1n _i=1^n X_i 为样本均值。分母中的 n-1 而非直觉上的 n,正是贝塞尔校正的核心。该校正得名于德国数学家、天文学家弗里

浏览 0 更新 2026-07-15

贝塞尔校正 (Bessel's Correction)

贝塞尔校正是指在计算样本方差时,使用分母 n1n-1 而非 nn 的做法。具体而言,给定一个来自总体的随机样本 X1,X2,,XnX_1, X_2, \ldots, X_n,样本方差定义为:

s2=1n1i=1n(XiXˉ)2s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2

其中 Xˉ=1ni=1nXi\bar{X} = \frac{1}{n}\sum_{i=1}^{n} X_i样本均值。分母中的 n1n-1 而非直觉上的 nn,正是贝塞尔校正的核心。该校正得名于德国数学家、天文学家弗里德里希·贝塞尔 (Friedrich Bessel, 1784–1846),尽管他在天文学测量误差的研究中首次使用了这一方法,类似的修正在更早的统计学文献中已有萌芽。

为什么需要贝塞尔校正:无偏性

贝塞尔校正的根本动机在于确保样本方差是总体方差 σ2\sigma^2无偏估计。若使用分母 nn 定义"朴素样本方差":

σ^naive2=1ni=1n(XiXˉ)2\hat{\sigma}^2_{\text{naive}} = \frac{1}{n} \sum_{i=1}^{n} (X_i - \bar{X})^2

则其期望值不等于总体方差 σ2\sigma^2,而是

E[σ^naive2]=n1nσ2\mathbb{E}\left[\hat{\sigma}^2_{\text{naive}}\right] = \frac{n-1}{n} \sigma^2

即朴素方差系统性地低估了总体方差,偏差因子为 n1n\frac{n-1}{n}。在小样本情形下,这一偏差尤为严重:当 n=5n=5 时低估幅度达 20\%;当 n=2n=2 时低估幅度高达 50\%。进行贝塞尔校正后:

E[s2]=E[1n1i=1n(XiXˉ)2]=σ2\mathbb{E}[s^2] = \mathbb{E}\left[\frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2\right] = \sigma^2

样本方差成为总体方差的无偏估计量。

数学推导:期望值的计算

X1,,XnX_1, \ldots, X_n 为独立同分布随机变量,满足 E[Xi]=μ\mathbb{E}[X_i] = \muVar(Xi)=σ2\operatorname{Var}(X_i) = \sigma^2。考虑离差平方和的分解:

i=1n(XiXˉ)2=i=1n(Xiμ)2n(Xˉμ)2\sum_{i=1}^{n} (X_i - \bar{X})^2 = \sum_{i=1}^{n} (X_i - \mu)^2 - n(\bar{X} - \mu)^2

对两边取期望。首先,E[(Xiμ)2]=σ2\mathbb{E}[(X_i - \mu)^2] = \sigma^2,故第一项的期望为 nσ2n\sigma^2。其次,E[(Xˉμ)2]=Var(Xˉ)=σ2n\mathbb{E}[(\bar{X} - \mu)^2] = \operatorname{Var}(\bar{X}) = \frac{\sigma^2}{n},因此第二项的期望为 nσ2n=σ2n \cdot \frac{\sigma^2}{n} = \sigma^2。代入得:

E[i=1n(XiXˉ)2]=nσ2σ2=(n1)σ2\mathbb{E}\left[\sum_{i=1}^{n} (X_i - \bar{X})^2\right] = n\sigma^2 - \sigma^2 = (n-1)\sigma^2

因此,

E[1n1i=1n(XiXˉ)2]=σ2\mathbb{E}\left[\frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2\right] = \sigma^2

这个推导清晰地揭示了"为什么损失了一个自由度":当我们用 Xˉ\bar{X} 估计 μ\mu 时,消耗了数据中的一个自由度,残差平方和中仅剩下 n1n-1 个独立的信息片段。

自由度的直观解释

自由度 (degrees of freedom) 是理解贝塞尔校正的核心概念。考虑残差 ei=XiXˉe_i = X_i - \bar{X}。虽然表面上存在 nn 个残差,但它们满足一个线性约束:

i=1nei=i=1n(XiXˉ)=0\sum_{i=1}^{n} e_i = \sum_{i=1}^{n} (X_i - \bar{X}) = 0

因此,残差向量落在 Rn\mathbb{R}^n 的一个 (n1)(n-1) 维子空间中。只有 n1n-1 个残差可以自由变动——一旦确定了其中 n1n-1 个,最后一个便由约束完全确定。方差估计中的分母 n1n-1 恰好等于这些残差的自由度。

可以这样直观理解:用一个数据点无法估计离散程度——样本方差在 n=1n=1 时无定义(分母为零),因为单个观测值不包含任何关于变异的信息。用两个数据点仅能计算一个差值,对应方差估计中的一个自由度。每增加一个观测,就多提供一段独立的变异信息,自由度递增一级。

贝塞尔校正与最大似然估计

最大似然估计 (MLE) 的角度看,正态分布 N(μ,σ2)\mathcal{N}(\mu, \sigma^2) 的方差 MLE 正是使用分母 nn 的朴素方差:

σ^MLE2=1ni=1n(XiXˉ)2\hat{\sigma}^2_{\text{MLE}} = \frac{1}{n} \sum_{i=1}^{n} (X_i - \bar{X})^2

MLE 在大样本下具有渐近无偏性和有效性,但在有限样本下是有偏的。贝塞尔校正后的估计量 s2s^2 是 MLE 的一个有限样本修正,牺牲了部分似然最优性以换取无偏性。这种偏差-方差权衡是统计推断中的经典议题:s2s^2 的无偏性使其成为假设检验置信区间构造的首选,尤其是在小样本的 tt 检验和 ANOVA 中。

值得注意的是,虽然 s2s^2σ2\sigma^2 的无偏估计,但样本标准差 s=s2s = \sqrt{s^2} 并不是总体标准差 σ\sigma 的无偏估计——无偏性在非线性变换下不保持。对于正态总体,ss 的期望为 cnσc_n\sigma,其中 cn<1c_n < 1 是一个依赖于样本量的修正系数。

贝塞尔校正的推广

贝塞尔校正的思想不仅限于单变量方差。在协方差估计中,样本协方差同样使用 n1n-1 作为分母:

Cov(X,Y)=1n1i=1n(XiXˉ)(YiYˉ)\operatorname{Cov}(X, Y) = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y})

线性回归中,误差方差的估计量使用 npn-p 作为分母,其中 pp 为回归参数个数:

σ^回归2=1npi=1n(YiY^i)2\hat{\sigma}^2_{\text{回归}} = \frac{1}{n-p} \sum_{i=1}^{n} (Y_i - \hat{Y}_i)^2

此处的 npn-p 正是回归中残差的自由度:nn 个观测值减去 pp 个被估计的回归系数。贝塞尔校正的 n1n-1 可以视为 p=1p=1(仅估计均值)的特殊情形。

多元统计分析中,样本协方差矩阵的无偏估计同样遵循这一原则。而对于更复杂的模型(如混合效应模型贝叶斯分层模型),自由度的概念推广为有效参数数量的估计,贝塞尔校正的精神——对参数估计消耗的信息进行惩罚——贯穿其中。

历史背景与应用语境

弗里德里希·贝塞尔是十九世纪最重要的天文学家之一,以精确测定恒星视差和预言白矮星伴星而闻名。在天文观测中,测量误差的量化直接关系到天体位置推算的精度。贝塞尔在1818年前后的误差分析工作中意识到,直接用残差平方和除以观测次数会系统性地低估仪器误差的方差,从而影响对观测精度的评估和对异常值的判断。他的校正方法后来成为测量误差模型最小二乘法理论体系的组成部分。

在现代应用中,贝塞尔校正已深深嵌入统计软件和数据分析工具的默认行为中。无论是 Python 的 NumPy (\texttt{np.var(x, ddof=1)})、R 的 \texttt{var()} 函数,还是 Excel 的 \texttt{VAR.S},默认输出的都是经贝塞尔校正的样本方差。在大样本场景下(nn 较大),nnn1n-1 的差异微乎其微,校正的实际影响有限;但在小样本推断、质量控制和实验科学中,n=5n=5n=10n=10 的情形屡见不鲜,忽略贝塞尔校正将导致对总体变异性的系统性低估,进而使得置信区间过窄、检验统计量膨胀,增加第一类错误的概率。

核心公式汇总

总体方差:σ2=1Ni=1N(Xiμ)2朴素样本方差(有偏):σ^naive2=1ni=1n(XiXˉ)2样本方差(贝塞尔校正,无偏):s2=1n1i=1n(XiXˉ)2偏差关系:E[σ^naive2]=n1nσ2,E[s2]=σ2\begin{aligned} \text{总体方差:}&\quad \sigma^2 = \frac{1}{N} \sum_{i=1}^{N} (X_i - \mu)^2 \\ \text{朴素样本方差(有偏):}&\quad \hat{\sigma}^2_{\text{naive}} = \frac{1}{n} \sum_{i=1}^{n} (X_i - \bar{X})^2 \\ \text{样本方差(贝塞尔校正,无偏):}&\quad s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2 \\ \text{偏差关系:}&\quad \mathbb{E}[\hat{\sigma}^2_{\text{naive}}] = \frac{n-1}{n}\sigma^2,\quad \mathbb{E}[s^2] = \sigma^2 \end{aligned}

贝塞尔校正看似仅是一个简单的分母调整,但其背后蕴含着统计推断中最基本的原则:用样本估计总体时,必须为每一个从数据中估计出的参数支付"一个观测值的代价"。这一朴素而深刻的思想,构成了从学生 tt 检验到现代高维统计的全部自由度调整方法的逻辑起点。