ARTICLE

无偏样本方差

无偏样本方差 无偏样本方差(Unbiased Sample Variance)是统计学中用于估计总体方差的一种方法,其核心特征在于使用了贝塞尔校正(Bessel's Correction),即以 n-1 而非 n 作为分母。这一校正确保了样本方差的期望值恰好等于总体方差,从而使估计量具备无偏性(Unbiasedness)。 定义与公式 给定一组独立同分布的样

浏览 0 更新 2026-05-25

无偏样本方差

无偏样本方差(Unbiased Sample Variance)是统计学中用于估计总体方差的一种方法,其核心特征在于使用了贝塞尔校正(Bessel's Correction),即以 n1n-1 而非 nn 作为分母。这一校正确保了样本方差的期望值恰好等于总体方差,从而使估计量具备无偏性(Unbiasedness)。

定义与公式

给定一组独立同分布的样本 X1,X2,,XnX_1, X_2, \ldots, X_n,其样本均值记为 Xˉ=1ni=1nXi\bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i,则无偏样本方差的定义为:

S2=1n1i=1n(XiXˉ)2S^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2

与之对比,有偏样本方差(即总体方差公式直接用于样本)为:

σn2=1ni=1n(XiXˉ)2\sigma^2_n = \frac{1}{n} \sum_{i=1}^{n} (X_i - \bar{X})^2

两者仅分母不同,但这一差异对估计量的性质有着根本性的影响。

无偏性的数学证明

要理解为何 n1n-1 能带来无偏性,需要计算 S2S^2 的期望值。设总体方差为 σ2\sigma^2,总体均值为 μ\mu,则:

E[S2]=E[1n1i=1n(XiXˉ)2]=1n1E[i=1n((Xiμ)(Xˉμ))2]=1n1E[i=1n(Xiμ)2n(Xˉμ)2]=1n1(nσ2nσ2n)=1n1(n1)σ2=σ2\begin{aligned} \mathbb{E}[S^2] &= \mathbb{E}\left[ \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2 \right] \\ &= \frac{1}{n-1} \mathbb{E}\left[ \sum_{i=1}^{n} ((X_i - \mu) - (\bar{X} - \mu))^2 \right] \\ &= \frac{1}{n-1} \mathbb{E}\left[ \sum_{i=1}^{n} (X_i - \mu)^2 - n(\bar{X} - \mu)^2 \right] \\ &= \frac{1}{n-1} \left( n\sigma^2 - n \cdot \frac{\sigma^2}{n} \right) \\ &= \frac{1}{n-1} \cdot (n-1)\sigma^2 = \sigma^2 \end{aligned}

这一推导的关键在于 E[(Xˉμ)2]=σ2/n\mathbb{E}[(\bar{X} - \mu)^2] = \sigma^2/n,即样本均值的方差。若使用 nn 作分母,则期望值为 n1nσ2\frac{n-1}{n}\sigma^2,系统性低估了总体方差。

自由度的直观理解

自由度(Degrees of Freedom)角度可以更直观地理解 n1n-1 的必要性。在计算样本方差时,必须先估计样本均值 Xˉ\bar{X}。一旦均值固定,nn 个残差 XiXˉX_i - \bar{X} 便失去了一个自由度——因为它们之和恒为零。因此,有效独立信息量仅为 n1n-1 个,而非 nn 个。除以 n1n-1 正是对"已知均值"这一约束所损失的自由度的补偿。

性质与局限

无偏样本方差具有以下重要性质:

  • 无偏性E[S2]=σ2\mathbb{E}[S^2] = \sigma^2,这是其最核心的优势。
  • 一致性:当 nn \to \infty 时,S2S^2 依概率收敛于 σ2\sigma^2
  • 并非均方误差最优:虽然无偏,但在均方误差(MSE)准则下,有偏估计量 σn2\sigma^2_n 的 MSE 通常小于 S2S^2。这是因为 σn2\sigma^2_n 的方差更小,偏差与方差之间存在权衡(偏差-方差权衡)。
  • 对正态总体的分布性质:若样本来自正态分布 N(μ,σ2)N(\mu, \sigma^2),则 (n1)S2/σ2χn12(n-1)S^2/\sigma^2 \sim \chi^2_{n-1},即服从自由度为 n1n-1卡方分布。这一性质是构建总体方差置信区间和卡方检验的基础。

应用场景

无偏样本方差广泛应用于:

  • 假设检验:如独立样本 t 检验、方差分析(ANOVA)中,作为 pooled variance 的估计基础。
  • 置信区间:构建总体均值的 t 置信区间时,需使用 S2S^2 估计未知的总体方差。
  • 贝叶斯统计:在无信息先验下,后验分布的尺度参数常涉及 n1n-1 校正。

总结

无偏样本方差通过贝塞尔校正(除以 n1n-1)解决了样本方差系统性低估总体方差的问题,是统计推断中最为基础且广泛使用的估计量之一。理解其无偏性的数学原理和自由度背后的直观意义,对于正确运用统计方法至关重要。尽管在特定准则下存在更优的有偏估计,但在需要无偏性的理论框架中,S2S^2 仍是不可替代的标准工具。