无偏样本方差
无偏样本方差(Unbiased Sample Variance)是统计学中用于估计总体方差的一种方法,其核心特征在于使用了贝塞尔校正(Bessel's Correction),即以 n−1 而非 n 作为分母。这一校正确保了样本方差的期望值恰好等于总体方差,从而使估计量具备无偏性(Unbiasedness)。
定义与公式
给定一组独立同分布的样本 X1,X2,…,Xn,其样本均值记为 Xˉ=n1∑i=1nXi,则无偏样本方差的定义为:
S2=n−11i=1∑n(Xi−Xˉ)2
与之对比,有偏样本方差(即总体方差公式直接用于样本)为:
σn2=n1i=1∑n(Xi−Xˉ)2
两者仅分母不同,但这一差异对估计量的性质有着根本性的影响。
无偏性的数学证明
要理解为何 n−1 能带来无偏性,需要计算 S2 的期望值。设总体方差为 σ2,总体均值为 μ,则:
E[S2]=E[n−11i=1∑n(Xi−Xˉ)2]=n−11E[i=1∑n((Xi−μ)−(Xˉ−μ))2]=n−11E[i=1∑n(Xi−μ)2−n(Xˉ−μ)2]=n−11(nσ2−n⋅nσ2)=n−11⋅(n−1)σ2=σ2
这一推导的关键在于 E[(Xˉ−μ)2]=σ2/n,即样本均值的方差。若使用 n 作分母,则期望值为 nn−1σ2,系统性低估了总体方差。
自由度的直观理解
从自由度(Degrees of Freedom)角度可以更直观地理解 n−1 的必要性。在计算样本方差时,必须先估计样本均值 Xˉ。一旦均值固定,n 个残差 Xi−Xˉ 便失去了一个自由度——因为它们之和恒为零。因此,有效独立信息量仅为 n−1 个,而非 n 个。除以 n−1 正是对"已知均值"这一约束所损失的自由度的补偿。
性质与局限
无偏样本方差具有以下重要性质:
- 无偏性:E[S2]=σ2,这是其最核心的优势。
- 一致性:当 n→∞ 时,S2 依概率收敛于 σ2。
- 并非均方误差最优:虽然无偏,但在均方误差(MSE)准则下,有偏估计量 σn2 的 MSE 通常小于 S2。这是因为 σn2 的方差更小,偏差与方差之间存在权衡(偏差-方差权衡)。
- 对正态总体的分布性质:若样本来自正态分布 N(μ,σ2),则 (n−1)S2/σ2∼χn−12,即服从自由度为 n−1 的卡方分布。这一性质是构建总体方差置信区间和卡方检验的基础。
应用场景
无偏样本方差广泛应用于:
- 假设检验:如独立样本 t 检验、方差分析(ANOVA)中,作为 pooled variance 的估计基础。
- 置信区间:构建总体均值的 t 置信区间时,需使用 S2 估计未知的总体方差。
- 贝叶斯统计:在无信息先验下,后验分布的尺度参数常涉及 n−1 校正。
总结
无偏样本方差通过贝塞尔校正(除以 n−1)解决了样本方差系统性低估总体方差的问题,是统计推断中最为基础且广泛使用的估计量之一。理解其无偏性的数学原理和自由度背后的直观意义,对于正确运用统计方法至关重要。尽管在特定准则下存在更优的有偏估计,但在需要无偏性的理论框架中,S2 仍是不可替代的标准工具。