Sample Variance(样本方差)
Sample Variance(样本方差)是描述性统计和推断性统计中最核心的离散程度度量之一。对于一组样本观测值 X1,X2,…,Xn,样本方差定义为样本中各观测值与样本均值之差的平方和除以 n−1:
s2=n−11i=1∑n(Xi−Xˉ)2
其中 Xˉ=n1∑i=1nXi 为样本均值。该统计量是总体方差 σ2 的无偏估计量,其平方根 s 称为样本标准差,与原始数据具有相同的量纲,便于直观解释。
Bessel校正与无偏性
分母采用 n−1 而非 n 是样本方差定义中最关键的技术细节,这一调整称为Bessel校正(Bessel's correction),由德国天文学家和数学家Friedrich Bessel于19世纪中叶提出。直观上,样本均值 Xˉ 本身是从样本中估计得到,它比真实总体均值 μ 更"靠近"样本观测值,因此残差平方和 ∑(Xi−Xˉ)2 系统性地小于 ∑(Xi−μ)2。使用 n−1 恰好补偿了这一低估,使样本方差的期望值等于总体方差:
E[s2]=σ2
从自由度的角度理解:残差向量 (X1−Xˉ,…,Xn−Xˉ) 受限于一个线性约束 ∑(Xi−Xˉ)=0,因此自由度为 n−1。若使用 n 作为分母,则得到有偏样本方差 s~2=n1∑(Xi−Xˉ)2,其期望值为 nn−1σ2。当样本量较小时这一偏差不可忽视——例如 n=2 时有偏估计的期望仅为真值的一半;当 n→∞ 时二者差异消失,即样本方差具有一致性。
Bessel校正的数学推导依赖于期望算子的线性性质:
E[i=1∑n(Xi−Xˉ)2]=E[i=1∑nXi2−nXˉ2]=(n−1)σ2
这一关系表明只有除以 n−1 才能获得无偏估计。值得注意的是,样本标准差 s=s2 并非总体标准差 σ 的无偏估计——由于Jensen不等式,平方根运算引入的凸性导致 E[s]<σ。这反映了点估计中无偏性在非线性变换下不可传递的基本事实。
抽样分布与卡方分布
当总体服从正态分布 N(μ,σ2) 时,样本方差的抽样分布具有精确形式:
σ2(n−1)s2∼χn−12
即标准化后的样本方差服从自由度为 n−1 的卡方分布。这一关系是总体方差区间估计和方差假设检验的理论基础。具体而言,总体方差 σ2 的 1−α 置信区间为:
[χα/2,n−12(n−1)s2,χ1−α/2,n−12(n−1)s2]
其中 χp,n−12 为卡方分布的第 p 分位数。这一推断框架在ANOVA(方差分析)、质量控制和生物统计学中有着广泛应用。
基于卡方分布的性质,样本方差 s2 的方差和期望分别为:
E[s2]=σ2,Var(s2)=n−12σ4
可见样本方差的方差随样本量增大而减小,体现了估计量的相合性。该结果在实验设计中用于确定检测给定效应量所需的样本量。此外,中心极限定理保证了即使总体非正态,在大样本下样本方差的分布也近似正态:n(s2−σ2)dN(0,μ4−σ4),其中 μ4 为总体四阶中心矩。这为自助法(bootstrap)中方差估计的推断提供了渐近理论基础。
计算性质与数值稳定性
样本方差的计算可采用以下等价形式,便于编程实现:
s2=n−11(i=1∑nXi2−nXˉ2)
然而,当数据的量级很大或方差很小时,直接使用该公式可能因浮点运算中的灾难性抵消(catastrophic cancellation)而损失精度——两个大数相减抹去了微小差异的有效数字位。Welford在线算法(Knuth, 1997)通过单遍扫描递推计算均值和方差,提供数值稳定的解决方案:
\begin{align*}
\(\bar{X}_k\) \&= \(\bar{X}_{k-1}\) + \(\frac\){\(X_k\) - \(\bar{X}_{k-1}\)}{k} \\
\[
S_k &= S_{k-1} + (X_k - \bar{X}_{k-1})(X_k - \bar{X}_k)
\]
\end{align*}
其中 Sn=∑i=1n(Xi−Xˉ)2,样本方差为 s2=Sn/(n−1)。该算法只需单次遍历数据且无需存储全部样本,是大数据流式计算和数据库聚合操作的基准实现方案。两遍算法(先计算均值,再计算离差平方和)虽然数值稳定性更优但因需两遍扫描而效率较低,在内存可容纳数据的情况下是首选方案。Young-Cramer算法等更新方法进一步优化了分批数据的方差合并计算,在并行计算和分布式系统中有着重要应用价值。
样本方差与样本协方差
样本方差的概念自然地推广到多维情形。对于 p 维随机向量,样本协方差矩阵的第 j 个对角元素即第 j 个变量的样本方差,非对角元素则度量变量间的线性关系:
S=n−11i=1∑n(Xi−Xˉ)(Xi−Xˉ)⊤
这一推广在主成分分析、线性判别分析和因子分析等多元统计分析方法中居于核心地位。样本协方差矩阵 S 是总体协方差矩阵 Σ 的无偏估计量,其特征值和特征向量揭示了数据的主要变异方向。
Bartlett检验与方差齐性
在多组比较的参数检验中,方差齐性(homoscedasticity)假设的检验依赖于样本方差。Bartlett检验检验 k 个组的总体方差是否相等,其检验统计量为:
T=1+3(k−1)1(∑i=1kni−11−N−k1)(N−k)lnsp2−∑i=1k(ni−1)lnsi2
其中 si2 为第 i 组的样本方差,sp2 为合并方差,N=∑ni。Bartlett检验对正态性假设敏感,Levene检验和Brown-Forsythe检验提供了更稳健的替代方案。
应用与局限
样本方差在金融学中是波动率的基础度量,用于计算投资组合的风险和夏普比率。在实验心理学和教育测量学中,样本方差反映个体差异程度,是效应量(如Cohen's d和Hedges' g)计算的关键输入。
然而,样本方差对异常值高度敏感——单个极端值即可使方差大幅膨胀,因此在存在重尾分布的数据中,中位数绝对偏差(MAD)和四分位距(IQR)等稳健统计量是更可靠的分散度度量。此外,样本方差要求数据至少为定距尺度,对于定序尺度或定类尺度数据应使用离散系数或其他基于分布的度量。在面板数据和时间序列分析中,异方差性(heteroskedasticity)的存在使得常规样本方差估计失效,需要采用稳健标准误(如Eicker-Huber-White标准误)进行修正。理解样本方差的数学性质及其适用范围,是扎实掌握数理统计和计量经济学方法的重要前提。