ARTICLE
sample variance
样本方差 (Sample Variance) 样本方差 (Sample Variance) 是统计学中度量样本数据离散程度(Variability / Dispersion)的核心统计量之一。它刻画了样本中各个观测值相对于样本均值的平均偏离程度。给定一组样本观测值 x_1, x_2, , x_n,其样本方差通常记作 s^2 或 ^2,定义为: 其中 x 为样
样本方差 (Sample Variance)
样本方差 (Sample Variance) 是统计学中度量样本数据离散程度(Variability / Dispersion)的核心统计量之一。它刻画了样本中各个观测值相对于样本均值的平均偏离程度。给定一组样本观测值 ,其样本方差通常记作 或 ,定义为:
其中 为样本均值, 为样本容量。分母使用 而非 ,正是因为 贝塞尔校正 (Bessel's Correction),用以保证样本方差是总体方差 的 无偏估计量 (Unbiased Estimator)。关于此校正的理论依据,后文将详细展开。
定义与计算
设 是从某个 总体 (Population) 中独立同分布抽取的随机样本。样本方差最常见的形式(无偏形式)为:
其中样本均值 。展开后可得等价的计算公式:
这种"计算式"在手工计算或编程实现中更为高效,因为它仅需一次遍历数据即可同时求得 和 。然而,在实际的 数值计算 (Numerical Computing) 中,该公式可能因大数相减而引入 舍入误差 (Rounding Error),因此更推荐使用双程算法(Two-pass Algorithm)——先计算 ,再计算离差平方和。
贝塞尔校正的理论依据
为什么样本方差的分母是 而非 ?核心原因在于样本均值 本身是从同一批数据中估计出来的。当我们计算离差 时,这些离差并非相互独立——它们满足一个线性约束 。这意味着只有 个离差可以自由变化,因此 自由度 (Degrees of Freedom) 为 。
从期望的角度看,可以证明:
换言之,若用 作分母,样本方差的期望会系统性偏小——它低估了总体方差。而乘以 的校正因子后,恰好得到无偏估计量:
样本标准差 (Sample Standard Deviation)
样本方差的算术平方根称为 样本标准差 (Sample Standard Deviation),记为 。标准差与原数据具有相同的量纲,因此在解释数据的离散程度时更为直观。例如,若身高数据的单位为厘米,则样本方差的单位为平方厘米,而标准差的单位仍是厘米,便于与均值进行比较。然而需注意,标准差不是总体标准差的无偏估计——平方根运算破坏了无偏性。对于 正态分布 (Normal Distribution) 总体,可通过 无偏标准差系数 (Unbiased Standard Deviation Coefficient) 进行进一步校正。
与总体方差的区别
总体方差 (Population Variance) 定义为:
其中 为总体均值, 为总体容量。总体方差是一个参数(Parameter),在已知完整总体数据时可直接计算。而样本方差是一个统计量(Statistic),是总体方差的估计量。二者的根本区别在于:总体方差描述的是总体本身的真实离散程度,而样本方差旨在通过样本信息去推断这一真实离散程度。当样本量 趋于无穷时,二者之差趋于零——这正是 一致性 (Consistency) 的体现。
抽样分布 (Sampling Distribution)
若总体分布为正态 ,则样本方差与总体方差之比服从 卡方分布 (Chi-squared Distribution):
这一性质是 假设检验 (Hypothesis Testing) 和 置信区间 (Confidence Interval) 构建的基础。例如,在 单样本 t 检验 (One-Sample t-Test) 中,我们需要利用样本方差来标准化样本均值,从而构造 t 统计量:
此外,在 方差分析 (ANOVA) 中,不同来源的样本方差之比构成了 F 统计量,用以检验多个总体的均值是否相等。
稳健性与替代度量
样本方差对 极端值 (Outliers) 非常敏感,因为离差经过平方后,极端值的影响被进一步放大。为此,实践中经常使用更稳健的离散度量:
- 四分位距 (Interquartile Range, IQR):上四分位数与下四分位数之差,不受极端值影响。
- 平均绝对偏差 (Mean Absolute Deviation, MAD):,对极端值的敏感度低于方差。
- 中位数绝对偏差 (Median Absolute Deviation, MAD\_median):使用中位数代替均值,兼具稳健性和抗污染性。
- 极差 (Range):最大值与最小值之差,虽计算简单但极易受极端值影响。
计算示例
考虑一组样本数据:。首先计算样本均值:。接着计算各离差及平方:
离差平方和为 。样本方差为:
样本标准差为 。
在机器学习中的应用
在 机器学习 (Machine Learning) 中,样本方差被广泛应用于特征缩放过程。例如,标准化 (Standardization / Z-score Normalization) 将每个特征减去其均值并除以其标准差:
经此变换后,特征具有零均值和单位方差,这使得基于梯度下降的优化算法(如 SVM、逻辑回归 和 神经网络)能够更快收敛。此外,主成分分析 (PCA) 的核心正是寻找使得投影后样本方差最大的方向——方差最大化原则构成了降维的数学基础。在 决策树 (Decision Tree) 的回归版本中,节点分裂准则也常基于方差缩减(Variance Reduction)来评估分裂质量。
广义方差与矩阵形式
对于 多元数据 (Multivariate Data),样本方差的概念推广为 样本协方差矩阵 (Sample Covariance Matrix):
其中 为 维观测向量。该矩阵的对角元素即各变量的样本方差,非对角元素为变量间的样本协方差。多元分析中的 广义方差 (Generalized Variance) 定义为 (协方差矩阵的行列式),它刻画了数据在多元空间中的总体散布程度。当变量之间存在强相关性时,广义方差趋近于零,表明数据实际所在的子空间维度低于表现维度。
总结
样本方差是统计学中最基础也最重要的离散度量,其无偏形式采用 作为分母以校正自由度损失。从经典的假设检验到现代的机器学习算法,样本方差无处不在。理解其定义、计算、理论性质以及局限性,是掌握统计推断和数据分析方法的基石。在应用时,应根据数据的分布特征和实际需求,选择是否使用方差、标准差或其他稳健的替代度量。
方差的分解公式
样本方差的一个重要性质是它可以通过 方差分解公式 (Variance Decomposition) 与组间方差和组内方差联系起来。在分组数据的情境下,总方差等于组内方差的均值加上组间方差:
这一公式在 方差分析 (ANOVA) 中处于核心地位:组间方差反映不同组均值之间的差异,组内方差反映各组内部个体的差异。若组间方差显著大于组内方差,则表明分组变量对目标变量具有显著的解释力。在 线性回归 (Linear Regression) 中,决定系数 正是基于这一分解——它度量了回归模型所能解释的方差占总方差的比例。