ARTICLE
sample variance|样本方差
样本方差 (Sample Variance) 样本方差 (Sample Variance) 是统计学中衡量样本数据离散程度的核心指标,定义为样本观测值与其均值 (Mean) 之差的平方和再除以样本量减一。它是对总体方差 (Population Variance) 的无偏估计 (Unbiased Estimation),在推断统计 (Inferential S
样本方差 (Sample Variance)
样本方差 (Sample Variance) 是统计学中衡量样本数据离散程度的核心指标,定义为样本观测值与其均值 (Mean) 之差的平方和再除以样本量减一。它是对总体方差 (Population Variance) 的无偏估计 (Unbiased Estimation),在推断统计 (Inferential Statistics) 中占有基础性地位。样本方差最常用的记号为 ,其正式定义为:
其中 为样本数据, 为样本均值 (Sample Mean), 为样本量。分母使用 而非 涉及统计学中最重要的概念之一——自由度 (Degrees of Freedom),下文将详细阐述。
定义与公式
具体而言,样本方差的计算分为三步:第一,计算样本均值 ;第二,计算每个观测值与均值的离差(Deviation)并求其平方;第三,将所有离差平方求和后除以 。这一计算过程可简化为等价形式:
该公式避免了逐一计算离差的步骤,在手工计算和编程实现中更为高效。但需要注意的是,该形式在浮点数运算中可能引入较大的舍入误差,因此在高精度要求下应优先使用定义式。
分母 与贝塞尔校正
样本方差使用 而非 作为分母,这一调整被称为贝塞尔校正 (Bessel's Correction)。若不进行校正,直接使用 计算的统计量会系统性地低估总体方差——这是因为样本均值 本身是从样本数据中估计得到的,它比总体均值 更"靠近"这些样本点,使得离差平方和偏小。
从数学角度,这一性质可以严格表述为:对于任意常数 ,离差平方和 在 时取得最小值。因此, 个离差 的平方和一定不大于 个离差 的平方和——即使用总体均值 时的离差平方和更大。由于样本均值取代总体均值耗费了一个"自由度",分母相应地调整为 。
样本方差的无偏性
样本方差最引人注目的统计性质之一是它的无偏性 (Unbiasedness)。在随机抽样条件下,有:
其中 为总体方差。这意味着从长期来看,样本方差的期望值恰好等于总体方差,不存在系统性偏差。相比之下,有偏样本方差 的期望值为 ,总是低估总体方差。贝塞尔校正正是通过乘以因子 来消除这一偏差。
无偏性虽然是一个理想的统计性质,但并非绝对优越。在均方误差 (Mean Squared Error) 的框架下,有偏估计量有时反而具有更小的均方误差——这正是统计学中偏差-方差权衡 (Bias-Variance Tradeoff) 的经典体现。
抽样分布
样本方差的抽样分布 (Sampling Distribution) 与卡方分布 (Chi-Squared Distribution) 密切相关。若总体服从正态分布 ,则统计量:
服从自由度为 的卡方分布。这一关系构成了总体方差区间估计和假设检验的理论基础。利用该分布,可以构造总体方差 的置信区间:
其中 为卡方分布的上 分位数。
样本方差的方差本身也有明确表达式。对于正态总体,,表明样本方差随样本量增大而收敛于总体方差,其收敛速度为 。
样本标准差
样本标准差 (Sample Standard Deviation) 是样本方差的平方根:
样本标准差的优势在于它拥有与原始数据相同的量纲——若数据以"元"为单位,方差单位为"平方元",而标准差重新回到"元",在解释上更加直观。然而,标准差 不是总体标准差 的无偏估计量:平方根运算破坏了线性期望性质。对于正态总体,一个常用的校正因子为 ,使得 。
计算与编程实现
样本方差在实际计算中高度依赖算法稳定性。经典的"教科书公式"(使用平方和形式)在数据量大或数值差异悬殊时遭遇严重的数值精度 (Numerical Precision) 问题。为此,统计计算领域发展出了多种数值稳定的算法,其中最著名的是韦尔福德在线算法 (Welford's Online Algorithm),它通过递推方式单遍扫描数据即可高精度地计算方差。
在常用编程工具中:
- Python:\texttt{statistics.variance()} 默认计算样本方差(分母 );\texttt{numpy.var(ddof=1)} 也返回无偏样本方差。
- R语言:\texttt{var()} 函数默认计算样本方差,是最常用的实现之一。
- Excel:\texttt{VAR.S()} 计算样本方差;\texttt{VAR.P()} 计算总体方差。
- Julia:\texttt{var()} 默认返回样本方差。
在机器学习实践中,注意区分训练集和测试集的方差计算方式也至关重要:描述性分析中通常使用样本方差,而在某些正则化场景中则会使用总体方差定义。
样本方差 vs. 总体方差
为清晰起见,下表总结了样本方差与总体方差的区别:
- 总体方差 :分母等于总体容量 ,使用总体均值 ,是一个固定的参数 (Parameter)。
- 样本方差 :分母为 ,使用样本均值 ,是一个随机变量(随样本变化)。
- 有偏样本方差 :有时在描述性统计中也被称为"样本方差",但它存在系统性低估偏差。
在实际应用中,除非可以确认手中的数据即为整个总体(如人口普查数据),否则应优先使用无偏样本方差 。
样本方差的性质
样本方差作为统计量 (Statistic) 具备若干重要性质。首先,它具尺度不变性的修正形式——若 ,则 (常数 不影响方差)。其次,当总体分布具有有限四阶矩时,样本方差是总体方差的一致估计量 (Consistent Estimator):即 (依概率收敛)。第三,样本方差对极端值 (Outliers) 极为敏感——一个极端大的离差平方后即可大幅推高方差值,反映了数据中潜在的风险和离散特征。
在多元统计中的推广
在多元统计分析 (Multivariate Statistics) 中,样本方差的概念被推广为样本协方差矩阵 (Sample Covariance Matrix)。对于 维观测向量 ,样本协方差矩阵为:
其中 为样本均值向量, 的对角线元素即为各变量的样本方差,非对角线元素为样本协方差。该矩阵是主成分分析 (PCA)、线性判别分析 (LDA) 和马氏距离 (Mahalanobis Distance) 等多元方法的核心构造。
在经济学与金融学中的应用
在金融学 (Finance) 和投资组合理论 (Portfolio Theory) 中,样本方差被广泛用作风险 (Risk) 的度量。马科维茨均值-方差模型 (Markowitz Mean-Variance Model) 以资产收益率的时间序列数据计算样本方差,将其作为衡量单个资产波动风险的核心指标;同时利用样本协方差矩阵度量资产间的相关性,从而在风险与收益之间寻求最优权衡。
在计量经济学 (Econometrics) 中,普通最小二乘法 (OLS) 回归系数的方差估计直接依赖于模型误差项的样本方差估计,进而影响标准误 (Standard Error)、t统计量 (t-Statistic) 和置信区间 (Confidence Interval) 的计算。异方差一致标准误(如怀特标准误 White Standard Errors)正是在样本方差的基本框架上发展起来的稳健推断技术。
在实验经济学 (Experimental Economics) 和行为经济学 (Behavioral Economics) 中,样本方差有助于刻画被试决策行为的异质程度:高方差意味着个体间偏好或策略存在显著差异,低方差则表明行为模式相对一致。
样本方差的局限与替代
样本方差虽然是离散度量的首要选择,但也存在局限。第一,它受量纲平方的影响,不如标准差直观;第二,在偏态分布 (Skewed Distribution) 下,均值本身代表性欠佳,以均值为中心的方差也随之失去部分解释力;第三,它对极端值高度敏感,在稳健性要求高的场景下,可考虑四分位距 (Interquartile Range, IQR) 或平均绝对偏差 (Mean Absolute Deviation, MAD) 等稳健统计量 (Robust Statistic)。此外,方差膨胀因子 (Variance Inflation Factor, VIF) 是样本方差在多重共线性 (Multicollinearity) 诊断中的应用延伸——通过比较各回归系数的方差膨胀程度来判断变量间的线性依存关系。
综上,样本方差是统计学中应用最广泛的离散度量之一,从描述统计到推断统计、从一元分析到多元分析、从经济学到金融学都发挥着不可替代的核心作用。正确理解其分母为 的缘由、无偏性含义以及与总体方差的关系,是掌握统计推断思想的关键一步。