ARTICLE

sample variance|样本方差

样本方差 (Sample Variance) 样本方差 (Sample Variance) 是统计学中衡量样本数据离散程度的核心指标,定义为样本观测值与其均值 (Mean) 之差的平方和再除以样本量减一。它是对总体方差 (Population Variance) 的无偏估计 (Unbiased Estimation),在推断统计 (Inferential S

浏览 0 更新 2026-07-11

样本方差 (Sample Variance)

样本方差 (Sample Variance) 是统计学中衡量样本数据离散程度的核心指标,定义为样本观测值与其均值 (Mean) 之差的平方和再除以样本量减一。它是对总体方差 (Population Variance) 的无偏估计 (Unbiased Estimation),在推断统计 (Inferential Statistics) 中占有基础性地位。样本方差最常用的记号为 s2s^2,其正式定义为:

s2=1n1i=1n(xixˉ)2s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2

其中 x1,x2,,xnx_1, x_2, \dots, x_n 为样本数据,xˉ\bar{x}样本均值 (Sample Mean),nn 为样本量。分母使用 n1n-1 而非 nn 涉及统计学中最重要的概念之一——自由度 (Degrees of Freedom),下文将详细阐述。

定义与公式

具体而言,样本方差的计算分为三步:第一,计算样本均值 xˉ\bar{x};第二,计算每个观测值与均值的离差(Deviation)并求其平方;第三,将所有离差平方求和后除以 n1n-1。这一计算过程可简化为等价形式:

s2=i=1nxi2nxˉ2n1s^2 = \frac{\sum_{i=1}^{n} x_i^2 - n\bar{x}^2}{n-1}

该公式避免了逐一计算离差的步骤,在手工计算和编程实现中更为高效。但需要注意的是,该形式在浮点数运算中可能引入较大的舍入误差,因此在高精度要求下应优先使用定义式。

分母 n1n-1 与贝塞尔校正

样本方差使用 n1n-1 而非 nn 作为分母,这一调整被称为贝塞尔校正 (Bessel's Correction)。若不进行校正,直接使用 1n(xixˉ)2\frac{1}{n}\sum (x_i - \bar{x})^2 计算的统计量会系统性地低估总体方差——这是因为样本均值 xˉ\bar{x} 本身是从样本数据中估计得到的,它比总体均值 μ\mu 更"靠近"这些样本点,使得离差平方和偏小。

从数学角度,这一性质可以严格表述为:对于任意常数 cc,离差平方和 i=1n(xic)2\sum_{i=1}^{n} (x_i - c)^2c=xˉc = \bar{x} 时取得最小值。因此,nn 个离差 (x1xˉ),,(xnxˉ)(x_1 - \bar{x}), \dots, (x_n - \bar{x}) 的平方和一定不大于 nn 个离差 (x1μ),,(xnμ)(x_1 - \mu), \dots, (x_n - \mu) 的平方和——即使用总体均值 μ\mu 时的离差平方和更大。由于样本均值取代总体均值耗费了一个"自由度",分母相应地调整为 n1n-1

样本方差的无偏性

样本方差最引人注目的统计性质之一是它的无偏性 (Unbiasedness)。在随机抽样条件下,有:

E[s2]=σ2\mathbb{E}[s^2] = \sigma^2

其中 σ2\sigma^2 为总体方差。这意味着从长期来看,样本方差的期望值恰好等于总体方差,不存在系统性偏差。相比之下,有偏样本方差 σ^2=1n(xixˉ)2\hat{\sigma}^2 = \frac{1}{n}\sum (x_i - \bar{x})^2 的期望值为 n1nσ2\frac{n-1}{n}\sigma^2,总是低估总体方差。贝塞尔校正正是通过乘以因子 n/(n1)n/(n-1) 来消除这一偏差。

无偏性虽然是一个理想的统计性质,但并非绝对优越。在均方误差 (Mean Squared Error) 的框架下,有偏估计量有时反而具有更小的均方误差——这正是统计学中偏差-方差权衡 (Bias-Variance Tradeoff) 的经典体现。

抽样分布

样本方差的抽样分布 (Sampling Distribution) 与卡方分布 (Chi-Squared Distribution) 密切相关。若总体服从正态分布 N(μ,σ2)N(\mu, \sigma^2),则统计量:

(n1)s2σ2χn12\frac{(n-1)s^2}{\sigma^2} \sim \chi^2_{n-1}

服从自由度为 n1n-1 的卡方分布。这一关系构成了总体方差区间估计假设检验的理论基础。利用该分布,可以构造总体方差 σ2\sigma^2 的置信区间:

[(n1)s2χα/2,n12,  (n1)s2χ1α/2,n12]\left[ \frac{(n-1)s^2}{\chi^2_{\alpha/2, n-1}}, \; \frac{(n-1)s^2}{\chi^2_{1-\alpha/2, n-1}} \right]

其中 χα/2,n12\chi^2_{\alpha/2, n-1} 为卡方分布的上 α/2\alpha/2 分位数。

样本方差的方差本身也有明确表达式。对于正态总体,Var(s2)=2σ4n1\operatorname{Var}(s^2) = \frac{2\sigma^4}{n-1},表明样本方差随样本量增大而收敛于总体方差,其收敛速度O(1/n)O(1/n)

样本标准差

样本标准差 (Sample Standard Deviation) 是样本方差的平方根:

s=s2=1n1i=1n(xixˉ)2s = \sqrt{s^2} = \sqrt{\frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2}

样本标准差的优势在于它拥有与原始数据相同的量纲——若数据以"元"为单位,方差单位为"平方元",而标准差重新回到"元",在解释上更加直观。然而,标准差 ss 不是总体标准差 σ\sigma 的无偏估计量:平方根运算破坏了线性期望性质。对于正态总体,一个常用的校正因子为 c4(n)c_4(n),使得 E[s/c4(n)]=σ\mathbb{E}[s/c_4(n)] = \sigma

计算与编程实现

样本方差在实际计算中高度依赖算法稳定性。经典的"教科书公式"(使用平方和形式)在数据量大或数值差异悬殊时遭遇严重的数值精度 (Numerical Precision) 问题。为此,统计计算领域发展出了多种数值稳定的算法,其中最著名的是韦尔福德在线算法 (Welford's Online Algorithm),它通过递推方式单遍扫描数据即可高精度地计算方差。

在常用编程工具中:

  • Python:\texttt{statistics.variance()} 默认计算样本方差(分母 n1n-1);\texttt{numpy.var(ddof=1)} 也返回无偏样本方差。
  • R语言:\texttt{var()} 函数默认计算样本方差,是最常用的实现之一。
  • Excel:\texttt{VAR.S()} 计算样本方差;\texttt{VAR.P()} 计算总体方差。
  • Julia:\texttt{var()} 默认返回样本方差。

在机器学习实践中,注意区分训练集测试集的方差计算方式也至关重要:描述性分析中通常使用样本方差,而在某些正则化场景中则会使用总体方差定义。

样本方差 vs. 总体方差

为清晰起见,下表总结了样本方差与总体方差的区别:

  • 总体方差 σ2=1Ni=1N(xiμ)2\sigma^2 = \frac{1}{N}\sum_{i=1}^{N} (x_i - \mu)^2:分母等于总体容量 NN,使用总体均值 μ\mu,是一个固定的参数 (Parameter)。
  • 样本方差 s2=1n1i=1n(xixˉ)2s^2 = \frac{1}{n-1}\sum_{i=1}^{n} (x_i - \bar{x})^2:分母为 n1n-1,使用样本均值 xˉ\bar{x},是一个随机变量(随样本变化)。
  • 有偏样本方差 σ^2=1ni=1n(xixˉ)2\hat{\sigma}^2 = \frac{1}{n}\sum_{i=1}^{n} (x_i - \bar{x})^2:有时在描述性统计中也被称为"样本方差",但它存在系统性低估偏差。

在实际应用中,除非可以确认手中的数据即为整个总体(如人口普查数据),否则应优先使用无偏样本方差 s2s^2

样本方差的性质

样本方差作为统计量 (Statistic) 具备若干重要性质。首先,它具尺度不变性的修正形式——若 yi=a+bxiy_i = a + bx_i,则 sy2=b2sx2s_y^2 = b^2 s_x^2(常数 aa 不影响方差)。其次,当总体分布具有有限四阶矩时,样本方差是总体方差的一致估计量 (Consistent Estimator):即 s2pσ2s^2 \xrightarrow{p} \sigma^2依概率收敛)。第三,样本方差对极端值 (Outliers) 极为敏感——一个极端大的离差平方后即可大幅推高方差值,反映了数据中潜在的风险和离散特征。

在多元统计中的推广

多元统计分析 (Multivariate Statistics) 中,样本方差的概念被推广为样本协方差矩阵 (Sample Covariance Matrix)。对于 pp 维观测向量 x1,,xn\mathbf{x}_1, \dots, \mathbf{x}_n,样本协方差矩阵为:

S=1n1i=1n(xixˉ)(xixˉ)\mathbf{S} = \frac{1}{n-1} \sum_{i=1}^{n} (\mathbf{x}_i - \bar{\mathbf{x}})(\mathbf{x}_i - \bar{\mathbf{x}})^\top

其中 xˉ\bar{\mathbf{x}} 为样本均值向量,S\mathbf{S} 的对角线元素即为各变量的样本方差,非对角线元素为样本协方差。该矩阵是主成分分析 (PCA)、线性判别分析 (LDA) 和马氏距离 (Mahalanobis Distance) 等多元方法的核心构造。

在经济学与金融学中的应用

金融学 (Finance) 和投资组合理论 (Portfolio Theory) 中,样本方差被广泛用作风险 (Risk) 的度量。马科维茨均值-方差模型 (Markowitz Mean-Variance Model) 以资产收益率的时间序列数据计算样本方差,将其作为衡量单个资产波动风险的核心指标;同时利用样本协方差矩阵度量资产间的相关性,从而在风险与收益之间寻求最优权衡。

计量经济学 (Econometrics) 中,普通最小二乘法 (OLS) 回归系数的方差估计直接依赖于模型误差项的样本方差估计,进而影响标准误 (Standard Error)、t统计量 (t-Statistic) 和置信区间 (Confidence Interval) 的计算。异方差一致标准误(如怀特标准误 White Standard Errors)正是在样本方差的基本框架上发展起来的稳健推断技术。

实验经济学 (Experimental Economics) 和行为经济学 (Behavioral Economics) 中,样本方差有助于刻画被试决策行为的异质程度:高方差意味着个体间偏好或策略存在显著差异,低方差则表明行为模式相对一致。

样本方差的局限与替代

样本方差虽然是离散度量的首要选择,但也存在局限。第一,它受量纲平方的影响,不如标准差直观;第二,在偏态分布 (Skewed Distribution) 下,均值本身代表性欠佳,以均值为中心的方差也随之失去部分解释力;第三,它对极端值高度敏感,在稳健性要求高的场景下,可考虑四分位距 (Interquartile Range, IQR) 或平均绝对偏差 (Mean Absolute Deviation, MAD) 等稳健统计量 (Robust Statistic)。此外,方差膨胀因子 (Variance Inflation Factor, VIF) 是样本方差在多重共线性 (Multicollinearity) 诊断中的应用延伸——通过比较各回归系数的方差膨胀程度来判断变量间的线性依存关系。

综上,样本方差是统计学中应用最广泛的离散度量之一,从描述统计到推断统计、从一元分析到多元分析、从经济学到金融学都发挥着不可替代的核心作用。正确理解其分母为 n1n-1 的缘由、无偏性含义以及与总体方差的关系,是掌握统计推断思想的关键一步。