ARTICLE

总平方和

总平方和 (Total Sum of Squares) 总平方和,通常缩写为 TSS (Total Sum of Squares),是统计学中衡量因变量总变异程度的基石性概念,在回归分析和方差分析 (ANOVA) 中扮演着不可或缺的核心角色。它被定义为每个观测值 y_i 与其样本平均值 y 之间离差的平方和,其数值大小直接刻画了数据围绕中心位置的总体离散程度

浏览 35 更新 2025-10-26

总平方和 (Total Sum of Squares)

总平方和,通常缩写为 TSS (Total Sum of Squares),是统计学中衡量因变量总变异程度的基石性概念,在回归分析方差分析 (ANOVA) 中扮演着不可或缺的核心角色。它被定义为每个观测值 yiy_i 与其样本平均值 yˉ\bar{y} 之间离差的平方和,其数值大小直接刻画了数据围绕中心位置的总体离散程度。

总平方和为评估统计模型的解释能力提供了关键基准:一个有效的模型应当能够解释 TSS 中的大部分变异;反之,若模型只能解释很小一部分 TSS,则说明该模型未能捕捉数据中的主要规律,拟合效果欠佳。理解 TSS 的概念是掌握回归分析方差分析的起点,也是深入学习计量经济学机器学习中模型评估方法的前提。

数学定义与直观理解

设有一组包含 nn 个观测值的数据集,因变量为 {y1,y2,,yn}\{y_1, y_2, \dots, y_n\}。样本平均值 yˉ\bar{y} 定义为:

yˉ=1ni=1nyi\bar{y} = \frac{1}{n}\sum_{i=1}^{n} y_i

总平方和的计算公式为:

TSS=i=1n(yiyˉ)2TSS = \sum_{i=1}^{n} (y_i - \bar{y})^2

其中 (yiyˉ)(y_i - \bar{y}) 是第 ii 个观测值与平均值的离差,平方操作确保了所有离差均以正值贡献,避免正负离差相互抵消。

从直观上理解,TSS 量化了这样一个基准情景的预测误差:假设我们没有任何自变量的信息,只能使用因变量的平均值 yˉ\bar{y} 作为对所有观测值的"最佳猜测",此时所产生的总误差平方和即为 TSS。因此,TSS 反映了因变量自身固有的、需要被统计模型解释的总波动性。TSS 越大,数据散布越广,建模的挑战也越大;TSS 越小,数据越紧密地集中在平均值附近。

TSS 与样本方差 sy2s_y^2 之间存在直接的数学联系。这一联系也揭示了 TSS 与数据的方差本质上反映的是同一信息,只不过 TSS 是未经自由度调整的总量,而样本方差是经自由度调整后的平均量。样本方差的定义式为:

sy2=1n1i=1n(yiyˉ)2=TSSn1s_y^2 = \frac{1}{n-1}\sum_{i=1}^{n} (y_i - \bar{y})^2 = \frac{TSS}{n-1}

由此可得 TSS=(n1)sy2TSS = (n-1) s_y^2。这一关系表明,TSS 本质上是对数据总变异的一种绝对度量,而样本方差则是经自由度调整后的平均变异度量。

TSS 的分解:模型解释力的核心机制

在回归分析中,TSS 最重要的性质在于它可以被精确分解为两个具有明确统计含义的部分:模型已解释的变异和模型未解释的变异。这一分解构成了决定系数 (R2R^2) 和F检验的理论基石。

基本分解关系式为:

TSS=ESS+RSSTSS = ESS + RSS

展开写为:

i=1n(yiyˉ)2=i=1n(y^iyˉ)2+i=1n(yiy^i)2\sum_{i=1}^{n} (y_i - \bar{y})^2 = \sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2 + \sum_{i=1}^{n} (y_i - \hat{y}_i)^2

其中各组成部分的含义如下:

  • 已解释平方和 (ESS, Explained Sum of Squares):也称回归平方和 (SSR, Sum of Squares due to Regression)。它度量的是回归模型(即自变量)所解释的因变量变异部分,计算公式为 i=1n(y^iyˉ)2\sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2,其中 y^i\hat{y}_i 是模型对第 ii 个观测值的预测值。ESS 反映了预测值围绕样本均值的波动程度,ESS 越大,说明预测值越分散,模型捕捉到的信号越强。
  • 残差平方和 (RSS, Residual Sum of Squares):也称误差平方和 (SSE, Sum of Squared Errors)。它度量的是模型未能解释的变异,即实际观测值 yiy_i 与模型预测值 y^i\hat{y}_i 之间的偏差(残差)的平方和。RSS 正是最小二乘法试图最小化的目标函数——回归系数的估计值正是通过使 RSS 达到最小而获得的。

这一分解的意义在于,它将数据的总波动性明确地划归为模型的"贡献"(ESS)和模型的"误差"(RSS)。一个理想的回归模型能够使 ESS 在 TSS 中占据尽可能大的比例,同时使 RSS 尽可能小。

基于 TSS 的关键统计量

决定系数 R2R^2

决定系数衡量因变量总变异中可由自变量解释的比例,是回归分析中使用最为广泛的拟合优度指标:

R2=ESSTSS=1RSSTSSR^2 = \frac{ESS}{TSS} = 1 - \frac{RSS}{TSS}

R2R^2 的取值范围为 [0,1][0, 1]。值越接近 1,说明模型对数据的拟合效果越好;值越接近 0,则说明模型几乎没有解释力。值得注意的是,在多元回归中,增加自变量总会使 R2R^2 上升(至少不降),因此统计学家更倾向于使用经调整的 R2R^2 来惩罚过度复杂的模型。

F 检验统计量

方差分析和多元回归分析中,F检验用于检验整个模型的统计显著性,即判断所有自变量作为一个整体是否对因变量具有显著的解释能力。F 统计量的构造同样基于平方和分解:

F=ESS/(k1)RSS/(nk)=回归均方 (MSR)残差均方 (MSE)F = \frac{ESS / (k-1)}{RSS / (n-k)} = \frac{\text{回归均方 (MSR)}}{\text{残差均方 (MSE)}}

其中 kk 为模型参数个数(含截距项),nn 为样本量。F 统计量实质上衡量的是模型解释的方差与未解释方差的比率。若 F 值较大且对应的 p 值小于给定的显著性水平,则拒绝零假设,认为回归模型整体显著。

计算示例

为加深理解,考虑一个包含 5 个数据点的小型数据集 (x,y)(x, y): (1, 2), (2, 4), (3, 5), (4, 4), (5, 6)。

  1. 计算 yˉ\bar{y}yˉ=(2+4+5+4+6)/5=4.2\bar{y} = (2 + 4 + 5 + 4 + 6) / 5 = 4.2
  2. 计算 TSS: \[ TSS = (2 - 4.2)^2 + (4 - 4.2)^2 + (5 - 4.2)^2 + (4 - 4.2)^2 + (6 - 4.2)^2 = 8.8 \]
  3. 拟合回归模型:通过最小二乘法得到回归方程 y^=1.6+0.8x\hat{y} = 1.6 + 0.8x,据此计算预测值:{2.4,3.2,4.0,4.8,5.6}\{2.4, 3.2, 4.0, 4.8, 5.6\}
  4. 计算 RSS: \[ RSS = (-0.4)^2 + (0.8)^2 + (1.0)^2 + (-0.8)^2 + (0.4)^2 = 2.6 \]
  5. 计算 ESSESS=TSSRSS=8.82.6=6.2ESS = TSS - RSS = 8.8 - 2.6 = 6.2
  6. 计算 R2R^2R2=ESS/TSS=6.2/8.80.705R^2 = ESS / TSS = 6.2 / 8.8 \approx 0.705。该结果表明,自变量 xx 解释了因变量 yy 约 70.5\% 的总变异,模型拟合效果较好。

总结

总平方和 (TSS) 作为衡量数据总变异的基础统计量,为评估统计模型的有效性提供了不可或缺的参照基准。通过将 TSS 分解为已解释平方和 (ESS) 与残差平方和 (RSS),研究者得以量化模型的解释能力,并进一步计算出决定系数 (R2R^2) 和 F 统计量等关键拟合优度指标,从而对回归模型的有效性和解释力做出科学的判断。无论是在探索性数据分析还是正式的统计推断中,TSS 都是理解和评估统计模型不可或缺的起点。掌握 TSS 及其分解思想,有助于研究者在面对实际数据时做出更合理的模型选择与判断,是统计思维训练中的重要一环。