ARTICLE

Sum of Squares Total

总平方和 (Sum of Squares Total, SST) 总平方和(Sum of Squares Total,简称 SST,亦记作 TSS,即 Total Sum of Squares)是方差分析(ANOVA)与线性回归分析中度量因变量 Y 总变异程度的核心统计量,定义为各观测值与其样本均值之差的平方和。SST 构成了将总变异分解为可解释部分与不可解

浏览 0 更新 2025-10-26

总平方和 (Sum of Squares Total, SST)

总平方和(Sum of Squares Total,简称 SST,亦记作 TSS,即 Total Sum of Squares)是方差分析(ANOVA)与线性回归分析中度量因变量 YY 总变异程度的核心统计量,定义为各观测值与其样本均值之差的平方和。SST 构成了将总变异分解为可解释部分与不可解释部分的逻辑起点,是评估模型拟合优度、构建 F 统计量以及计算决定系数 R2R^2 的基础。

数学定义与直观含义

Y1,Y2,,YnY_1, Y_2, \ldots, Y_n 为因变量 YYnn 个观测值,Yˉ=1ni=1nYi\bar{Y} = \frac{1}{n}\sum_{i=1}^{n} Y_i 为样本均值,则总平方和的数学表达式为:

SST=i=1n(YiYˉ)2.\text{SST} = \sum_{i=1}^{n} (Y_i - \bar{Y})^2.

从直观上看,若我们仅知道样本均值 Yˉ\bar{Y} 而对各观测值一无所知,那么对于任意一个观测值,最自然的预测就是 Yˉ\bar{Y}。此时,预测误差即为 YiYˉY_i - \bar{Y}。SST 将所有这种预测误差的平方加总,度量的是在不借助任何自变量的情况下,数据本身蕴含的总不确定性总波动幅度。离差平方的使用保证了各项非负,避免正负离差相互抵消(因为 (YiYˉ)=0\sum (Y_i - \bar{Y}) = 0),同时赋予大幅离差更高的权重。

平方和分解定理

在包含截距项的普通最小二乘法(OLS)回归中,SST 可以精确地分解为两个正交部分:

SST=SSR+SSE.\text{SST} = \text{SSR} + \text{SSE}.

其中两个分量的定义和含义如下:

  • 回归平方和(SSR,Sum of Squares due to Regression,亦称 ESS,Explained Sum of Squares): \[ \text{SSR} = \sum_{i=1}^{n} (\hat{Y}_i - \bar{Y})^2, \] 度量模型拟合值 Y^i\hat{Y}_i 相对于均值 Yˉ\bar{Y} 的变异程度。SSR 越大,说明回归模型从自变量中提取的系统性信息越多。
  • 误差平方和(SSE,Sum of Squares due to Error,亦称 RSS,Residual Sum of Squares): \[ \text{SSE} = \sum_{i=1}^{n} (Y_i - \hat{Y}_i)^2, \] 度量实际观测值与拟合值之间的残差变异。SSE 越小,说明模型对数据的拟合越精确。

这一分解是方差分析表的核心,也是判断回归模型整体显著性的理论依据。从几何角度理解,SST 对应因变量观测向量 Y\mathbf{Y} 在均值向量 Yˉ1\bar{Y}\mathbf{1} 上的投影残差长度平方,SSR 对应拟合值向量 Y^\hat{\mathbf{Y}} 的变异,SSE 对应残差向量的长度平方。三者通过勾股定理般的关系构成一个直角三角形。

决定系数 R2R^2

SST 最直接的应用之一是计算决定系数(Coefficient of Determination):

R2=SSRSST=1SSESST.R^2 = \frac{\text{SSR}}{\text{SST}} = 1 - \frac{\text{SSE}}{\text{SST}}.

R2[0,1]R^2 \in [0, 1] 度量了回归模型解释的总变异比例。当模型完美拟合数据时,SSE=0\text{SSE} = 0R2=1R^2 = 1;当模型仅含截距项(即 Y^i=Yˉ\hat{Y}_i = \bar{Y})时,SSR=0\text{SSR} = 0R2=0R^2 = 0。需要强调的是,平方和分解及 R2R^2 的上述定义严格依赖于模型包含截距项;若无截距,SST 的计算方式需调整为 Yi2\sum Y_i^2,平方和分解也不再遵循 SST = SSR + SSE 的标准形式。

与样本方差和标准误的关系

SST 与样本方差 SY2S_Y^2 之间存在直接的数量关系:

SY2=1n1i=1n(YiYˉ)2=SSTn1,S_Y^2 = \frac{1}{n-1} \sum_{i=1}^{n} (Y_i - \bar{Y})^2 = \frac{\text{SST}}{n-1},

因此 SST 本质上是未修正的离差平方和,而样本方差是对 SST 进行自由度 n1n-1 修正后的结果。这一关系使得 SST 出现在多种假设检验中。例如,在单样本 t 检验中,检验统计量 t=Yˉμ0SY/nt = \frac{\bar{Y} - \mu_0}{S_Y / \sqrt{n}} 的分母标准误间接依赖于 SST。同样,在 ANOVA 的 F 检验中,组间和组内均方(Mean Square)均由对应平方和除以自由度得到。

在 F 检验中的应用

回归分析的整体显著性检验中,SST 通过其分解分量构成 F 统计量:

F=SSR/kSSE/(nk1)=MSRMSE,F = \frac{\text{SSR} / k}{\text{SSE} / (n - k - 1)} = \frac{\text{MSR}}{\text{MSE}},

其中 kk 为自变量个数,MSR 为回归均方,MSE 为误差均方。该 F 统计量检验的是原假设 H0:β1=β2==βk=0H_0: \beta_1 = \beta_2 = \cdots = \beta_k = 0,即所有回归系数同时为零。若模型整体显著,则 SSR 相对于 SSE 足够大,F 统计量的值会超过临界值。

在单因素方差分析中,类似的分解形式为:

SST=SSB+SSW,\text{SST} = \text{SSB} + \text{SSW},

其中 SSB(组间平方和)衡量各组均值相对于总均值的离散程度,SSW(组内平方和)衡量各组内部的随机波动。对应的 F 统计量检验各组均值是否相等。

性质与注意事项

  • 尺度依赖性:SST 的数值随因变量的测量单位变化。若将 YY 从元换算为万元,SST 缩小 10810^8 倍,但 R2R^2、F 统计量等无量纲指标保持不变。
  • 对异常值敏感:由于平方运算的存在,单个极端值可以大幅推高 SST,进而影响模型评估指标的可信度。因此在计算 SST 前应进行异常值诊断。
  • 与样本量的关系:对于给定分布,样本量 nn 越大,SST 的期望值通常也越大,因此 SST 本身不适用于跨样本比较。
  • 与自由度关联:SST 对应的自由度为 n1n-1,因为样本均值的约束消耗了一个自由度。在 ANOVA 表中,SST 的均方 MST=SST/(n1)\text{MST} = \text{SST} / (n-1) 实际上就是样本方差。
  • 在多元回归中的局限:由于增加自变量必然增加 SSR(或保持不变),SST 不变时 R2R^2 永远不会下降——这解释了为何需要引入调整后的 R2R^2(Adjusted R2R^2)来惩罚模型复杂度。

与其他平方和指标的区别

在统计学中,名称相似的平方和概念容易混淆,需要加以区分:

  • SST (Sum of Squares Total):因变量总变异,始终基于 YY 相对于其均值的离差计算。
  • SSR (Sum of Squares due to Regression):回归平方和,模型解释的部分。
  • SSE (Sum of Squares due to Error):误差平方和,模型未解释的部分。
  • SSB (Sum of Squares Between Groups):组间平方和,ANOVA 中各组均值之间的变异。
  • SSW (Sum of Squares Within Groups):组内平方和,ANOVA 中各组内部的变异。

部分教材采用不同的记法:以 TSS 表示总平方和,ESS 表示解释平方和,RSS 表示残差平方和。无论记法如何,核心关系 SST = SSR + SSE(或 TSS = ESS + RSS)始终是建模分析的基本框架。

历史背景

平方和分解的思想可以追溯到卡尔·皮尔逊(Karl Pearson)和罗纳德·费希尔(Ronald Fisher)的早期工作。费希尔在 20 世纪 20 年代系统发展了方差分析方法,将变异分解为不同来源,并建立了基于 F 分布的显著性检验体系。SST 作为总变异的度量,在这一框架中处于基石地位。此后,随着回归分析在经济、金融、生物、心理等领域的广泛应用,SST 已成为统计推断中最基础也最通用的概念之一。