ARTICLE
Sum of Squares Total
总平方和 (Sum of Squares Total, SST) 总平方和(Sum of Squares Total,简称 SST,亦记作 TSS,即 Total Sum of Squares)是方差分析(ANOVA)与线性回归分析中度量因变量 Y 总变异程度的核心统计量,定义为各观测值与其样本均值之差的平方和。SST 构成了将总变异分解为可解释部分与不可解
总平方和 (Sum of Squares Total, SST)
总平方和(Sum of Squares Total,简称 SST,亦记作 TSS,即 Total Sum of Squares)是方差分析(ANOVA)与线性回归分析中度量因变量 总变异程度的核心统计量,定义为各观测值与其样本均值之差的平方和。SST 构成了将总变异分解为可解释部分与不可解释部分的逻辑起点,是评估模型拟合优度、构建 F 统计量以及计算决定系数 的基础。
数学定义与直观含义
设 为因变量 的 个观测值, 为样本均值,则总平方和的数学表达式为:
从直观上看,若我们仅知道样本均值 而对各观测值一无所知,那么对于任意一个观测值,最自然的预测就是 。此时,预测误差即为 。SST 将所有这种预测误差的平方加总,度量的是在不借助任何自变量的情况下,数据本身蕴含的总不确定性或总波动幅度。离差平方的使用保证了各项非负,避免正负离差相互抵消(因为 ),同时赋予大幅离差更高的权重。
平方和分解定理
在包含截距项的普通最小二乘法(OLS)回归中,SST 可以精确地分解为两个正交部分:
其中两个分量的定义和含义如下:
- 回归平方和(SSR,Sum of Squares due to Regression,亦称 ESS,Explained Sum of Squares): \[ \text{SSR} = \sum_{i=1}^{n} (\hat{Y}_i - \bar{Y})^2, \] 度量模型拟合值 相对于均值 的变异程度。SSR 越大,说明回归模型从自变量中提取的系统性信息越多。
- 误差平方和(SSE,Sum of Squares due to Error,亦称 RSS,Residual Sum of Squares): \[ \text{SSE} = \sum_{i=1}^{n} (Y_i - \hat{Y}_i)^2, \] 度量实际观测值与拟合值之间的残差变异。SSE 越小,说明模型对数据的拟合越精确。
这一分解是方差分析表的核心,也是判断回归模型整体显著性的理论依据。从几何角度理解,SST 对应因变量观测向量 在均值向量 上的投影残差长度平方,SSR 对应拟合值向量 的变异,SSE 对应残差向量的长度平方。三者通过勾股定理般的关系构成一个直角三角形。
决定系数
SST 最直接的应用之一是计算决定系数(Coefficient of Determination):
度量了回归模型解释的总变异比例。当模型完美拟合数据时,,;当模型仅含截距项(即 )时,,。需要强调的是,平方和分解及 的上述定义严格依赖于模型包含截距项;若无截距,SST 的计算方式需调整为 ,平方和分解也不再遵循 SST = SSR + SSE 的标准形式。
与样本方差和标准误的关系
SST 与样本方差 之间存在直接的数量关系:
因此 SST 本质上是未修正的离差平方和,而样本方差是对 SST 进行自由度 修正后的结果。这一关系使得 SST 出现在多种假设检验中。例如,在单样本 t 检验中,检验统计量 的分母标准误间接依赖于 SST。同样,在 ANOVA 的 F 检验中,组间和组内均方(Mean Square)均由对应平方和除以自由度得到。
在 F 检验中的应用
在回归分析的整体显著性检验中,SST 通过其分解分量构成 F 统计量:
其中 为自变量个数,MSR 为回归均方,MSE 为误差均方。该 F 统计量检验的是原假设 ,即所有回归系数同时为零。若模型整体显著,则 SSR 相对于 SSE 足够大,F 统计量的值会超过临界值。
在单因素方差分析中,类似的分解形式为:
其中 SSB(组间平方和)衡量各组均值相对于总均值的离散程度,SSW(组内平方和)衡量各组内部的随机波动。对应的 F 统计量检验各组均值是否相等。
性质与注意事项
- 尺度依赖性:SST 的数值随因变量的测量单位变化。若将 从元换算为万元,SST 缩小 倍,但 、F 统计量等无量纲指标保持不变。
- 对异常值敏感:由于平方运算的存在,单个极端值可以大幅推高 SST,进而影响模型评估指标的可信度。因此在计算 SST 前应进行异常值诊断。
- 与样本量的关系:对于给定分布,样本量 越大,SST 的期望值通常也越大,因此 SST 本身不适用于跨样本比较。
- 与自由度关联:SST 对应的自由度为 ,因为样本均值的约束消耗了一个自由度。在 ANOVA 表中,SST 的均方 实际上就是样本方差。
- 在多元回归中的局限:由于增加自变量必然增加 SSR(或保持不变),SST 不变时 永远不会下降——这解释了为何需要引入调整后的 (Adjusted )来惩罚模型复杂度。
与其他平方和指标的区别
在统计学中,名称相似的平方和概念容易混淆,需要加以区分:
- SST (Sum of Squares Total):因变量总变异,始终基于 相对于其均值的离差计算。
- SSR (Sum of Squares due to Regression):回归平方和,模型解释的部分。
- SSE (Sum of Squares due to Error):误差平方和,模型未解释的部分。
- SSB (Sum of Squares Between Groups):组间平方和,ANOVA 中各组均值之间的变异。
- SSW (Sum of Squares Within Groups):组内平方和,ANOVA 中各组内部的变异。
部分教材采用不同的记法:以 TSS 表示总平方和,ESS 表示解释平方和,RSS 表示残差平方和。无论记法如何,核心关系 SST = SSR + SSE(或 TSS = ESS + RSS)始终是建模分析的基本框架。
历史背景
平方和分解的思想可以追溯到卡尔·皮尔逊(Karl Pearson)和罗纳德·费希尔(Ronald Fisher)的早期工作。费希尔在 20 世纪 20 年代系统发展了方差分析方法,将变异分解为不同来源,并建立了基于 F 分布的显著性检验体系。SST 作为总变异的度量,在这一框架中处于基石地位。此后,随着回归分析在经济、金融、生物、心理等领域的广泛应用,SST 已成为统计推断中最基础也最通用的概念之一。