ARTICLE

Sum of Squares Total

总平方和 (Sum of Squares Total, SST) 总平方和（Sum of Squares Total，简称 SST，亦记作 TSS，即 Total Sum of Squares）是方差分析（ANOVA）与线性回归分析中度量因变量公式总变异程度的核心统计量，定义为各观测值与其样本均值之差的平方和。SST 构成了将总变异分解为可解释部分与不可

浏览 0 更新 2025-10-26

总平方和 (Sum of Squares Total, SST)

总平方和（Sum of Squares Total，简称 SST，亦记作 TSS，即 Total Sum of Squares）是方差分析（ANOVA）与线性回归分析中度量因变量 $Y$ 总变异程度的核心统计量，定义为各观测值与其样本均值之差的平方和。SST 构成了将总变异分解为可解释部分与不可解释部分的逻辑起点，是评估模型拟合优度、构建 F 统计量以及计算决定系数 $R^2$ 的基础。

数学定义与直观含义

设 $Y_1, Y_2, \ldots, Y_n$ 为因变量 $Y$ 的 $n$ 个观测值， $\bar{Y} = \frac{1}{n}\sum_{i=1}^{n} Y_i$ 为样本均值，则总平方和的数学表达式为：

\text{SST} = \sum_{i=1}^{n} (Y_i - \bar{Y})^2.

从直观上看，若我们仅知道样本均值 $\bar{Y}$ 而对各观测值一无所知，那么对于任意一个观测值，最自然的预测就是 $\bar{Y}$ 。此时，预测误差即为 $Y_i - \bar{Y}$ 。SST 将所有这种预测误差的平方加总，度量的是在不借助任何自变量的情况下，数据本身蕴含的总不确定性或总波动幅度。离差平方的使用保证了各项非负，避免正负离差相互抵消（因为 $\sum (Y_i - \bar{Y}) = 0$ ），同时赋予大幅离差更高的权重。

平方和分解定理

在包含截距项的普通最小二乘法（OLS）回归中，SST 可以精确地分解为两个正交部分：

\text{SST} = \text{SSR} + \text{SSE}.

其中两个分量的定义和含义如下：

回归平方和（SSR，Sum of Squares due to Regression，亦称 ESS，Explained Sum of Squares）： \[ \text{SSR} = \sum_{i=1}^{n} (\hat{Y}_i - \bar{Y})^2, \] 度量模型拟合值 $\hat{Y}_i$ 相对于均值 $\bar{Y}$ 的变异程度。SSR 越大，说明回归模型从自变量中提取的系统性信息越多。
误差平方和（SSE，Sum of Squares due to Error，亦称 RSS，Residual Sum of Squares）： \[ \text{SSE} = \sum_{i=1}^{n} (Y_i - \hat{Y}_i)^2, \] 度量实际观测值与拟合值之间的残差变异。SSE 越小，说明模型对数据的拟合越精确。

这一分解是方差分析表的核心，也是判断回归模型整体显著性的理论依据。从几何角度理解，SST 对应因变量观测向量 $\mathbf{Y}$ 在均值向量 $\bar{Y}\mathbf{1}$ 上的投影残差长度平方，SSR 对应拟合值向量 $\hat{\mathbf{Y}}$ 的变异，SSE 对应残差向量的长度平方。三者通过勾股定理般的关系构成一个直角三角形。

决定系数 $R^2$

SST 最直接的应用之一是计算决定系数（Coefficient of Determination）：

R^2 = \frac{\text{SSR}}{\text{SST}} = 1 - \frac{\text{SSE}}{\text{SST}}.

$R^2 \in [0, 1]$ 度量了回归模型解释的总变异比例。当模型完美拟合数据时， $\text{SSE} = 0$ ， $R^2 = 1$ ；当模型仅含截距项（即 $\hat{Y}_i = \bar{Y}$ ）时， $\text{SSR} = 0$ ， $R^2 = 0$ 。需要强调的是，平方和分解及 $R^2$ 的上述定义严格依赖于模型包含截距项；若无截距，SST 的计算方式需调整为 $\sum Y_i^2$ ，平方和分解也不再遵循 SST = SSR + SSE 的标准形式。

与样本方差和标准误的关系

SST 与样本方差 $S_Y^2$ 之间存在直接的数量关系：

S_Y^2 = \frac{1}{n-1} \sum_{i=1}^{n} (Y_i - \bar{Y})^2 = \frac{\text{SST}}{n-1},

因此 SST 本质上是未修正的离差平方和，而样本方差是对 SST 进行自由度 $n-1$ 修正后的结果。这一关系使得 SST 出现在多种假设检验中。例如，在单样本 t 检验中，检验统计量 $t = \frac{\bar{Y} - \mu_0}{S_Y / \sqrt{n}}$ 的分母标准误间接依赖于 SST。同样，在 ANOVA 的 F 检验中，组间和组内均方（Mean Square）均由对应平方和除以自由度得到。

在 F 检验中的应用

在回归分析的整体显著性检验中，SST 通过其分解分量构成 F 统计量：

F = \frac{\text{SSR} / k}{\text{SSE} / (n - k - 1)} = \frac{\text{MSR}}{\text{MSE}},

其中 $k$ 为自变量个数，MSR 为回归均方，MSE 为误差均方。该 F 统计量检验的是原假设 $H_0: \beta_1 = \beta_2 = \cdots = \beta_k = 0$ ，即所有回归系数同时为零。若模型整体显著，则 SSR 相对于 SSE 足够大，F 统计量的值会超过临界值。

在单因素方差分析中，类似的分解形式为：

\text{SST} = \text{SSB} + \text{SSW},

其中 SSB（组间平方和）衡量各组均值相对于总均值的离散程度，SSW（组内平方和）衡量各组内部的随机波动。对应的 F 统计量检验各组均值是否相等。

性质与注意事项

尺度依赖性：SST 的数值随因变量的测量单位变化。若将 $Y$ 从元换算为万元，SST 缩小 $10^8$ 倍，但 $R^2$ 、F 统计量等无量纲指标保持不变。
对异常值敏感：由于平方运算的存在，单个极端值可以大幅推高 SST，进而影响模型评估指标的可信度。因此在计算 SST 前应进行异常值诊断。
与样本量的关系：对于给定分布，样本量 $n$ 越大，SST 的期望值通常也越大，因此 SST 本身不适用于跨样本比较。
与自由度关联：SST 对应的自由度为 $n-1$ ，因为样本均值的约束消耗了一个自由度。在 ANOVA 表中，SST 的均方 $\text{MST} = \text{SST} / (n-1)$ 实际上就是样本方差。
在多元回归中的局限：由于增加自变量必然增加 SSR（或保持不变），SST 不变时 $R^2$ 永远不会下降——这解释了为何需要引入调整后的 $R^2$ （Adjusted $R^2$ ）来惩罚模型复杂度。

与其他平方和指标的区别

在统计学中，名称相似的平方和概念容易混淆，需要加以区分：

SST (Sum of Squares Total)：因变量总变异，始终基于 $Y$ 相对于其均值的离差计算。
SSR (Sum of Squares due to Regression)：回归平方和，模型解释的部分。
SSE (Sum of Squares due to Error)：误差平方和，模型未解释的部分。
SSB (Sum of Squares Between Groups)：组间平方和，ANOVA 中各组均值之间的变异。
SSW (Sum of Squares Within Groups)：组内平方和，ANOVA 中各组内部的变异。

部分教材采用不同的记法：以 TSS 表示总平方和，ESS 表示解释平方和，RSS 表示残差平方和。无论记法如何，核心关系 SST = SSR + SSE（或 TSS = ESS + RSS）始终是建模分析的基本框架。

历史背景

平方和分解的思想可以追溯到卡尔·皮尔逊（Karl Pearson）和罗纳德·费希尔（Ronald Fisher）的早期工作。费希尔在 20 世纪 20 年代系统发展了方差分析方法，将变异分解为不同来源，并建立了基于 F 分布的显著性检验体系。SST 作为总变异的度量，在这一框架中处于基石地位。此后，随着回归分析在经济、金融、生物、心理等领域的广泛应用，SST 已成为统计推断中最基础也最通用的概念之一。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。