ARTICLE

TSS (Total Sum of Squares)

总平方和（Total Sum of Squares, TSS）是统计学和计量经济学中衡量数据总变异性的核心指标。它定义为因变量各观测值与其均值之差的平方和，反映了数据中所有观测点在因变量维度上的总离散程度。在回归分析和方差分析（ANOVA）的框架下，TSS 扮演着分解总变异、评估模型拟合优度的关键角色。其数学表达式为：其中 y_i 为第 i 个观测值，ȳ

浏览 0 更新 2025-10-26

TSS = Σ(y_i - ȳ)²

其中 $y_i$ 为第 i 个观测值，ȳ 为所有观测值的样本均值，求和遍历所有 n 个样本点。

TSS 的深层逻辑源于变异分解思想，这是统计学中最基本也最强大的分析范式之一。在回归模型中，总平方和可以分解为两个正交部分：回归平方和（Explained Sum of Squares, ESS）与残差平方和（Residual Sum of Squares, RSS），即 TSS = ESS + RSS。这一分解成立的先决条件是模型包含截距项，且采用普通最小二乘法（OLS）估计。ESS 衡量的是模型解释的变异部分，即拟合值与均值之差的平方和；RSS 衡量的是模型未能解释的变异部分，即实际值与拟合值之差的平方和。基于这一分解，可以导出拟合优度指标 R² = ESS / TSS = 1 - RSS / TSS，它直观地表示模型解释的变异占总变异的比例，取值范围为 [0, 1]。R² 越接近 1，表明模型的解释力越强。

TSS 的计算过程蕴含着对数据集中趋势的深刻理解。样本均值 ȳ 是使 TSS 达到最小的中心点——对于任意实数 c，必有 Σ( $y_i$ - c)² ≥ Σ( $y_i$ - ȳ)²，这一性质源于二次函数的凸性，也是最小二乘法的几何基础。从线性代数的视角看，TSS 相当于因变量向量 y 在减去其均值向量后所得残差向量的平方长度（L2 范数平方），即中心化后的总能量。若将观测值视为 n 维欧几里得空间中的点，TSS 则描述了这些点偏离 ȳ 所在直线的总体距离。这一几何直觉对理解和解释回归模型的本质至关重要。

在方差分析中，TSS 是构建 F 检验的基础。对于单因素方差分析，TSS 进一步分解为组间平方和（SSB）与组内平方和（SSW）。组间平方和衡量各处理组均值与总均值的差异，反映因素效应的大小；组内平方和衡量各处理组内部观测值的变异，反映随机误差的大小。F 统计量定义为 (SSB / (k-1)) / (SSW / (n-k))，其中 k 为组数，n 为总样本量。换言之，TSS 的分解为检验多个总体均值是否相等提供了严谨的统计框架。如果组间变异相对于组内变异足够大，则拒绝原假设，认为因素对各组均值产生了显著影响。这种分解思想也延伸到了多因素方差分析、协方差分析以及重复测量设计等更复杂的实验设计方法中。

此外，TSS 在多元回归背景下也有自然的推广。总平方和可以被理解为在包含截距的零模型（即仅包含常数的模型）下的残差平方和。当我们逐步加入解释变量时，TSS 保持不变，而 ESS 逐渐增大、RSS 逐渐减小。这一特性使得 TSS 成为比较不同模型嵌套关系的基准参照点。在逐步回归（stepwise regression）中，TSS 被用作计算偏决定系数（partial R²）的分母基础，从而帮助研究者判断新增变量对模型解释力的边际贡献。

理解 TSS 时需要注意几个重要性质。其一，TSS 为非负数，且仅当所有观测值完全相等时才为零，此时数据不存在任何变异。其二，TSS 对异常值极为敏感——一个极端值可能使 TSS 大幅膨胀，从而影响 R² 等派生指标的可靠性。其三，TSS 的量纲为因变量单位的平方，因此在跨数据集比较时需要谨慎，通常使用标准化后的指标（如变异系数或归一化后的 R²）。其四，TSS 随样本量的增加而累积增大，故不宜直接用 TSS 的大小比较不同样本量的数据集之间的变异程度。

在时间序列分析中，TSS 也有其独特的意义。去趋势后的 TSS 反映的是围绕趋势的波动能量；而在差分运算后，TSS 则刻画了序列的短期变动幅度。对于非平稳序列，TSS 可能随时间的推移趋于无穷，这提醒研究者在使用基于 TSS 的拟合优度指标时要格外谨慎，避免虚假回归（spurious regression）问题。对于一阶单整序列而言，其水平值的 TSS 往往呈发散趋势，而差分序列的 TSS 则趋于稳定。这一差异在单位根检验中得到了直接应用——检验统计量常常涉及 TSS 的某种变形。

TSS 与自由度有着天然的关联。在计算 TSS 时，由于使用了样本均值 ȳ 代替总体均值 μ，损失了一个自由度，因此 TSS 的自由度为 n - 1。这一自由度调整在进一步推断总体方差 σ² 时至关重要。实际上，样本方差 S² = TSS / (n - 1) 正是总体方差的无偏估计量，其分母使用 n - 1 而非 n，正是为了纠正自由度损失带来的偏差。这一关系也揭示了 TSS 与方差之间的内在联系：方差本质上就是单位自由度的 TSS。

在机器学习与高维统计中，TSS 的概念被进一步推广。总平方和的思想出现在主成分分析（PCA）的特征值分解、聚类分析中的总离差平方和、以及偏最小二乘回归（PLSR）的核矩阵构造中。以 PCA 为例，数据矩阵的总平方和恰好等于所有主成分特征值之和，因此每个主成分解释的变异比例可通过其特征值与 TSS 之比来衡量。在 k 均值聚类中，总平方和被分解为类内平方和与类间平方和，算法通过最小化类内平方和来实现聚类优化——这与方差分析中的分解思想如出一辙。

不仅如此，TSS 还在统计推断的框架中扮演着规范化的角色。在似然比检验、瓦尔德检验和拉格朗日乘子检验这三大经典检验中，TSS 或其相关变形常被用作构造检验统计量的基准。例如，在检验回归系数的联合显著性时，无约束模型的 RSS 与有约束模型的 RSS 之差，实际上反映了新增解释变量对 TSS 中未被解释部分的缩减量。这一缩减量越大，说明新增变量的解释力越强。

总而言之，TSS 不仅是计算 R² 和 F 统计量的中间步骤，更是统计思维中变异分解哲学的量化表达。从简单线性回归到复杂的高维模型，从经典频率学派到贝叶斯统计中的后验分布分析，TSS 始终是连接理论与应用的纽带。它简洁而深刻地回答了数据科学中的一个根本问题：观测值究竟在多大程度上偏离了它们的集中趋势，而这种偏离又有多少可以被我们所构建的模型所解释。掌握 TSS 及其相关概念，是深入理解现代统计方法与数据分析技术的重要前提。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。