ARTICLE
Total Sum of Squares (TSS)
Total Sum of Squares(TSS,总平方和)是统计学与回归分析中的核心概念,用于度量因变量观测值围绕其均值的总变异程度。TSS 构成了方差分析(ANOVA)与决定系数 R² 的基础,是理解回归模型拟合优度的关键量,几乎所有涉及线性模型的实证研究都会直接或间接地使用这一概念。 定义与公式 给定一组因变量观测值 y_1, y_2, , y_n ,
Total Sum of Squares(TSS,总平方和)是统计学与回归分析中的核心概念,用于度量因变量观测值围绕其均值的总变异程度。TSS 构成了方差分析(ANOVA)与决定系数 R² 的基础,是理解回归模型拟合优度的关键量,几乎所有涉及线性模型的实证研究都会直接或间接地使用这一概念。
定义与公式
给定一组因变量观测值 ,记其样本均值为 ,则总平方和定义为各观测值偏离均值的平方和:
TSS 反映了因变量 的总变异——即在不引入任何解释变量的情况下,数据本身固有的波动幅度。若所有观测值均相等,则 TSS 为零;观测值越分散,TSS 越大。在直觉上,TSS 回答了一个简单问题:"如果不使用任何预测变量,仅凭均值来预测 ,预测误差有多大?" 这一误差的平方和恰好就是 TSS。
在总体层面,对应的概念是总体总平方和 (其中 为总体均值),但实践中通常使用样本 TSS,且常通过自由度 进行修正以获得无偏方差估计。
平方和分解
TSS 在回归分析中的核心地位源于如下平方和分解定理:对于包含截距项的最小二乘(OLS)回归模型,总平方和可以分解为回归平方和(Explained Sum of Squares, ESS)与残差平方和(Residual Sum of Squares, RSS)之和:
其中:
- ESS(回归平方和,也称解释平方和):,度量由回归模型所解释的变异部分,即拟合值 偏离均值的程度。ESS 越大,说明模型捕捉到的数据模式越多。
- RSS(残差平方和):,度量模型未能解释的变异部分,即实际值与拟合值之间的残差波动。RSS 越小,说明模型对观测值的拟合越精确。
该分解的数学证明依赖于 OLS 的正交条件:残差与拟合值(以及解释变量)不相关,且残差的均值为零。这一性质使得 TSS 可以干净地拆分为"解释部分"与"未解释部分"。此外,分解式的交叉项 在 OLS 条件下恰好为零,这是推导的关键步骤。
决定系数 R²
TSS 最直接的应用是定义决定系数 :
衡量回归模型解释的变异占总变异的比例,取值在 之间。 表示模型完美拟合数据(RSS = 0); 表示模型毫无解释力(ESS = 0,即拟合值恒等于均值)。 的直观含义是:"在 的总波动中,有多少比例可以被模型中的解释变量所解释?" 这一比率是实证研究中最常用的拟合优度指标之一。
需要注意的是,在多元回归中加入更多解释变量总会使 RSS 下降(或不变),从而使得 单调递增,这正是调整 和各类信息准则(AIC、BIC)被提出的原因。此外,当模型不含截距项时,TSS = ESS + RSS 的分解不再成立,此时 可能为负值,使用时应格外谨慎。
与方差的关系
TSS 与样本方差 有着直接的数量关系:
因此,TSS 本质上是有偏(或经自由度调整后无偏)的方差估计的原始平方和形式。这一关系将回归分析与描述统计自然地连接起来:回归的目标就是用解释变量去"解释" 的方差。事实上,"方差分析"(ANOVA)一词的由来正是基于将总方差(即 TSS 除以自由度)分解为不同来源的做法。
F 检验中的应用
在回归模型的整体显著性检验中,TSS 通过 ESS 和 RSS 构造 F 统计量:
其中 为解释变量个数。该统计量检验原假设:所有解释变量的系数均为零。直观而言,若 ESS 相对于 RSS 足够大——即模型解释的变异远超残差变异——则拒绝原假设,认为模型整体显著。F 统计量也可以直接使用 R² 表示为 ,进一步凸显了 TSS 在统计推断中的枢纽作用。
推广与变体
TSS 的概念可以推广至多元回归、非线性回归以及更一般的线性模型框架:
- 加权总平方和:在加权最小二乘(WLS)中,TSS 定义为 ,其中 为权重, 为加权均值。适用于异方差数据的建模。
- 广义线性模型(GLM)中的偏差:TSS 的推广形式是零模型(仅含截距)的偏差(null deviance),对应 的形式,其中 为对数似然函数。在逻辑回归、泊松回归等 GLM 中,偏差替代了平方和作为变异度量的角色。
- 多元方差分析(MANOVA):在多因变量情形中,TSS 被推广为总离差矩阵 ,相应的分解变为矩阵形式的 (组间 + 组内),此时的检验关注矩阵的迹或行列式。
局限性
尽管 TSS 是回归分析的基石概念,其使用也存在若干局限:
- 对异常值敏感:平方运算放大了远离均值的极端值的影响,使得 TSS 在存在异常值时可能失真,单个离群点即可大幅拉高 TSS。
- 依赖均值:TSS 仅衡量围绕均值的离散程度,对非对称分布或存在多峰的数据可能无法全面刻画变异。对于偏态分布,中位数绝对偏差(MAD)等稳健度量可能更为合适。
- 量纲问题:TSS 的量纲为 的平方单位,不同数据集的 TSS 不可直接比较。标准化时需除以 转化为方差,或与标准误结合使用。
- 分解的有效性前提:TSS = ESS + RSS 的分解依赖于 OLS 的正交条件,在工具变量估计、岭回归、非参数回归等设定中需谨慎解释,或采用其他拟合度量指标。
总结
总平方和(TSS)是统计学中最基础且最重要的量之一。它量化了数据的总变异,通过平方和分解为回归模型提供了衡量解释力的标尺,进而衍生出 R²、F 统计量、调整 R² 等核心推断工具。从经典线性回归到现代机器学习的特征选择方法,TSS 的思想贯穿始终。深刻理解 TSS 的内涵与性质,是掌握回归分析、方差分析乃至整个统计建模的起点。