ARTICLE

Total Sum of Squares (TSS)

Total Sum of Squares(TSS,总平方和)是统计学与回归分析中的核心概念,用于度量因变量观测值围绕其均值的总变异程度。TSS 构成了方差分析(ANOVA)与决定系数 R² 的基础,是理解回归模型拟合优度的关键量,几乎所有涉及线性模型的实证研究都会直接或间接地使用这一概念。 定义与公式 给定一组因变量观测值 y_1, y_2, , y_n ,

浏览 0 更新 2025-10-26

Total Sum of Squares(TSS,总平方和)是统计学与回归分析中的核心概念,用于度量因变量观测值围绕其均值的总变异程度。TSS 构成了方差分析(ANOVA)与决定系数 R² 的基础,是理解回归模型拟合优度的关键量,几乎所有涉及线性模型的实证研究都会直接或间接地使用这一概念。

定义与公式

给定一组因变量观测值 y1,y2,,yn y_1, y_2, \dots, y_n ,记其样本均值为 yˉ=1ni=1nyi \bar{y} = \frac{1}{n}\sum_{i=1}^n y_i ,则总平方和定义为各观测值偏离均值的平方和:

TSS=i=1n(yiyˉ)2\text{TSS} = \sum_{i=1}^n (y_i - \bar{y})^2

TSS 反映了因变量 y y 的总变异——即在不引入任何解释变量的情况下,数据本身固有的波动幅度。若所有观测值均相等,则 TSS 为零;观测值越分散,TSS 越大。在直觉上,TSS 回答了一个简单问题:"如果不使用任何预测变量,仅凭均值来预测 y y ,预测误差有多大?" 这一误差的平方和恰好就是 TSS。

在总体层面,对应的概念是总体总平方和 (yiμ)2 \sum (y_i - \mu)^2 (其中 μ \mu 为总体均值),但实践中通常使用样本 TSS,且常通过自由度 n1 n-1 进行修正以获得无偏方差估计。

平方和分解

TSS 在回归分析中的核心地位源于如下平方和分解定理:对于包含截距项的最小二乘(OLS)回归模型,总平方和可以分解为回归平方和(Explained Sum of Squares, ESS)与残差平方和(Residual Sum of Squares, RSS)之和:

TSS=ESS+RSS\text{TSS} = \text{ESS} + \text{RSS}

其中:

  • ESS(回归平方和,也称解释平方和):i=1n(y^iyˉ)2 \sum_{i=1}^n (\hat{y}_i - \bar{y})^2 ,度量由回归模型所解释的变异部分,即拟合值 y^i \hat{y}_i 偏离均值的程度。ESS 越大,说明模型捕捉到的数据模式越多。
  • RSS(残差平方和):i=1n(yiy^i)2 \sum_{i=1}^n (y_i - \hat{y}_i)^2 ,度量模型未能解释的变异部分,即实际值与拟合值之间的残差波动。RSS 越小,说明模型对观测值的拟合越精确。

该分解的数学证明依赖于 OLS 的正交条件:残差与拟合值(以及解释变量)不相关,且残差的均值为零。这一性质使得 TSS 可以干净地拆分为"解释部分"与"未解释部分"。此外,分解式的交叉项 2(yiy^i)(y^iyˉ) 2\sum (y_i - \hat{y}_i)(\hat{y}_i - \bar{y}) 在 OLS 条件下恰好为零,这是推导的关键步骤。

决定系数 R²

TSS 最直接的应用是定义决定系数 R2 R^2

R2=ESSTSS=1RSSTSSR^2 = \frac{\text{ESS}}{\text{TSS}} = 1 - \frac{\text{RSS}}{\text{TSS}}

R2 R^2 衡量回归模型解释的变异占总变异的比例,取值在 [0,1] [0, 1] 之间。R2=1 R^2 = 1 表示模型完美拟合数据(RSS = 0);R2=0 R^2 = 0 表示模型毫无解释力(ESS = 0,即拟合值恒等于均值)。R2 R^2 的直观含义是:"在 y y 的总波动中,有多少比例可以被模型中的解释变量所解释?" 这一比率是实证研究中最常用的拟合优度指标之一。

需要注意的是,在多元回归中加入更多解释变量总会使 RSS 下降(或不变),从而使得 R2 R^2 单调递增,这正是调整 R2 R^2 和各类信息准则(AIC、BIC)被提出的原因。此外,当模型不含截距项时,TSS = ESS + RSS 的分解不再成立,此时 R2 R^2 可能为负值,使用时应格外谨慎。

与方差的关系

TSS 与样本方差 sy2 s_y^2 有着直接的数量关系:

sy2=TSSn1s_y^2 = \frac{\text{TSS}}{n - 1}

因此,TSS 本质上是有偏(或经自由度调整后无偏)的方差估计的原始平方和形式。这一关系将回归分析与描述统计自然地连接起来:回归的目标就是用解释变量去"解释" y y 的方差。事实上,"方差分析"(ANOVA)一词的由来正是基于将总方差(即 TSS 除以自由度)分解为不同来源的做法。

F 检验中的应用

在回归模型的整体显著性检验中,TSS 通过 ESS 和 RSS 构造 F 统计量:

F=ESS/(k)RSS/(nk1)F = \frac{\text{ESS} / (k)}{\text{RSS} / (n - k - 1)}

其中 k k 为解释变量个数。该统计量检验原假设:所有解释变量的系数均为零。直观而言,若 ESS 相对于 RSS 足够大——即模型解释的变异远超残差变异——则拒绝原假设,认为模型整体显著。F 统计量也可以直接使用 R² 表示为 F=R2/k(1R2)/(nk1) F = \frac{R^2/k}{(1-R^2)/(n-k-1)} ,进一步凸显了 TSS 在统计推断中的枢纽作用。

推广与变体

TSS 的概念可以推广至多元回归、非线性回归以及更一般的线性模型框架:

  • 加权总平方和:在加权最小二乘(WLS)中,TSS 定义为 wi(yiyˉw)2 \sum w_i(y_i - \bar{y}_w)^2 ,其中 wi w_i 为权重,yˉw \bar{y}_w 为加权均值。适用于异方差数据的建模。
  • 广义线性模型(GLM)中的偏差:TSS 的推广形式是零模型(仅含截距)的偏差(null deviance),对应 2[l(y;y)l(yˉ;y)] 2[l(y; y) - l(\bar{y}; y)] 的形式,其中 l l 为对数似然函数。在逻辑回归、泊松回归等 GLM 中,偏差替代了平方和作为变异度量的角色。
  • 多元方差分析(MANOVA):在多因变量情形中,TSS 被推广为总离差矩阵 T=(yiyˉ)(yiyˉ)T T = \sum (y_i - \bar{y})(y_i - \bar{y})^T ,相应的分解变为矩阵形式的 T=B+W T = B + W (组间 + 组内),此时的检验关注矩阵的迹或行列式。

局限性

尽管 TSS 是回归分析的基石概念,其使用也存在若干局限:

  1. 对异常值敏感:平方运算放大了远离均值的极端值的影响,使得 TSS 在存在异常值时可能失真,单个离群点即可大幅拉高 TSS。
  2. 依赖均值:TSS 仅衡量围绕均值的离散程度,对非对称分布或存在多峰的数据可能无法全面刻画变异。对于偏态分布,中位数绝对偏差(MAD)等稳健度量可能更为合适。
  3. 量纲问题:TSS 的量纲为 y y 的平方单位,不同数据集的 TSS 不可直接比较。标准化时需除以 n1 n-1 转化为方差,或与标准误结合使用。
  4. 分解的有效性前提:TSS = ESS + RSS 的分解依赖于 OLS 的正交条件,在工具变量估计、岭回归、非参数回归等设定中需谨慎解释,或采用其他拟合度量指标。

总结

总平方和(TSS)是统计学中最基础且最重要的量之一。它量化了数据的总变异,通过平方和分解为回归模型提供了衡量解释力的标尺,进而衍生出 R²、F 统计量、调整 R² 等核心推断工具。从经典线性回归到现代机器学习的特征选择方法,TSS 的思想贯穿始终。深刻理解 TSS 的内涵与性质,是掌握回归分析、方差分析乃至整个统计建模的起点。