# TSS (Total Sum of Squares)
总平方和 (Total Sum of Squares, TSS) 是{{{统计学}}}和{{{计量经济学}}}中的一个基本概念,尤其在{{{回归分析}}}的框架下至关重要。它衡量了一个数据集中{{{因变量}}} (dependent variable) 的总变异程度 (total variation)。从直观上讲,TSS量化了数据点围绕其样本均值的离散程度。
TSS的计算基于因变量的每个观测值与其{{{样本均值}}}之间的{{{离差}}} (deviation)。
## 数学定义
假设我们有一个包含 $n$ 个观测值的数据集,其中 $y_i$ 表示第 $i$ 个观测值的因变量。因变量 $y$ 的样本均值表示为 $\bar{y}$。总平方和的计算公式为:
$$ TSS = \sum_{i=1}^{n} (y_i - \bar{y})^2 $$
我们可以分解这个公式来理解其构成:
* $y_i$:因变量的第 $i$ 个观测值。 * $\bar{y}$:所有 $n$ 个 $y_i$ 观测值的算术平均数,即 $\bar{y} = \frac{1}{n}\sum_{i=1}^{n} y_i$。 * $(y_i - \bar{y})$:这是第 $i$ 个观测值的离差,表示该数据点与整体均值的距离。 * $(y_i - \bar{y})^2$:离差的平方。进行平方操作有两个主要目的: 1. 消除符号影响:确保正离差和负离差不会相互抵消。 2. 加大权重:对远离均值的点(即离群值)赋予更大的权重,因为其平方值会变得更大。 * $\sum_{i=1}^{n}$:将所有观测值的平方离差相加,得到总的变异量度。
从某种意义上说,TSS可以被看作是如果我们只用因变量的均值 $\bar{y}$ 来预测每一个 $y_i$ 时,所产生的总预测误差的平方和。
## 在回归分析中的核心作用:变异分解
TSS最重要的应用体现在它构成了{{{线性回归}}}分析中变异分解的基础。在回归模型中,因变量 $y$ 的总变异 (TSS) 可以被精确地分解为两个部分:
1. 可解释平方和 (Explained Sum of Squares, {{{ESS}}}) 2. 残差平方和 (Residual Sum of Squares, {{{RSS}}})
这个分解是理解回归模型拟合优度的关键,其基本恒等式为:
$$ TSS = ESS + RSS $$
或者写成完整的形式:
$$ \sum_{i=1}^{n} (y_i - \bar{y})^2 = \sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2 + \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 $$
让我们来解释这个恒等式的各个组成部分:
* TSS (Total Sum of Squares): 如前所述,代表 $y$ 的总变异。这是我们试图通过模型来解释的“总目标”。 * ESS (Explained Sum of Squares): 也称为“回归平方和 (Regression Sum of Squares)”。它衡量的是由回归模型(即{{{自变量}}})所能解释的那部分变异。它是由预测值 $\hat{y}_i$(模型根据自变量给出的 $y$ 的预测值)与 $y$ 的均值 $\bar{y}$ 之间的离差平方和计算得出的。一个大的ESS意味着模型成功捕捉了数据中的大部分变异。 * RSS (Residual Sum of Squares): 也称为“误差平方和 (Error Sum of Squares)”。它衡量的是模型未能解释的那部分变异。它是由实际观测值 $y_i$ 与模型预测值 $\hat{y}_i$ 之间的差(即{{{残差}}} $e_i = y_i - \hat{y}_i$)的平方和计算得出的。RSS是{{{普通最小二乘法}}} (Ordinary Least Squares, OLS) 试图最小化的目标函数。一个小的RSS意味着模型的预测值与实际值非常接近。
这个分解告诉我们,因变量的总波动可以归因于两个来源:一部分是我们的模型能够理解和预测的(ESS),另一部分是模型无法解释的、纯粹的“噪音”或误差(RSS)。
## 应用:决定系数 ($R^2$)
TSS是计算{{{决定系数}}} (Coefficient of Determination),即 {{{R-squared}}} 或 $R^2$ 的基础。$R^2$ 是衡量回归模型{{{模型拟合}}}优度的最常用指标之一。
$R^2$ 的定义为模型可解释的变异占总变异的比例:
$$ R^2 = \frac{ESS}{TSS} $$
利用恒等式 $TSS = ESS + RSS$,我们也可以得到 $R^2$ 的另一个等价公式:
$$ R^2 = 1 - \frac{RSS}{TSS} $$
$R^2$ 的值介于0和1之间:
* 当 $R^2 = 1$ 时,意味着 $RSS = 0$,模型完美解释了因变量的所有变异,所有数据点都精确地落在回归线上。 * 当 $R^2 = 0$ 时,意味着 $ESS = 0$,模型完全没有解释能力,其表现不比简单地用均值 $\bar{y}$ 进行预测更好。
因此,TSS为我们提供了一个基准,用于评估回归模型的解释力。
## 与方差的关系
TSS与因变量 $y$ 的{{{样本方差}}} (sample variance) 密切相关。样本方差 $s_y^2$ 的定义是:
$$ s_y^2 = \frac{\sum_{i=1}^{n} (y_i - \bar{y})^2}{n-1} = \frac{TSS}{n-1} $$
其中 $n-1$ 是计算样本方差时使用的{{{自由度}}} (degrees of freedom)。因此,TSS可以被看作是未经自由度调整的样本总变异。其关系可以表示为:
$$ TSS = (n-1)s_y^2 $$
这进一步强调了TSS作为衡量数据整体波动性的核心地位。
## 简明示例
假设我们有以下5个关于广告支出 (X, 单位:千USD) 和销售额 (Y, 单位:万USD) 的数据点:
| 销售额 ($y_i$) | |:--------------:| | 10 | | 15 | | 12 | | 18 | | 20 |
1. 计算均值 $\bar{y}$: $$ \bar{y} = \frac{10 + 15 + 12 + 18 + 20}{5} = \frac{75}{5} = 15 $$
2. 计算每个点的平方离差 $(y_i - \bar{y})^2$: * $(10 - 15)^2 = (-5)^2 = 25$ * $(15 - 15)^2 = (0)^2 = 0$ * $(12 - 15)^2 = (-3)^2 = 9$ * $(18 - 15)^2 = (3)^2 = 9$ * $(20 - 15)^2 = (5)^2 = 25$
3. 求和得到 TSS: $$ TSS = 25 + 0 + 9 + 9 + 25 = 68 $$ 这个值68代表了这组销售额数据的总变异。任何试图解释销售额变化的回归模型,其目标都是解释这68个单位的变异中的一大部分。