知经 KNOWECON · 卓越的经济金融统计数学学习平台

ESS_(Explained_Sum_of_Squares)

# ESS (Explained Sum of Squares)

Explained Sum of Squares,缩写为 ESS,是{{{回归分析}}} (Regression Analysis) 和{{{方差分析}}} (ANOVA) 中的一个核心统计量。它衡量的是一个统计模型中,因变量 (Dependent Variable) 的总变异中能够被自变量 (Independent Variable(s)) 所解释的部分。ESS也被称为模型平方和 (Model Sum of Squares, MSS) 或在某些文献中称为回归平方和 (Regression Sum of Squares)。

在{{{线性回归}}} (Linear Regression) 的框架下,ESS量化了回归模型所做的预测值与因变量均值之间的离差平方和。一个较高的ESS值表明,回归模型比仅仅使用因变量的平均值作为预测提供了更多的信息,即模型在解释数据变异方面是有效的。

## 数学定义与公式

ESS的计算公式为: $$ ESS = \sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2 $$ 其中: * $n$ 是观测样本的数量。 * $\hat{y}_i$ (读作 "y-hat-i") 是对于第 $i$ 个观测样本,回归模型所给出的{{{因变量}}}的预测值。在简单线性回归中,$\hat{y}_i = \hat{\beta}_0 + \hat{\beta}_1 x_i$,其中 $\hat{\beta}_0$ 是预测的{{{截距}}} (intercept),$\hat{\beta}_1$ 是预测的{{{斜率}}} (slope)。 * $\bar{y}$ (读作 "y-bar") 是所有观测到的因变量值 $y_i$ 的样本均值,计算公式为 $\bar{y} = \frac{1}{n} \sum_{i=1}^{n} y_i$。

从公式可以看出,ESS计算的是每个预测值 $\hat{y}_i$ 与因变量总均值 $\bar{y}$ 之间的差值的平方和。这个差值 $(\hat{y}_i - \bar{y})$ 代表了模型所解释的变异部分。我们对这些差值进行平方,是为了避免正负差值相互抵消,并对较大的离差赋予更高的权重。

## 平方和的分解

理解ESS的最佳方式是将其置于总平方和分解的基本恒等式中。在回归分析中,因变量的总变异可以被精确地分解为两部分:一部分是模型可以解释的,另一部分是模型无法解释的(即误差)。这个恒等式是:

{{{Total Sum of Squares (TSS)}}} = {{{Explained Sum of Squares (ESS)}}} + {{{Residual Sum of Squares (RSS)}}}

$$ TSS = ESS + RSS $$

或者写作:

$$ \sum_{i=1}^{n} (y_i - \bar{y})^2 = \sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2 + \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 $$

我们来分别定义这三个组成部分:

1. {{{Total Sum of Squares (TSS)}}}:总平方和。它衡量了因变量 $y$ 自身的总变异程度,即每个观测值 $y_i$ 与其均值 $\bar{y}$ 之间的离差平方和。它是我们试图解释的“总方差”的基准。

2. {{{Explained Sum of Squares (ESS)}}}:已解释平方和。如前所述,它衡量了回归模型所解释的变异部分。

3. {{{Residual Sum of Squares (RSS)}}}:残差平方和。它也被称为误差平方和 (Sum of Squared Errors, SSE)。它衡量的是模型未能解释的变异部分,即实际观测值 $y_i$ 与模型预测值 $\hat{y}_i$ 之间的差值(即{{{残差}}})的平方和。这是模型的“误差”部分。在{{{普通最小二乘法}}} (Ordinary Least Squares, OLS) 中,回归模型的目标正是最小化这个RSS。

这个分解公式是{{{回归分析}}}的基石。它告诉我们,数据的总变异可以被清晰地划分为“信号”(ESS)和“噪音”(RSS)。

## ESS 的核心应用

ESS本身作为一个独立的数值意义有限,但它在构建其他更具解释力的统计指标时至关重要。

### 1. 计算决定系数 ($R^2$)

{{{决定系数}}} ($R^2$) 是衡量回归模型拟合优度最重要的指标之一。它表示因变量的总变异中,可以被自变量解释的比例。$R^2$ 的计算直接依赖于ESS:

$$ R^2 = \frac{ESS}{TSS} = \frac{\sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2} $$

$R^2$ 的取值范围在0和1之间: * 如果 $R^2 = 1$,则意味着 $ESS = TSS$ (并且 $RSS=0$)。这表示模型完美地解释了因变量的所有变异,所有数据点都精确地落在回归线上。 * 如果 $R^2 = 0$,则意味着 $ESS = 0$。这表示模型完全没有解释能力,其预测效果不比直接使用因变量的均值 $\bar{y}$ 更好。 * 一个较高的 $R^2$ 值(例如0.85)意味着85%的因变量变异可以由模型中的自变量来解释。

### 2. 构建F统计量

在多元回归分析中,我们需要检验整个模型的总体显著性,即检验所有自变量作为一个整体是否对因变量有显著的解释能力。这个检验通过 {{{F-test}}} 来完成。F统计量的计算也需要ESS:

$$ F = \frac{ESS / k}{RSS / (n - k - 1)} $$

其中: * $k$ 是模型中自变量的数量。 * $n$ 是观测样本的数量。 * $ESS/k$ 是均方回归 (Mean Square Regression, MSR),代表由模型解释的平均变异,并考虑了其{{{自由度}}} $k$。 * $RSS/(n-k-1)$ 是均方误差 (Mean Square Error, MSE),代表模型未能解释的平均变异(残差的方差),并考虑了其自由度 $n-k-1$。

F统计量本质上是比较“模型解释的平均方差”与“模型未解释的平均方差”的比率。一个足够大的F值意味着ESS相对于RSS来说非常显著,因此我们有理由拒绝“所有自变量的系数都为零”的{{{原假设}}} ($H_0$),从而断定该回归模型在统计上是显著的。