ARTICLE

ESS_(Explained_Sum_of_Squares)

ESS (Explained Sum of Squares) Explained Sum of Squares,缩写为 ESS,是回归分析 (Regression Analysis) 和方差分析 (ANOVA) 中的一个核心统计量。它衡量的是一个统计模型中,因变量 (Dependent Variable) 的总变异中能够被自变量 (Independent V

浏览 35 更新 2025-10-23

ESS (Explained Sum of Squares)

Explained Sum of Squares,缩写为 ESS,是回归分析 (Regression Analysis) 和方差分析 (ANOVA) 中的一个核心统计量。它衡量的是一个统计模型中,因变量 (Dependent Variable) 的总变异中能够被自变量 (Independent Variable(s)) 所解释的部分。ESS也被称为模型平方和 (Model Sum of Squares, MSS) 或在某些文献中称为回归平方和 (Regression Sum of Squares)。

线性回归 (Linear Regression) 的框架下,ESS量化了回归模型所做的预测值与因变量均值之间的离差平方和。一个较高的ESS值表明,回归模型比仅仅使用因变量的平均值作为预测提供了更多的信息,即模型在解释数据变异方面是有效的。

数学定义与公式

ESS的计算公式为:

ESS=i=1n(y^iyˉ)2ESS = \sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2

其中:

  • nn 是观测样本的数量。
  • y^i\hat{y}_i (读作 "y-hat-i") 是对于第 ii 个观测样本,回归模型所给出的因变量预测值。在简单线性回归中,y^i=β^0+β^1xi\hat{y}_i = \hat{\beta}_0 + \hat{\beta}_1 x_i,其中 β^0\hat{\beta}_0 是预测的截距 (intercept),β^1\hat{\beta}_1 是预测的斜率 (slope)。
  • yˉ\bar{y} (读作 "y-bar") 是所有观测到的因变量值 yiy_i样本均值,计算公式为 yˉ=1ni=1nyi\bar{y} = \frac{1}{n} \sum_{i=1}^{n} y_i

从公式可以看出,ESS计算的是每个预测值 y^i\hat{y}_i 与因变量总均值 yˉ\bar{y} 之间的差值的平方和。这个差值 (y^iyˉ)(\hat{y}_i - \bar{y}) 代表了模型所解释的变异部分。我们对这些差值进行平方,是为了避免正负差值相互抵消,并对较大的离差赋予更高的权重。

平方和的分解

理解ESS的最佳方式是将其置于总平方和分解的基本恒等式中。在回归分析中,因变量的总变异可以被精确地分解为两部分:一部分是模型可以解释的,另一部分是模型无法解释的(即误差)。这个恒等式是:

Total Sum of Squares (TSS) = Explained Sum of Squares (ESS) + Residual Sum of Squares (RSS)

TSS=ESS+RSSTSS = ESS + RSS

或者写作:

i=1n(yiyˉ)2=i=1n(y^iyˉ)2+i=1n(yiy^i)2\sum_{i=1}^{n} (y_i - \bar{y})^2 = \sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2 + \sum_{i=1}^{n} (y_i - \hat{y}_i)^2

我们来分别定义这三个组成部分:

  1. Total Sum of Squares (TSS):总平方和。它衡量了因变量 yy 自身的总变异程度,即每个观测值 yiy_i 与其均值 yˉ\bar{y} 之间的离差平方和。它是我们试图解释的"总方差"的基准。
  2. Explained Sum of Squares (ESS):已解释平方和。如前所述,它衡量了回归模型所解释的变异部分。
  3. Residual Sum of Squares (RSS):残差平方和。它也被称为误差平方和 (Sum of Squared Errors, SSE)。它衡量的是模型未能解释的变异部分,即实际观测值 yiy_i 与模型预测值 y^i\hat{y}_i 之间的差值(即残差)的平方和。这是模型的"误差"部分。在普通最小二乘法 (Ordinary Least Squares, OLS) 中,回归模型的目标正是最小化这个RSS。

这个分解公式是回归分析的基石。它告诉我们,数据的总变异可以被清晰地划分为"信号"(ESS)和"噪音"(RSS)。

ESS 的核心应用

ESS本身作为一个独立的数值意义有限,但它在构建其他更具解释力的统计指标时至关重要。

1. 计算决定系数 (R2R^2)

决定系数 (R2R^2) 是衡量回归模型拟合优度最重要的指标之一。它表示因变量的总变异中,可以被自变量解释的比例R2R^2 的计算直接依赖于ESS:

R2=ESSTSS=i=1n(y^iyˉ)2i=1n(yiyˉ)2R^2 = \frac{ESS}{TSS} = \frac{\sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2}

R2R^2 的取值范围在0和1之间:

  • 如果 R2=1R^2 = 1,则意味着 ESS=TSSESS = TSS (并且 RSS=0RSS=0)。这表示模型完美地解释了因变量的所有变异,所有数据点都精确地落在回归线上。
  • 如果 R2=0R^2 = 0,则意味着 ESS=0ESS = 0。这表示模型完全没有解释能力,其预测效果不比直接使用因变量的均值 yˉ\bar{y} 更好。
  • 一个较高的 R2R^2 值(例如0.85)意味着85\%的因变量变异可以由模型中的自变量来解释。

2. 构建F统计量

在多元回归分析中,我们需要检验整个模型的总体显著性,即检验所有自变量作为一个整体是否对因变量有显著的解释能力。这个检验通过 F-test 来完成。F统计量的计算也需要ESS:

F=ESS/kRSS/(nk1)F = \frac{ESS / k}{RSS / (n - k - 1)}

其中:

  • kk 是模型中自变量的数量。
  • nn 是观测样本的数量。
  • ESS/kESS/k均方回归 (Mean Square Regression, MSR),代表由模型解释的平均变异,并考虑了其自由度 kk
  • RSS/(nk1)RSS/(n-k-1)均方误差 (Mean Square Error, MSE),代表模型未能解释的平均变异(残差的方差),并考虑了其自由度 nk1n-k-1

F统计量本质上是比较"模型解释的平均方差"与"模型未解释的平均方差"的比率。一个足够大的F值意味着ESS相对于RSS来说非常显著,因此我们有理由拒绝"所有自变量的系数都为零"的原假设 (H0H_0),从而断定该回归模型在统计上是显著的。