ARTICLE

Explained Sum of Squares (ESS)

解释平方和(Explained Sum of Squares,ESS),亦称回归平方和(Regression Sum of Squares)或模型平方和(Model Sum of Squares, MSS),是[[线性回归]]与[[方差分析]](ANOVA)中的核心统计量,用于度量回归模型对因变量变异程度的解释能力。ESS衡量的是因变量Y的所有拟合值 Y_i

浏览 0 更新 2025-10-26

解释平方和(Explained Sum of Squares,ESS),亦称回归平方和(Regression Sum of Squares)或模型平方和(Model Sum of Squares, MSS),是[[线性回归]]与[[方差分析]](ANOVA)中的核心统计量,用于度量回归模型对因变量变异程度的解释能力。ESS衡量的是因变量Y的所有拟合值 Y^i \hat{Y}_i 偏离其样本均值 Yˉ \bar{Y} 的离散程度——换言之,它刻画了"模型能够捕捉到的那部分Y的波动"。

在计量经济学实践中,ESS不仅是判定系数 R2 R^2 的分子,更构成[[F检验]]的基础,是评估模型整体显著性与拟合优度的起点。

定义与公式

给定样本容量为 n n ,被解释变量观测值为 Y1,Y2,,Yn Y_1, Y_2, \ldots, Y_n ,样本均值为 Yˉ=1ni=1nYi \bar{Y} = \frac{1}{n}\sum_{i=1}^n Y_i 。设回归模型给出的拟合值为 Y^i=β^0+β^1X1i++β^kXki \hat{Y}_i = \hat{\beta}_0 + \hat{\beta}_1 X_{1i} + \cdots + \hat{\beta}_k X_{ki} ,则解释平方和定义为:

ESS=i=1n(Y^iYˉ)2\text{ESS} = \sum_{i=1}^{n}(\hat{Y}_i - \bar{Y})^2

直观而言,若回归模型完全不具备解释力(相当于仅拟合截距项,Y^iYˉ \hat{Y}_i \equiv \bar{Y} ),则每个 Y^iYˉ=0 \hat{Y}_i - \bar{Y} = 0 ,ESS恒为零。反之,若模型完美预测所有观测点(Y^i=Yi \hat{Y}_i = Y_i 对所有 i i 成立),则ESS等于[[总平方和]](TSS),达到其理论上限。绝大多数实证应用中,ESS介于零与TSS之间的某个位置。

平方和分解

[[方差分析]]的核心恒等式——也是整个线性回归统计推断的基石——为:

i=1n(YiYˉ)2TSS=i=1n(Y^iYˉ)2ESS+i=1n(YiY^i)2RSS\underbrace{\sum_{i=1}^{n}(Y_i - \bar{Y})^2}_{\text{TSS}} = \underbrace{\sum_{i=1}^{n}(\hat{Y}_i - \bar{Y})^2}_{\text{ESS}} + \underbrace{\sum_{i=1}^{n}(Y_i - \hat{Y}_i)^2}_{\text{RSS}}

其中TSS为总平方和,度量Y的总体变异;RSS为[[残差平方和]],反映模型未能解释的剩余变异。这一分解之所以成立,依赖于[[普通最小二乘法]](OLS)的正交性条件——OLS一阶条件确保了残差向量 ε^ \hat{\boldsymbol{\varepsilon}} 与拟合值向量 Y^ \hat{\mathbf{Y}} 相互正交,交叉项 i=1n(Y^iYˉ)(YiY^i) \sum_{i=1}^n (\hat{Y}_i - \bar{Y})(Y_i - \hat{Y}_i) 恰好为零。

需特别指出的是,该分解成立依赖于两个前提:其一,回归模型包含截距项;其二,参数估计采用OLS。若使用[[工具变量回归]](IV)、[[广义矩估计]](GMM)等非正交投影方法,或模型不含截距项,OLS的正交性不复存在,TSS = ESS + RSS 的等式一般而言不再成立。

拟合优度:R2 R^2 及其局限

解释平方和与总平方和之比即为判定系数:

R2=ESSTSS=1RSSTSSR^2 = \frac{\text{ESS}}{\text{TSS}} = 1 - \frac{\text{RSS}}{\text{TSS}}

R2 R^2 取值于 [0,1] [0, 1] ,越接近1表示模型对数据的线性拟合程度越高。然而 R2 R^2 有一个广为人知的致命缺陷:随解释变量个数 k k 单调非减。向模型中任意添加一个变量(即使该变量与Y在总体中完全无关),R2 R^2 必定不会下降,且在有限样本中几乎必然上升。这导致研究者倾向于堆砌变量以人为抬高 R2 R^2 ,陷入"过度拟合"陷阱。

为缓解这一问题,[[亨利·泰尔]](Henri Theil)提出调整 R2 R^2

Rˉ2=1RSS/(nk1)TSS/(n1)\bar{R}^2 = 1 - \frac{\text{RSS}/(n-k-1)}{\text{TSS}/(n-1)}

调整 R2 R^2 R2 R^2 的基础上对参数个数施加惩罚:只有当新增变量带来的ESS增量超过补偿其消耗的自由度时,Rˉ2 \bar{R}^2 才会上升。尽管如此,Rˉ2 \bar{R}^2 仍不具备因果推断的含义——无论是 R2 R^2 还是 Rˉ2 \bar{R}^2 ,其高低与模型中变量之间是否存在因果关系完全是两回事。

自由度分解与ANOVA表

在经典线性回归的标准输出中,平方和伴随各自的自由度(degrees of freedom)构成[[ANOVA表]]:

| 来源 | 平方和 (SS) | 自由度 (df) | 均方 (MS) | |---|---|---|---| | 回归 (Model) | ESS | k k | ESS/k k | | 残差 (Residual) | RSS | nk1 n-k-1 | RSS/(nk1) (n-k-1) | | 总计 (Total) | TSS | n1 n-1 | — |

为什么TSS的自由度为 n1 n-1 而非 n n ?因为计算 Yˉ \bar{Y} 时已消耗了1个自由度——(YiYˉ)=0 \sum(Y_i - \bar{Y}) = 0 自动成立。回归的自由度为 k k ,对应于 k k 个斜率参数 β1,,βk \beta_1, \ldots, \beta_k 的联合估计。残差自由度为 nk1 n-k-1 n n 个观测减去 k+1 k+1 个待估参数)。

回归均方与残差均方的比值构成[[F检验]]统计量:

F=ESS/kRSS/(nk1)F(k,nk1)F = \frac{\text{ESS}/k}{\text{RSS}/(n-k-1)} \sim F(k, n-k-1)

该统计量检验原假设 H0:β1=β2==βk=0 H_0: \beta_1 = \beta_2 = \cdots = \beta_k = 0 ,即在总体中所有解释变量对Y的斜率系数同时为零。在经典正态线性回归假设下,F统计量精确服从分子自由度为 k k 、分母自由度为 nk1 n-k-1 的F分布。若F值远大于1且对应的p值低于显著性水平,则拒绝原假设,认为至少存在一个解释变量对Y具有统计上显著的线性解释力。

几何解释与FWL定理

从线性代数视角看,线性回归本质上是在 n n 维欧几里得空间中进行正交投影。向量 Y=(Y1,,Yn) \mathbf{Y} = (Y_1, \ldots, Y_n)' 可分解为其在解释变量列空间上的投影加上正交补。ESS等于中心化后投影向量 Y^Yˉ1 \hat{\mathbf{Y}} - \bar{Y}\mathbf{1} 的平方长度,而TSS等于中心化后 YYˉ1 \mathbf{Y} - \bar{Y}\mathbf{1} 的平方长度。R2 R^2 的几何含义是 YYˉ1 \mathbf{Y} - \bar{Y}\mathbf{1} 与其投影之间夹角的余弦平方。

这一几何直觉由[[弗里希-沃-洛弗尔定理]](Frisch-Waugh-Lovell Theorem)进一步深化:多元回归中任一解释变量 Xj X_j 的偏回归系数,等价于先将Y和 Xj X_j 各自对所有其他解释变量回归,然后用所得的两组残差进行一元回归所得的系数。这一定理揭示了"偏效应"的几何本质——先剥离其他变量的线性影响,再看剩余部分的关联。

实证应用中的警示

尽管ESS与 R2 R^2 是回归分析最基础的输出指标,其滥用仍广泛存在。第一,R2 R^2 不能度量因果解释力——时间序列中的伪回归问题(Granger-Newbold, 1974)即是明证:两个独立随机游走变量的回归常产生高 R2 R^2 和显著的t统计量,但二者毫无因果关系。第二,不同因变量设定(水平值vs.对数变换、不同频率聚合)下的 R2 R^2 不可直接比较,因为TSS本身发生了改变。第三,在[[工具变量回归]]中,由于IV估计量并非正交投影,R2 R^2 可能出现负值而失去直观意义,应采用其他模型评估准则(如过度识别检验、弱工具变量检验)。第四,对于二值选择模型(如[[Logit模型]]、[[Probit模型]])或受限因变量模型,经典的 R2 R^2 概念不再适用,因为这些模型并非通过最小化残差平方和来估计参数,而是基于[[最大似然估计]]。计量经济学文献为此发展了各类R2 R^2 (pseudo-R2 R^2 ),如[[麦克法登 R2 R^2 ]]、Cox-Snell R2 R^2 和 Nagelkerke R2 R^2 ,它们从不同角度近似线性模型中 R2 R^2 的直观含义,但彼此数值不可直接类比。

参见

  • [[总平方和]]
  • [[残差平方和]]
  • [[拟合优度]]
  • [[线性回归]]
  • [[方差分析]]
  • [[F检验]]
  • [[普通最小二乘法]]
  • [[弗里希-沃-洛弗尔定理]]
  • [[调整R²]]
  • [[工具变量回归]]
  • [[伪R²]]
  • [[麦克法登R²]]
  • [[亨利·泰尔]]