ARTICLE
解释平方和
解释平方和(Explained Sum of Squares,ESS),又称回归平方和(Regression Sum of Squares)或模型平方和(Model Sum of Squares),是线性回归分析和方差分析(ANOVA)中的核心统计量。它衡量回归模型所解释的因变量变异部分,即拟合值 y_i 围绕其均值 y 的波动程度。ESS 越大,表明回归模
解释平方和(Explained Sum of Squares,ESS),又称回归平方和(Regression Sum of Squares)或模型平方和(Model Sum of Squares),是线性回归分析和方差分析(ANOVA)中的核心统计量。它衡量回归模型所解释的因变量变异部分,即拟合值 围绕其均值 的波动程度。ESS 越大,表明回归模型对数据的解释能力越强,拟合效果越好。在计量经济学实践中,ESS 不仅是判定系数 的分子,更构成 F 检验的基础,是评估模型整体显著性与拟合优度的核心出发点。
定义与公式
设有样本容量为 ,因变量观测值为 ,样本均值为 。设回归模型给出的拟合值为 ,则解释平方和定义为:
若模型仅包含截距项(即完全没有解释力),则 ,ESS 为零。若模型完美拟合所有观测点( 对所有 成立),则 ESS 达到其理论上限——总平方和(TSS)。大多数实际应用中,ESS 介于零与 TSS 之间。在矩阵形式下,ESS 可表示为 ,其中 为回归系数估计向量, 为设计矩阵,这一表达式在多元线性回归的推导中尤为常用。
平方和分解
方差分析的核心恒等式——同时也是线性回归统计推断的基石——为:
其中 TSS 为总平方和,度量 的总体变异;RSS 为残差平方和,反映模型未能解释的剩余变异。这一分解成立的数学基础是最小二乘法(OLS)的正交性条件:OLS 一阶条件保证了残差向量与拟合值向量相互正交,交叉项 自动消失,从而实现了平方和的精确分割。
需特别指出,该分解依赖于两个关键前提:第一,回归模型包含截距项;第二,参数估计采用 OLS。若使用工具变量回归(IV)或广义矩估计(GMM)等非正交投影方法,或模型不含截距项,OLS 的正交性不复存在,TSS = ESS + RSS 的等式一般而言不再成立。
决定系数
解释平方和与总平方和的比值即为决定系数(又称判定系数):
的取值范围为 ,越接近 1 表明模型对数据的线性拟合程度越高。然而 有一致命缺陷:它随自变量个数 单调非减——向模型中添加任意变量(即使与因变量完全无关), 也绝不会下降。这导致研究者倾向于堆砌变量以人为抬高 ,陷入过度拟合陷阱。
为缓解这一缺陷,亨利·泰尔(Henri Theil)提出了调整 :
调整 对参数个数施加惩罚:只有当新增变量带来的 ESS 增量超过其消耗的自由度时, 才会上升。尽管如此, 仍不具备因果推断的含义—— 或 的高低与变量之间是否存在因果关系完全是两回事。
ANOVA 表与 F 检验
在经典线性回归的标准输出中,各平方伴随其自由度构成方差分析表(ANOVA 表):
| 来源 | 平方和 | 自由度 | 均方 | |------|--------|--------|------| | 回归 | ESS | | ESS/ | | 残差 | RSS | | RSS/ | | 总计 | TSS | | — |
回归均方与残差均方的比值构成 F 检验统计量:
该统计量检验原假设 ,即所有解释变量的斜率系数同时为零。在经典正态线性回归假设下,F 统计量服从分子自由度为 、分母自由度为 的 F 分布。若 F 值显著大于 1,则拒绝原假设,认为至少存在一个解释变量对因变量具有统计上显著的线性解释力。
几何解释
从线性代数视角看,线性回归本质上是 维欧几里得空间中的正交投影。向量 可分解为投影到解释变量列空间上的部分与其正交补。ESS 等于中心化后投影向量 的平方长度,TSS 等于中心化后 的平方长度。 的几何含义是 与其投影之间夹角的余弦平方。
这一定理由弗里希-沃-洛弗尔定理(Frisch-Waugh-Lovell Theorem)进一步深化:多元回归中任一解释变量 的偏回归系数,等价于先将 和 各自对所有其他变量回归,再用所得两组残差进行一元回归。这揭示了「偏效应」的本质——先剥离其他变量的线性影响,再看剩余部分的关联。
符号约定
不同教材和软件对平方和的符号命名存在显著差异,容易造成混淆。以下为常见对照:
| 缩写 | 全称 | 含义 | |------|------|------| | ESS | Explained Sum of Squares | 解释平方和 | | SSR | Sum of Squares due to Regression | 回归平方和(与 ESS 等价) | | SSE | Sum of Squares due to Error | 误差平方和(即 RSS) | | SST | Total Sum of Squares | 总平方和(即 TSS) |
R 语言中通常使用 SSR 表示回归平方和(即 ESS),而 Stata 中 SSR 表示残差平方和(即 RSS)。Python 的 statsmodels 库遵循与 R 类似的命名惯例。使用时需根据具体软件的符号体系仔细区分,避免解读错误。
应用与局限
ESS 是回归分析中最基础的输出指标之一,但其滥用也广泛存在。第一, 不代表因果解释力——时间序列中的伪回归问题(Granger-Newbold, 1974)即是明证:两个独立随机游走变量的回归常产生高 和显著的 t 统计量,二者却毫无因果关系。第二,不同因变量设定(水平值 vs 对数变换、不同频率聚合)下的 不可直接比较,因为 TSS 本身发生了改变。第三,在工具变量回归中,由于 IV 估计量并非正交投影, 可能出现负值而失去直观意义,此时应采用过度识别检验、弱工具变量检验等其他模型评估准则。第四,对于二值选择模型(如 Logit 模型和 Probit 模型)或受限因变量模型,经典 概念不再适用,因为这些模型基于最大似然估计而非最小化残差平方和。计量经济学文献为此发展了各类伪 (pseudo-),如麦克法登 (McFadden's )、Cox-Snell 和 Nagelkerke ,它们从不同角度近似线性模型中 的直观含义,但彼此数值不可直接类比。
参见
- [[总平方和]]
- [[残差平方和]]
- [[拟合优度]]
- [[线性回归]]
- [[方差分析]]
- [[F检验]]
- [[普通最小二乘法]]
- [[弗里希-沃-洛弗尔定理]]
- [[调整R²]]
- [[工具变量回归]]