ARTICLE

Explained Sum of Squares (ESS)

解释平方和（Explained Sum of Squares，ESS），亦称回归平方和（Regression Sum of Squares）或模型平方和（Model Sum of Squares, MSS），是[[线性回归]]与[[方差分析]]（ANOVA）中的核心统计量，用于度量回归模型对因变量变异程度的解释能力。ESS衡量的是因变量Y的所有拟合值公式

浏览 0 更新 2025-10-26

解释平方和（Explained Sum of Squares，ESS），亦称回归平方和（Regression Sum of Squares）或模型平方和（Model Sum of Squares, MSS），是[[线性回归]]与[[方差分析]]（ANOVA）中的核心统计量，用于度量回归模型对因变量变异程度的解释能力。ESS衡量的是因变量Y的所有拟合值 $\hat{Y}_i$ 偏离其样本均值 $\bar{Y}$ 的离散程度——换言之，它刻画了"模型能够捕捉到的那部分Y的波动"。

在计量经济学实践中，ESS不仅是判定系数 $R^2$ 的分子，更构成[[F检验]]的基础，是评估模型整体显著性与拟合优度的起点。

定义与公式

给定样本容量为 $n$ ，被解释变量观测值为 $Y_1, Y_2, \ldots, Y_n$ ，样本均值为 $\bar{Y} = \frac{1}{n}\sum_{i=1}^n Y_i$ 。设回归模型给出的拟合值为 $\hat{Y}_i = \hat{\beta}_0 + \hat{\beta}_1 X_{1i} + \cdots + \hat{\beta}_k X_{ki}$ ，则解释平方和定义为：

\text{ESS} = \sum_{i=1}^{n}(\hat{Y}_i - \bar{Y})^2

直观而言，若回归模型完全不具备解释力（相当于仅拟合截距项， $\hat{Y}_i \equiv \bar{Y}$ ），则每个 $\hat{Y}_i - \bar{Y} = 0$ ，ESS恒为零。反之，若模型完美预测所有观测点（ $\hat{Y}_i = Y_i$ 对所有 $i$ 成立），则ESS等于[[总平方和]]（TSS），达到其理论上限。绝大多数实证应用中，ESS介于零与TSS之间的某个位置。

平方和分解

[[方差分析]]的核心恒等式——也是整个线性回归统计推断的基石——为：

\underbrace{\sum_{i=1}^{n}(Y_i - \bar{Y})^2}_{\text{TSS}} = \underbrace{\sum_{i=1}^{n}(\hat{Y}_i - \bar{Y})^2}_{\text{ESS}} + \underbrace{\sum_{i=1}^{n}(Y_i - \hat{Y}_i)^2}_{\text{RSS}}

其中TSS为总平方和，度量Y的总体变异；RSS为[[残差平方和]]，反映模型未能解释的剩余变异。这一分解之所以成立，依赖于[[普通最小二乘法]]（OLS）的正交性条件——OLS一阶条件确保了残差向量 $\hat{\boldsymbol{\varepsilon}}$ 与拟合值向量 $\hat{\mathbf{Y}}$ 相互正交，交叉项 $\sum_{i=1}^n (\hat{Y}_i - \bar{Y})(Y_i - \hat{Y}_i)$ 恰好为零。

需特别指出的是，该分解成立依赖于两个前提：其一，回归模型包含截距项；其二，参数估计采用OLS。若使用[[工具变量回归]]（IV）、[[广义矩估计]]（GMM）等非正交投影方法，或模型不含截距项，OLS的正交性不复存在，TSS = ESS + RSS 的等式一般而言不再成立。

拟合优度： $R^2$ 及其局限

解释平方和与总平方和之比即为判定系数：

R^2 = \frac{\text{ESS}}{\text{TSS}} = 1 - \frac{\text{RSS}}{\text{TSS}}

$R^2$ 取值于 $[0, 1]$ ，越接近1表示模型对数据的线性拟合程度越高。然而 $R^2$ 有一个广为人知的致命缺陷：随解释变量个数 $k$ 单调非减。向模型中任意添加一个变量（即使该变量与Y在总体中完全无关）， $R^2$ 必定不会下降，且在有限样本中几乎必然上升。这导致研究者倾向于堆砌变量以人为抬高 $R^2$ ，陷入"过度拟合"陷阱。

为缓解这一问题，[[亨利·泰尔]]（Henri Theil）提出调整 $R^2$ ：

\bar{R}^2 = 1 - \frac{\text{RSS}/(n-k-1)}{\text{TSS}/(n-1)}

调整 $R^2$ 在 $R^2$ 的基础上对参数个数施加惩罚：只有当新增变量带来的ESS增量超过补偿其消耗的自由度时， $\bar{R}^2$ 才会上升。尽管如此， $\bar{R}^2$ 仍不具备因果推断的含义——无论是 $R^2$ 还是 $\bar{R}^2$ ，其高低与模型中变量之间是否存在因果关系完全是两回事。

自由度分解与ANOVA表

在经典线性回归的标准输出中，平方和伴随各自的自由度（degrees of freedom）构成[[ANOVA表]]：

来源	平方和 (SS)	自由度 (df)	均方 (MS)
回归 (Model)	ESS	$k$	ESS/ $k$
残差 (Residual)	RSS	$n-k-1$	RSS/ $(n-k-1)$
总计 (Total)	TSS	$n-1$	—

为什么TSS的自由度为 $n-1$ 而非 $n$ ？因为计算 $\bar{Y}$ 时已消耗了1个自由度—— $\sum(Y_i - \bar{Y}) = 0$ 自动成立。回归的自由度为 $k$ ，对应于 $k$ 个斜率参数 $\beta_1, \ldots, \beta_k$ 的联合估计。残差自由度为 $n-k-1$ （ $n$ 个观测减去 $k+1$ 个待估参数）。

回归均方与残差均方的比值构成[[F检验]]统计量：

F = \frac{\text{ESS}/k}{\text{RSS}/(n-k-1)} \sim F(k, n-k-1)

该统计量检验原假设 $H_0: \beta_1 = \beta_2 = \cdots = \beta_k = 0$ ，即在总体中所有解释变量对Y的斜率系数同时为零。在经典正态线性回归假设下，F统计量精确服从分子自由度为 $k$ 、分母自由度为 $n-k-1$ 的F分布。若F值远大于1且对应的p值低于显著性水平，则拒绝原假设，认为至少存在一个解释变量对Y具有统计上显著的线性解释力。

几何解释与FWL定理

从线性代数视角看，线性回归本质上是在 $n$ 维欧几里得空间中进行正交投影。向量 $\mathbf{Y} = (Y_1, \ldots, Y_n)'$ 可分解为其在解释变量列空间上的投影加上正交补。ESS等于中心化后投影向量 $\hat{\mathbf{Y}} - \bar{Y}\mathbf{1}$ 的平方长度，而TSS等于中心化后 $\mathbf{Y} - \bar{Y}\mathbf{1}$ 的平方长度。 $R^2$ 的几何含义是 $\mathbf{Y} - \bar{Y}\mathbf{1}$ 与其投影之间夹角的余弦平方。

这一几何直觉由[[弗里希-沃-洛弗尔定理]]（Frisch-Waugh-Lovell Theorem）进一步深化：多元回归中任一解释变量 $X_j$ 的偏回归系数，等价于先将Y和 $X_j$ 各自对所有其他解释变量回归，然后用所得的两组残差进行一元回归所得的系数。这一定理揭示了"偏效应"的几何本质——先剥离其他变量的线性影响，再看剩余部分的关联。

实证应用中的警示

尽管ESS与 $R^2$ 是回归分析最基础的输出指标，其滥用仍广泛存在。第一， $R^2$ 不能度量因果解释力——时间序列中的伪回归问题（Granger-Newbold, 1974）即是明证：两个独立随机游走变量的回归常产生高 $R^2$ 和显著的t统计量，但二者毫无因果关系。第二，不同因变量设定（水平值vs.对数变换、不同频率聚合）下的 $R^2$ 不可直接比较，因为TSS本身发生了改变。第三，在[[工具变量回归]]中，由于IV估计量并非正交投影， $R^2$ 可能出现负值而失去直观意义，应采用其他模型评估准则（如过度识别检验、弱工具变量检验）。第四，对于二值选择模型（如[[Logit模型]]、[[Probit模型]]）或受限因变量模型，经典的 $R^2$ 概念不再适用，因为这些模型并非通过最小化残差平方和来估计参数，而是基于[[最大似然估计]]。计量经济学文献为此发展了各类伪 $R^2$ （pseudo- $R^2$ ），如[[麦克法登 $R^2$ ]]、Cox-Snell $R^2$ 和 Nagelkerke $R^2$ ，它们从不同角度近似线性模型中 $R^2$ 的直观含义，但彼此数值不可直接类比。

参见

[[总平方和]]
[[残差平方和]]
[[拟合优度]]
[[线性回归]]
[[方差分析]]
[[F检验]]
[[普通最小二乘法]]
[[弗里希-沃-洛弗尔定理]]
[[调整R²]]
[[工具变量回归]]
[[伪R²]]
[[麦克法登R²]]
[[亨利·泰尔]]

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。