ARTICLE
Explained Sum of Squares (ESS)
解释平方和(Explained Sum of Squares,ESS),亦称回归平方和(Regression Sum of Squares)或模型平方和(Model Sum of Squares, MSS),是[[线性回归]]与[[方差分析]](ANOVA)中的核心统计量,用于度量回归模型对因变量变异程度的解释能力。ESS衡量的是因变量Y的所有拟合值 Y_i
解释平方和(Explained Sum of Squares,ESS),亦称回归平方和(Regression Sum of Squares)或模型平方和(Model Sum of Squares, MSS),是[[线性回归]]与[[方差分析]](ANOVA)中的核心统计量,用于度量回归模型对因变量变异程度的解释能力。ESS衡量的是因变量Y的所有拟合值 偏离其样本均值 的离散程度——换言之,它刻画了"模型能够捕捉到的那部分Y的波动"。
在计量经济学实践中,ESS不仅是判定系数 的分子,更构成[[F检验]]的基础,是评估模型整体显著性与拟合优度的起点。
定义与公式
给定样本容量为 ,被解释变量观测值为 ,样本均值为 。设回归模型给出的拟合值为 ,则解释平方和定义为:
直观而言,若回归模型完全不具备解释力(相当于仅拟合截距项,),则每个 ,ESS恒为零。反之,若模型完美预测所有观测点( 对所有 成立),则ESS等于[[总平方和]](TSS),达到其理论上限。绝大多数实证应用中,ESS介于零与TSS之间的某个位置。
平方和分解
[[方差分析]]的核心恒等式——也是整个线性回归统计推断的基石——为:
其中TSS为总平方和,度量Y的总体变异;RSS为[[残差平方和]],反映模型未能解释的剩余变异。这一分解之所以成立,依赖于[[普通最小二乘法]](OLS)的正交性条件——OLS一阶条件确保了残差向量 与拟合值向量 相互正交,交叉项 恰好为零。
需特别指出的是,该分解成立依赖于两个前提:其一,回归模型包含截距项;其二,参数估计采用OLS。若使用[[工具变量回归]](IV)、[[广义矩估计]](GMM)等非正交投影方法,或模型不含截距项,OLS的正交性不复存在,TSS = ESS + RSS 的等式一般而言不再成立。
拟合优度: 及其局限
解释平方和与总平方和之比即为判定系数:
取值于 ,越接近1表示模型对数据的线性拟合程度越高。然而 有一个广为人知的致命缺陷:随解释变量个数 单调非减。向模型中任意添加一个变量(即使该变量与Y在总体中完全无关), 必定不会下降,且在有限样本中几乎必然上升。这导致研究者倾向于堆砌变量以人为抬高 ,陷入"过度拟合"陷阱。
为缓解这一问题,[[亨利·泰尔]](Henri Theil)提出调整 :
调整 在 的基础上对参数个数施加惩罚:只有当新增变量带来的ESS增量超过补偿其消耗的自由度时, 才会上升。尽管如此, 仍不具备因果推断的含义——无论是 还是 ,其高低与模型中变量之间是否存在因果关系完全是两回事。
自由度分解与ANOVA表
在经典线性回归的标准输出中,平方和伴随各自的自由度(degrees of freedom)构成[[ANOVA表]]:
| 来源 | 平方和 (SS) | 自由度 (df) | 均方 (MS) | |---|---|---|---| | 回归 (Model) | ESS | | ESS/ | | 残差 (Residual) | RSS | | RSS/ | | 总计 (Total) | TSS | | — |
为什么TSS的自由度为 而非 ?因为计算 时已消耗了1个自由度—— 自动成立。回归的自由度为 ,对应于 个斜率参数 的联合估计。残差自由度为 ( 个观测减去 个待估参数)。
回归均方与残差均方的比值构成[[F检验]]统计量:
该统计量检验原假设 ,即在总体中所有解释变量对Y的斜率系数同时为零。在经典正态线性回归假设下,F统计量精确服从分子自由度为 、分母自由度为 的F分布。若F值远大于1且对应的p值低于显著性水平,则拒绝原假设,认为至少存在一个解释变量对Y具有统计上显著的线性解释力。
几何解释与FWL定理
从线性代数视角看,线性回归本质上是在 维欧几里得空间中进行正交投影。向量 可分解为其在解释变量列空间上的投影加上正交补。ESS等于中心化后投影向量 的平方长度,而TSS等于中心化后 的平方长度。 的几何含义是 与其投影之间夹角的余弦平方。
这一几何直觉由[[弗里希-沃-洛弗尔定理]](Frisch-Waugh-Lovell Theorem)进一步深化:多元回归中任一解释变量 的偏回归系数,等价于先将Y和 各自对所有其他解释变量回归,然后用所得的两组残差进行一元回归所得的系数。这一定理揭示了"偏效应"的几何本质——先剥离其他变量的线性影响,再看剩余部分的关联。
实证应用中的警示
尽管ESS与 是回归分析最基础的输出指标,其滥用仍广泛存在。第一, 不能度量因果解释力——时间序列中的伪回归问题(Granger-Newbold, 1974)即是明证:两个独立随机游走变量的回归常产生高 和显著的t统计量,但二者毫无因果关系。第二,不同因变量设定(水平值vs.对数变换、不同频率聚合)下的 不可直接比较,因为TSS本身发生了改变。第三,在[[工具变量回归]]中,由于IV估计量并非正交投影, 可能出现负值而失去直观意义,应采用其他模型评估准则(如过度识别检验、弱工具变量检验)。第四,对于二值选择模型(如[[Logit模型]]、[[Probit模型]])或受限因变量模型,经典的 概念不再适用,因为这些模型并非通过最小化残差平方和来估计参数,而是基于[[最大似然估计]]。计量经济学文献为此发展了各类伪 (pseudo-),如[[麦克法登 ]]、Cox-Snell 和 Nagelkerke ,它们从不同角度近似线性模型中 的直观含义,但彼此数值不可直接类比。
参见
- [[总平方和]]
- [[残差平方和]]
- [[拟合优度]]
- [[线性回归]]
- [[方差分析]]
- [[F检验]]
- [[普通最小二乘法]]
- [[弗里希-沃-洛弗尔定理]]
- [[调整R²]]
- [[工具变量回归]]
- [[伪R²]]
- [[麦克法登R²]]
- [[亨利·泰尔]]