ARTICLE

Sum of Squares Error

Sum of Squares Error (SSE) 误差平方和 (Sum of Squares Error, SSE),也称残差平方和 (Residual Sum of Squares, RSS),是回归分析和方差分析中度量模型拟合优度的基础统计量。对于包含 n 个观测的样本,设第 i 个观测的真实值为 y_i,模型给出的预测值为 y_i,则残差 e_i

浏览 0 更新 2026-05-25

Sum of Squares Error (SSE)

误差平方和 (Sum of Squares Error, SSE),也称残差平方和 (Residual Sum of Squares, RSS),是回归分析方差分析中度量模型拟合优度的基础统计量。对于包含 nn 个观测的样本,设第 ii 个观测的真实值为 yiy_i,模型给出的预测值为 y^i\hat{y}_i,则残差 ei=yiy^ie_i = y_i - \hat{y}_i 表示模型未能解释的部分。SSE 定义为所有残差的平方和:

SSE=i=1n(yiy^i)2=i=1nei2\operatorname{SSE} = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 = \sum_{i=1}^{n} e_i^2

SSE 恒为非负值:SSE=0\operatorname{SSE} = 0 意味着模型完美拟合所有观测点(所有残差为零),而 SSE 越大表示模型预测偏离实际值越远。在普通最小二乘法 (OLS) 框架中,SSE 正是被最小化的目标函数——OLS 估计量 β^\hat{\beta} 通过求解 minβSSE(β)\min_{\beta} \operatorname{SSE}(\beta) 得出。对目标函数求导并令其一阶条件为零,可得正规方程 XTXβ^=XTy\mathbf{X}^T\mathbf{X}\hat{\beta} = \mathbf{X}^T\mathbf{y},解出 β^=(XTX)1XTy\hat{\beta} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y},即所有线性无偏估计量中方差最小者。

术语辨析

SSE 在不同学科和教材中存在多种等价称谓,这一命名混乱常给初学者带来困扰。在计量经济学文献中常记为 SSE (Sum of Squares Error) 或 RSS (Residual Sum of Squares);在统计学教材中有时记为 SSerror\operatorname{SS}_{\text{error}}SSresid\operatorname{SS}_{\text{resid}} 或简称误差平方和;在部分实验设计教材中亦记为 SSwithin\operatorname{SS}_{\text{within}}(组内平方和)。需特别警惕:某些教材将 SSE 与 ESS (Explained Sum of Squares) 的缩写互换使用——前者指未被解释的残余变异,后者指模型可解释的变异。在同一语境中使用这些符号时,务必确认其约定含义,避免将 SSE 的增减方向与拟合好坏的关系颠倒误判。

平方和分解与决定系数

含截距项的经典线性回归模型中,总变异 SST=(yiyˉ)2\operatorname{SST} = \sum (y_i - \bar{y})^2 可作正交分解:

SST=SSR+SSE\operatorname{SST} = \operatorname{SSR} + \operatorname{SSE}

其中 SSR=(y^iyˉ)2\operatorname{SSR} = \sum (\hat{y}_i - \bar{y})^2回归平方和,度量模型可解释的变异部分。该分解恒等式的成立依赖于残差与拟合值正交这一 OLS 的核心性质——残差向量 e\mathbf{e} 与预测向量 y^\hat{\mathbf{y}} 的内积为零,即 eiy^i=0\sum e_i \hat{y}_i = 0。从几何角度看,该分解对应将响应向量 y\mathbf{y} 正交投影至设计矩阵 X\mathbf{X} 的列空间:SSR 衡量投影向量的变异大小,SSE 衡量残差向量(正交于列空间的垂直距离)的平方长度。

由此,决定系数 R2R^2 自然定义为:

R2=1SSESST=SSRSSTR^2 = 1 - \frac{\operatorname{SSE}}{\operatorname{SST}} = \frac{\operatorname{SSR}}{\operatorname{SST}}

R2R^2 位于 [0,1][0,1] 区间,直观解释为因变量总变异中被模型解释的比例。当 SSE → 0 时 R21R^2 → 1;当模型不优于用样本均值预测时,SSE ≈ SST,R20R^2 → 0。需要注意的是,向模型中增加解释变量总会使 SSE 不增(至少不变),因此 R2R^2 会机械上升,不能单独用于比较不同参数个数的模型。为此常使用调整 R2R^2Rˉ2=1SSE/(np)SST/(n1)\bar{R}^2 = 1 - \frac{\operatorname{SSE}/(n-p)}{\operatorname{SST}/(n-1)},通过自由度惩罚多余变量。

误差方差的估计与抽样分布

高斯-马尔可夫定理的经典假设下(误差项同方差 Var(εi)=σ2\operatorname{Var}(\varepsilon_i) = \sigma^2 且彼此无关),SSE 为推断误差方差 σ2\sigma^2 提供了基础。残差平方和的期望可以证明为:

E[SSE]=(np)σ2\mathbb{E}[\operatorname{SSE}] = (n - p)\,\sigma^2

其中 pp 为模型参数个数(含截距)。由此,误差方差的无偏估计量为均方误差:

σ^2=MSE=SSEnp\hat{\sigma}^2 = \operatorname{MSE} = \frac{\operatorname{SSE}}{n - p}

分母 npn - p 称为模型的自由度——反映在估计了 pp 个回归系数后,nn 个观测中剩余的独立信息数量。σ^2\hat{\sigma}^2 的平方根 σ^\hat{\sigma} 即为回归标准误 (Standard Error of the Regression),度量了观测值围绕回归线的典型离散程度。

若进一步假设误差服从正态分布 εiN(0,σ2)\varepsilon_i \sim \mathcal{N}(0, \sigma^2),则有以下精确分布结果:SSE/σ2χnp2\operatorname{SSE}/\sigma^2 \sim \chi^2_{n-p},且该分布独立于回归系数估计量 β^\hat{\beta}。这一卡方性质是构造回归系数显著性 tt 检验和模型整体显著性 FF 检验的理论支柱。

模型比较与选择

SSE 是嵌套模型检验和多种模型选择准则的核心组分。在嵌套模型 FF 检验中,通过比较受约束模型(施加了 qq 个线性约束)与无约束模型的 SSE 差异构造检验统计量:

F=(SSERSSEU)/qSSEU/(np)F = \frac{(\operatorname{SSE}_R - \operatorname{SSE}_U) / q}{\operatorname{SSE}_U / (n - p)}

直观上,若新增变量仅使 SSE 略微下降,则 FF 值较小,无法拒绝约束条件成立的零假设;反之若 SSE 下降幅度显著,则提示约束条件限制了模型的解释能力。

赤池信息准则 (AIC) 和贝叶斯信息准则 (BIC) 中,SSE 以对数尺度进入:

AIC=nln ⁣(SSEn)+2p,BIC=nln ⁣(SSEn)+plnn\operatorname{AIC} = n \ln\!\left(\frac{\operatorname{SSE}}{n}\right) + 2p,\quad \operatorname{BIC} = n \ln\!\left(\frac{\operatorname{SSE}}{n}\right) + p \ln n

两准则均在拟合优度(SSE 够小)与模型简约性(参数 pp 够少)之间寻求平衡:减小 SSE 往往需要增加参数,但过多的参数又导致过拟合风险。BIC 对大样本下复杂模型的惩罚比 AIC 更严厉(当 n>7n > 7lnn>2\ln n > 2),倾向于选择更简约的模型。

与最大似然估计的一致性

假设误差服从独立正态分布 εiN(0,σ2)\varepsilon_i \sim \mathcal{N}(0, \sigma^2),样本的最大似然估计 (MLE) 对数似然函数为:

(β,σ2)=n2ln(2πσ2)12σ2i=1n(yixiTβ)2\ell(\beta, \sigma^2) = -\frac{n}{2}\ln(2\pi\sigma^2) - \frac{1}{2\sigma^2}\sum_{i=1}^{n} (y_i - \mathbf{x}_i^T\beta)^2

最大化该似然函数时,第一项与 β\beta 无关,第二项的负号意味着最大化 \ell 等价于最小化 SSE。换言之,正态误差假设下 OLS 与 MLE 对回归系数的估计完全等价。此时最小化 SSE 不仅得到最佳线性无偏估计量 (BLUE),更是在所有无偏估计量中达到 Cramér-Rao 下界的最小方差估计量。

残差诊断

SSE 不仅是汇总统计量,也是回归诊断的起点。模型假设的验证常通过分析残差模式进行:绘制残差对拟合值 (y^i,ei)(\hat{y}_i, e_i) 的散点图,若点的分布呈漏斗形(提示异方差性)或系统性弯曲(提示非线性关系),则表明线性模型设定可能不当。此外,学生化残差 ri=ei/(σ^1hii)r_i = e_i / (\hat{\sigma}\sqrt{1 - h_{ii}})(其中 hiih_{ii} 为帽子矩阵对角元)可用于识别离群值——当 ri>2|r_i| > 233 时需关注对应观测的异常性。

计算与实用提示

直接按定义式计算 SSE 在大规模或病态数据中可能出现数值不稳定。实践中推荐:(1) 通过 QR 分解 X=QR\mathbf{X} = \mathbf{Q}\mathbf{R},利用 Q\mathbf{Q} 的正交性计算 SSE=yQQTy2\operatorname{SSE} = \|\mathbf{y} - \mathbf{Q}\mathbf{Q}^T\mathbf{y}\|^2;(2) 避免显式构造 XTX\mathbf{X}^T\mathbf{X} 及其逆矩阵以减少舍入误差;(3) 各主流统计软件(R 的 \texttt{lm()}、Python 的 \texttt{statsmodels}、Stata 的 \texttt{regress})内部均通过矩阵分解自动计算 SSE,用户无需手动编程。

SSE 作为定量分析中最朴素也最核心的度量,从参数估计与假设检验,到模型诊断与选择的每一环节均不可或缺。透彻理解其定义、分布特性及与其他统计量之间的结构关系,是掌握回归分析方法论的基本前提。