ARTICLE

Sum of Squared Errors

Sum of Squared Errors (SSE) 误差平方和 (Sum of Squared Errors, SSE),也称为残差平方和 (Residual Sum of Squares, RSS) 或解释平方和的剩余部分,是统计学、计量经济学和机器学习中最基础的拟合优度度量之一。对于包含 n 个观测的数据集,设第 i 个观测的真实值为 y_i,模型给

浏览 0 更新 2025-10-26

Sum of Squared Errors (SSE)

误差平方和 (Sum of Squared Errors, SSE),也称为残差平方和 (Residual Sum of Squares, RSS) 或解释平方和的剩余部分,是统计学计量经济学机器学习中最基础的拟合优度度量之一。对于包含 nn 个观测的数据集,设第 ii 个观测的真实值为 yiy_i,模型给出的预测值为 y^i\hat{y}_i,则残差 ei=yiy^ie_i = y_i - \hat{y}_i,SSE 定义为所有残差的平方和:

SSE=i=1n(yiy^i)2=i=1nei2\operatorname{SSE} = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 = \sum_{i=1}^{n} e_i^2

SSE 度量了模型未能解释的变异总量,其值越小,说明模型的拟合效果越好。在普通最小二乘法 (OLS) 框架下,SSE 正是被最小化的目标函数——OLS 回归系数 β^\hat{\beta} 通过求解 minβSSE(β)\min_{\beta} \operatorname{SSE}(\beta) 得到。

在回归分析中的地位

考虑经典的线性回归模型 yi=xiTβ+εiy_i = \mathbf{x}_i^T\beta + \varepsilon_i,其中 xi\mathbf{x}_i 为第 ii 个观测的 pp 维解释变量向量(包含截距),β\beta 为未知参数向量,εi\varepsilon_i误差项。OLS 估计量 β^\hat{\beta} 的表达式为:

β^=argminβi=1n(yixiTβ)2=(XTX)1XTy\hat{\beta} = \arg\min_{\beta} \sum_{i=1}^{n} (y_i - \mathbf{x}_i^T\beta)^2 = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y}

其中 X\mathbf{X}n×pn \times p 设计矩阵,y=(y1,,yn)T\mathbf{y} = (y_1, \ldots, y_n)^T。由此得到拟合值 y^=Xβ^=Hy\hat{\mathbf{y}} = \mathbf{X}\hat{\beta} = \mathbf{H}\mathbf{y},其中 H=X(XTX)1XT\mathbf{H} = \mathbf{X}(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T帽子矩阵 (Hat Matrix)。最小化的 SSE 可写作:

SSE=yT(IH)y=eTe\operatorname{SSE} = \mathbf{y}^T(\mathbf{I} - \mathbf{H})\mathbf{y} = \mathbf{e}^T\mathbf{e}

该二次型表示是推导 SSE\operatorname{SSE} 的抽样分布和进行统计推断的基础。

从几何角度看,OLS 本质上是将响应向量 y\mathbf{y} 正交投影到设计矩阵 X\mathbf{X} 的列空间 C(X)\mathcal{C}(\mathbf{X}) 上。拟合值 y^=Hy\hat{\mathbf{y}} = \mathbf{H}\mathbf{y} 是该投影的结果,而残差向量 e=yy^=(IH)y\mathbf{e} = \mathbf{y} - \hat{\mathbf{y}} = (\mathbf{I} - \mathbf{H})\mathbf{y} 则正交于 C(X)\mathcal{C}(\mathbf{X})。SSE 正是残差向量长度的平方 e2\|\mathbf{e}\|^2。这一几何视角统一了对回归拟合的理解:SSE 度量了 y\mathbf{y} 到模型空间的垂直距离,最小化 SSE 等价于寻找 y\mathbf{y}C(X)\mathcal{C}(\mathbf{X}) 上的最近点。

平方和分解与 R2R^2

SSE 是总变异分解的三大组成部分之一。定义总平方和 SST=i=1n(yiyˉ)2\operatorname{SST} = \sum_{i=1}^{n} (y_i - \bar{y})^2回归平方和 SSR=i=1n(y^iyˉ)2\operatorname{SSR} = \sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2,在线性回归模型包含截距项时,存在如下平方和分解恒等式:

SST=SSR+SSE\operatorname{SST} = \operatorname{SSR} + \operatorname{SSE}

其中,SST 度量数据围绕均值的总变异,SSR 度量模型解释的变异,SSE 度量模型未能解释的变异。该分解是方差分析 (ANOVA) 和模型比较的基石。由此,决定系数 R2R^2 被定义为:

R2=1SSESST=SSRSSTR^2 = 1 - \frac{\operatorname{SSE}}{\operatorname{SST}} = \frac{\operatorname{SSR}}{\operatorname{SST}}

R2[0,1]R^2 \in [0, 1] 刻画了因变量的变异中被模型解释的比例。值得注意的是,向模型中追加任意变量都会使 SSE 不增,因此 R2R^2 永远不减;为避免模型过度膨胀,常使用调整 R2R^2 (Adjusted R2R^2),其用自由度惩罚多余的变量:

Rˉ2=1SSE/(np)SST/(n1)\bar{R}^2 = 1 - \frac{\operatorname{SSE} / (n - p)}{\operatorname{SST} / (n - 1)}

作为方差估计量的基础

SSE 是估计误差方差 σ2=Var(εi)\sigma^2 = \operatorname{Var}(\varepsilon_i) 的出发点。在线性回归满足高斯-马尔可夫假定(尤其是同方差性与误差不相关)时,残差平方和的期望为:

E[SSE]=(np)σ2\mathbb{E}[\operatorname{SSE}] = (n - p)\,\sigma^2

因此,误差方差的一个无偏估计量均方误差 (Mean Squared Error, MSE) 给出:

σ^2=MSE=SSEnp\hat{\sigma}^2 = \operatorname{MSE} = \frac{\operatorname{SSE}}{n - p}

其中 npn - p 为模型的自由度——它反映了在估计 pp 个参数后剩余的独立信息量。σ^2\hat{\sigma}^2 是检验回归系数显著性的 tt 检验和整体显著性的 FF 检验的关键输入。具体地,系数估计的方差-协方差矩阵为 Var^(β^)=σ^2(XTX)1\widehat{\operatorname{Var}}(\hat{\beta}) = \hat{\sigma}^2 (\mathbf{X}^T\mathbf{X})^{-1}

在经典正态误差假设 εiN(0,σ2)\varepsilon_i \sim N(0, \sigma^2) 下,有精确分布结果:

SSEσ2χnp2\frac{\operatorname{SSE}}{\sigma^2} \sim \chi^2_{n-p}

该结果独立于 β^\hat{\beta},是构造回归系数的置信区间和假设检验的理论依据。

SSE 与模型选择

SSE 是多种模型选择准则 (Model Selection Criteria) 的核心成分。以赤池信息准则 (AIC) 和贝叶斯信息准则 (BIC) 为例:

AIC=nln(SSEn)+2p,BIC=nln(SSEn)+plnn.\begin{aligned} \operatorname{AIC} &= n \ln\left(\frac{\operatorname{SSE}}{n}\right) + 2p, \\ \operatorname{BIC} &= n \ln\left(\frac{\operatorname{SSE}}{n}\right) + p \ln n. \end{aligned}

两者在 SSE 拟合优度与模型复杂度 (pp) 之间寻求平衡:降低 SSE 需要增加参数,但过多的参数导致过拟合;AIC 和 BIC 通过惩罚项实现自动化的偏差-方差权衡。BIC 对复杂模型的惩罚力度更大(当 n>7n > 7lnn>2\ln n > 2),在大样本下倾向于选择更简约的模型。

交叉验证 (Cross-Validation) 中,SSE 在留出验证集或 kk 折验证中的表现 foldifold(yiy^i(-fold))2\sum_{\text{fold}} \sum_{i \in \text{fold}} (y_i - \hat{y}_i^{(\text{-fold})})^2 为评估模型泛化能力提供了实用的经验指标。

与 ANOVA 的关联

方差分析 (ANOVA) 中,SSE 的概念得到了扩展。在单因素 ANOVA 中,SSE(亦称组内平方和,Within-group Sum of Squares)度量了各组内部观测值围绕各组均值的离散程度:

SSE=j=1ki=1nj(yijyˉj)2\operatorname{SSE} = \sum_{j=1}^{k} \sum_{i=1}^{n_j} (y_{ij} - \bar{y}_{\cdot j})^2

其中 kk 为组数,njn_j 为第 jj 组的样本量,yˉj\bar{y}_{\cdot j} 为组均值。相应的 FF 检验统计量 F=SSR/(k1)SSE/(nk)F = \frac{\operatorname{SSR} / (k-1)}{\operatorname{SSE} / (n-k)} 用于检验所有组均值是否相等。

残差诊断中的 SSE 应用

SSE 不仅是汇总统计量,也是残差诊断 (Residual Diagnostics) 的起点。单个残差 ei=yiy^ie_i = y_i - \hat{y}_i 本身难以直接判断其大小是否异常——不同观测点的杠杆率和方差可能不同。为此,常使用学生化残差 (Studentized Residual):

ri=eiσ^1hiir_i = \frac{e_i}{\hat{\sigma}\sqrt{1 - h_{ii}}}

其中 hiih_{ii} 为帽子矩阵的第 ii 个对角元(即第 ii 个观测的杠杆值)。学生化残差近似服从 tt 分布,可用于识别离群值 (Outliers)。当某个观测的学生化残差的绝对值超过阈值(如 2233)时,表明该点可能为异常点。通过逐个剔除每个观测后重新计算 SSE 的变化(即 PRESS 统计量,Prediction Error Sum of Squares),可进一步评估单个观测对模型拟合的影响力,这在Cook 距离等诊断统计量中发挥核心作用。

此外,绘制残差对拟合值 (y^i,ei)(\hat{y}_i, e_i) 的散点图是检验模型假设的经典手段。若 SSE 的分布模式呈现漏斗形(异方差)或系统性弯曲(非线性),则提示模型设定可能存在偏差,需考虑变量变换或扩展模型形式。

计算注意事项

在实际计算中,直接按定义式计算 SSE 可能遭遇数值稳定性问题。对于大规模或病态数据,常采用以下方法:(1) 利用 QR 分解 X=QR\mathbf{X} = \mathbf{Q}\mathbf{R},其中 Q\mathbf{Q} 为正交矩阵,SSE 可通过 yQQTy2\|\mathbf{y} - \mathbf{Q}\mathbf{Q}^T\mathbf{y}\|^2 更稳定地计算;(2) 使用增量更新公式(如 Welford 类算法)避免存储整个残差向量;(3) 在统计软件(R、Stata、Python statsmodels)中,SSE 通常通过矩阵分解而非显式求逆 (XTX)1(\mathbf{X}^T\mathbf{X})^{-1} 来计算,以兼顾计算精度和速度。

SSE 作为一个看似简单的二次型,贯穿了参数估计、假设检验、模型诊断和模型选择的全部核心环节。在非线性回归广义线性模型 (GLM) 中,SSE 被推广为偏差 (Deviance) 或更一般的损失函数,但其最小化残差变异的核心思想不变。理解 SSE 的定义、分布性质和与其它指标的关联,是掌握回归分析方法论的基本功。