Sum of Squared Errors (SSE)
误差平方和 (Sum of Squared Errors, SSE),也称为残差平方和 (Residual Sum of Squares, RSS) 或解释平方和的剩余部分 ,是统计学 、计量经济学 和机器学习 中最基础的拟合优度度量之一。对于包含 n n n 个观测的数据集,设第 i i i 个观测的真实值为 y i y_i y i ,模型给出的预测值为 y ^ i \hat{y}_i y ^ i ,则残差 e i = y i − y ^ i e_i = y_i - \hat{y}_i e i = y i − y ^ i ,SSE 定义为所有残差的平方和:
SSE = ∑ i = 1 n ( y i − y ^ i ) 2 = ∑ i = 1 n e i 2 \operatorname{SSE} = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 = \sum_{i=1}^{n} e_i^2 SSE = i = 1 ∑ n ( y i − y ^ i ) 2 = i = 1 ∑ n e i 2
SSE 度量了模型未能解释的变异总量,其值越小,说明模型的拟合效果越好。在普通最小二乘法 (OLS) 框架下,SSE 正是被最小化的目标函数——OLS 回归系数 β ^ \hat{\beta} β ^ 通过求解 min β SSE ( β ) \min_{\beta} \operatorname{SSE}(\beta) min β SSE ( β ) 得到。
在回归分析中的地位
考虑经典的线性回归模型 y i = x i T β + ε i y_i = \mathbf{x}_i^T\beta + \varepsilon_i y i = x i T β + ε i ,其中 x i \mathbf{x}_i x i 为第 i i i 个观测的 p p p 维解释变量向量(包含截距),β \beta β 为未知参数向量,ε i \varepsilon_i ε i 为误差项 。OLS 估计量 β ^ \hat{\beta} β ^ 的表达式为:
β ^ = arg min β ∑ i = 1 n ( y i − x i T β ) 2 = ( X T X ) − 1 X T y \hat{\beta} = \arg\min_{\beta} \sum_{i=1}^{n} (y_i - \mathbf{x}_i^T\beta)^2 = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y} β ^ = arg β min i = 1 ∑ n ( y i − x i T β ) 2 = ( X T X ) − 1 X T y
其中 X \mathbf{X} X 为 n × p n \times p n × p 设计矩阵,y = ( y 1 , … , y n ) T \mathbf{y} = (y_1, \ldots, y_n)^T y = ( y 1 , … , y n ) T 。由此得到拟合值 y ^ = X β ^ = H y \hat{\mathbf{y}} = \mathbf{X}\hat{\beta} = \mathbf{H}\mathbf{y} y ^ = X β ^ = Hy ,其中 H = X ( X T X ) − 1 X T \mathbf{H} = \mathbf{X}(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T H = X ( X T X ) − 1 X T 为帽子矩阵 (Hat Matrix)。最小化的 SSE 可写作:
SSE = y T ( I − H ) y = e T e \operatorname{SSE} = \mathbf{y}^T(\mathbf{I} - \mathbf{H})\mathbf{y} = \mathbf{e}^T\mathbf{e} SSE = y T ( I − H ) y = e T e
该二次型表示是推导 SSE \operatorname{SSE} SSE 的抽样分布和进行统计推断的基础。
从几何角度看,OLS 本质上是将响应向量 y \mathbf{y} y 正交投影到设计矩阵 X \mathbf{X} X 的列空间 C ( X ) \mathcal{C}(\mathbf{X}) C ( X ) 上。拟合值 y ^ = H y \hat{\mathbf{y}} = \mathbf{H}\mathbf{y} y ^ = Hy 是该投影的结果,而残差向量 e = y − y ^ = ( I − H ) y \mathbf{e} = \mathbf{y} - \hat{\mathbf{y}} = (\mathbf{I} - \mathbf{H})\mathbf{y} e = y − y ^ = ( I − H ) y 则正交于 C ( X ) \mathcal{C}(\mathbf{X}) C ( X ) 。SSE 正是残差向量长度的平方 ∥ e ∥ 2 \|\mathbf{e}\|^2 ∥ e ∥ 2 。这一几何视角统一了对回归拟合的理解:SSE 度量了 y \mathbf{y} y 到模型空间的垂直距离,最小化 SSE 等价于寻找 y \mathbf{y} y 在 C ( X ) \mathcal{C}(\mathbf{X}) C ( X ) 上的最近点。
平方和分解与 R 2 R^2 R 2
SSE 是总变异分解的三大组成部分之一。定义总平方和 SST = ∑ i = 1 n ( y i − y ˉ ) 2 \operatorname{SST} = \sum_{i=1}^{n} (y_i - \bar{y})^2 SST = ∑ i = 1 n ( y i − y ˉ ) 2 和回归平方和 SSR = ∑ i = 1 n ( y ^ i − y ˉ ) 2 \operatorname{SSR} = \sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2 SSR = ∑ i = 1 n ( y ^ i − y ˉ ) 2 ,在线性回归模型包含截距项时,存在如下平方和分解 恒等式:
SST = SSR + SSE \operatorname{SST} = \operatorname{SSR} + \operatorname{SSE} SST = SSR + SSE
其中,SST 度量数据围绕均值的总变异,SSR 度量模型解释的变异,SSE 度量模型未能解释的变异。该分解是方差分析 (ANOVA) 和模型比较的基石。由此,决定系数 R 2 R^2 R 2 被定义为:
R 2 = 1 − SSE SST = SSR SST R^2 = 1 - \frac{\operatorname{SSE}}{\operatorname{SST}} = \frac{\operatorname{SSR}}{\operatorname{SST}} R 2 = 1 − SST SSE = SST SSR
R 2 ∈ [ 0 , 1 ] R^2 \in [0, 1] R 2 ∈ [ 0 , 1 ] 刻画了因变量的变异中被模型解释的比例。值得注意的是,向模型中追加任意变量都会使 SSE 不增,因此 R 2 R^2 R 2 永远不减;为避免模型过度膨胀,常使用调整 R 2 R^2 R 2 (Adjusted R 2 R^2 R 2 ),其用自由度惩罚多余的变量:
R ˉ 2 = 1 − SSE / ( n − p ) SST / ( n − 1 ) \bar{R}^2 = 1 - \frac{\operatorname{SSE} / (n - p)}{\operatorname{SST} / (n - 1)} R ˉ 2 = 1 − SST / ( n − 1 ) SSE / ( n − p )
作为方差估计量的基础
SSE 是估计误差方差 σ 2 = Var ( ε i ) \sigma^2 = \operatorname{Var}(\varepsilon_i) σ 2 = Var ( ε i ) 的出发点。在线性回归满足高斯-马尔可夫假定 (尤其是同方差性与误差不相关)时,残差平方和的期望为:
E [ SSE ] = ( n − p ) σ 2 \mathbb{E}[\operatorname{SSE}] = (n - p)\,\sigma^2 E [ SSE ] = ( n − p ) σ 2
因此,误差方差的一个无偏估计量 由均方误差 (Mean Squared Error, MSE) 给出:
σ ^ 2 = MSE = SSE n − p \hat{\sigma}^2 = \operatorname{MSE} = \frac{\operatorname{SSE}}{n - p} σ ^ 2 = MSE = n − p SSE
其中 n − p n - p n − p 为模型的自由度 ——它反映了在估计 p p p 个参数后剩余的独立信息量。σ ^ 2 \hat{\sigma}^2 σ ^ 2 是检验回归系数显著性的 t t t 检验和整体显著性的 F F F 检验的关键输入。具体地,系数估计的方差-协方差矩阵为 Var ^ ( β ^ ) = σ ^ 2 ( X T X ) − 1 \widehat{\operatorname{Var}}(\hat{\beta}) = \hat{\sigma}^2 (\mathbf{X}^T\mathbf{X})^{-1} Var ( β ^ ) = σ ^ 2 ( X T X ) − 1 。
在经典正态误差假设 ε i ∼ N ( 0 , σ 2 ) \varepsilon_i \sim N(0, \sigma^2) ε i ∼ N ( 0 , σ 2 ) 下,有精确分布结果:
SSE σ 2 ∼ χ n − p 2 \frac{\operatorname{SSE}}{\sigma^2} \sim \chi^2_{n-p} σ 2 SSE ∼ χ n − p 2
该结果独立于 β ^ \hat{\beta} β ^ ,是构造回归系数的置信区间和假设检验的理论依据。
SSE 与模型选择
SSE 是多种模型选择准则 (Model Selection Criteria) 的核心成分。以赤池信息准则 (AIC) 和贝叶斯信息准则 (BIC) 为例:
AIC = n ln ( SSE n ) + 2 p , BIC = n ln ( SSE n ) + p ln n . \begin{aligned}
\operatorname{AIC} &= n \ln\left(\frac{\operatorname{SSE}}{n}\right) + 2p, \\
\operatorname{BIC} &= n \ln\left(\frac{\operatorname{SSE}}{n}\right) + p \ln n.
\end{aligned} AIC BIC = n ln ( n SSE ) + 2 p , = n ln ( n SSE ) + p ln n .
两者在 SSE 拟合优度与模型复杂度 (p p p ) 之间寻求平衡:降低 SSE 需要增加参数,但过多的参数导致过拟合;AIC 和 BIC 通过惩罚项实现自动化的偏差-方差权衡。BIC 对复杂模型的惩罚力度更大(当 n > 7 n > 7 n > 7 时 ln n > 2 \ln n > 2 ln n > 2 ),在大样本下倾向于选择更简约的模型。
在交叉验证 (Cross-Validation) 中,SSE 在留出验证集或 k k k 折验证中的表现 ∑ fold ∑ i ∈ fold ( y i − y ^ i ( -fold ) ) 2 \sum_{\text{fold}} \sum_{i \in \text{fold}} (y_i - \hat{y}_i^{(\text{-fold})})^2 ∑ fold ∑ i ∈ fold ( y i − y ^ i ( -fold ) ) 2 为评估模型泛化能力提供了实用的经验指标。
与 ANOVA 的关联
在方差分析 (ANOVA) 中,SSE 的概念得到了扩展。在单因素 ANOVA 中,SSE(亦称组内平方和,Within-group Sum of Squares)度量了各组内部观测值围绕各组均值的离散程度:
SSE = ∑ j = 1 k ∑ i = 1 n j ( y i j − y ˉ ⋅ j ) 2 \operatorname{SSE} = \sum_{j=1}^{k} \sum_{i=1}^{n_j} (y_{ij} - \bar{y}_{\cdot j})^2 SSE = j = 1 ∑ k i = 1 ∑ n j ( y ij − y ˉ ⋅ j ) 2
其中 k k k 为组数,n j n_j n j 为第 j j j 组的样本量,y ˉ ⋅ j \bar{y}_{\cdot j} y ˉ ⋅ j 为组均值。相应的 F F F 检验统计量 F = SSR / ( k − 1 ) SSE / ( n − k ) F = \frac{\operatorname{SSR} / (k-1)}{\operatorname{SSE} / (n-k)} F = SSE / ( n − k ) SSR / ( k − 1 ) 用于检验所有组均值是否相等。
残差诊断中的 SSE 应用
SSE 不仅是汇总统计量,也是残差诊断 (Residual Diagnostics) 的起点。单个残差 e i = y i − y ^ i e_i = y_i - \hat{y}_i e i = y i − y ^ i 本身难以直接判断其大小是否异常——不同观测点的杠杆率和方差可能不同。为此,常使用学生化残差 (Studentized Residual):
r i = e i σ ^ 1 − h i i r_i = \frac{e_i}{\hat{\sigma}\sqrt{1 - h_{ii}}} r i = σ ^ 1 − h ii e i
其中 h i i h_{ii} h ii 为帽子矩阵的第 i i i 个对角元(即第 i i i 个观测的杠杆值 )。学生化残差近似服从 t t t 分布,可用于识别离群值 (Outliers)。当某个观测的学生化残差的绝对值超过阈值(如 2 2 2 或 3 3 3 )时,表明该点可能为异常点。通过逐个剔除每个观测后重新计算 SSE 的变化(即 PRESS 统计量,Prediction Error Sum of Squares),可进一步评估单个观测对模型拟合的影响力,这在Cook 距离 等诊断统计量中发挥核心作用。
此外,绘制残差对拟合值 ( y ^ i , e i ) (\hat{y}_i, e_i) ( y ^ i , e i ) 的散点图是检验模型假设的经典手段。若 SSE 的分布模式呈现漏斗形(异方差)或系统性弯曲(非线性),则提示模型设定可能存在偏差,需考虑变量变换或扩展模型形式。
计算注意事项
在实际计算中,直接按定义式计算 SSE 可能遭遇数值稳定性 问题。对于大规模或病态数据,常采用以下方法:(1) 利用 QR 分解 X = Q R \mathbf{X} = \mathbf{Q}\mathbf{R} X = QR ,其中 Q \mathbf{Q} Q 为正交矩阵,SSE 可通过 ∥ y − Q Q T y ∥ 2 \|\mathbf{y} - \mathbf{Q}\mathbf{Q}^T\mathbf{y}\|^2 ∥ y − Q Q T y ∥ 2 更稳定地计算;(2) 使用增量更新公式(如 Welford 类算法)避免存储整个残差向量;(3) 在统计软件(R、Stata、Python statsmodels)中,SSE 通常通过矩阵分解而非显式求逆 ( X T X ) − 1 (\mathbf{X}^T\mathbf{X})^{-1} ( X T X ) − 1 来计算,以兼顾计算精度和速度。
SSE 作为一个看似简单的二次型,贯穿了参数估计、假设检验、模型诊断和模型选择的全部核心环节。在非线性回归 和广义线性模型 (GLM) 中,SSE 被推广为偏差 (Deviance) 或更一般的损失函数,但其最小化残差变异的核心思想不变。理解 SSE 的定义、分布性质和与其它指标的关联,是掌握回归分析方法论的基本功。