ARTICLE

残差平方和 (Sum of Squared Errors, SSE)

残差平方和 (Sum of Squared Errors, SSE) 残差平方和 (Sum of Squared Errors, SSE),亦常称为残差平方和 (Residual Sum of Squares, RSS) 或误差平方和 (Sum of Squared Residuals, SSR),是回归分析与统计建模中最核心的度量指标之一。它衡量了观测值与

浏览 0 更新 2025-05-31

残差平方和 (Sum of Squared Errors, SSE)

残差平方和 (Sum of Squared Errors, SSE),亦常称为残差平方和 (Residual Sum of Squares, RSS) 或误差平方和 (Sum of Squared Residuals, SSR),是回归分析统计建模中最核心的度量指标之一。它衡量了观测值模型预测值之间的总体偏差程度,是评估回归模型拟合优度的基石。

定义与数学表述

考虑一组观测数据 {(xi,yi)}i=1n\{ (x_i, y_i) \}_{i=1}^n,其中 yiy_i 是第 ii 个观测的因变量(响应变量),xix_i 是相应的自变量(解释变量)。通过某种回归模型(例如普通最小二乘法,OLS),我们可以得到每个 xix_i 对应的预测值 y^i\hat{y}_i

ii 个观测的残差 (residual) 定义为:

ei=yiy^ie_i = y_i - \hat{y}_i

残差反映了模型未能解释的那部分变异。将这些残差取平方后求和,即可得到残差平方和:

SSE=i=1nei2=i=1n(yiy^i)2SSE = \sum_{i=1}^{n} e_i^2 = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2

平方运算确保了正负偏差不会相互抵消,且对较大的偏差赋予更高的权重。

与普通最小二乘法 (OLS) 的关系

SSE 在普通最小二乘法 (Ordinary Least Squares, OLS) 中居于核心地位。OLS 的估计准则正是最小化残差平方和。换言之,OLS 估计量 β^\hat{\beta} 是通过求解以下最优化问题得到的:

β^=argminβi=1n(yixiβ)2\hat{\beta} = \arg\min_{\beta} \sum_{i=1}^{n} (y_i - x_i^{\top} \beta)^2

这一准则称为最小二乘准则 (Least Squares Criterion)。在经典线性回归模型 (Classical Linear Regression Model, CLRM) 的假设下,最小化 SSE 得到的估计量 β^\hat{\beta}最佳线性无偏估计量 (BLUE),即具有最小方差的性质(参见高斯-马尔可夫定理,Gauss-Markov Theorem)。

从几何角度看,OLS 将因变量向量 yy 投影到由自变量张成的列空间上,而 SSE 正是投影后残差向量的欧几里得范数的平方:

SSE=yy^2=e^2SSE = \| y - \hat{y} \|^2 = \| \hat{e} \|^2

SSE 在方差分解与拟合优度中的作用

SSE 是方差分解 (Variance Decomposition) 的关键组成部分。在线性回归中,因变量的总变异可分解为两部分:

SST=SSRreg+SSESST = SSR_{reg} + SSE

其中:

  • SST (Total Sum of Squares):总平方和,i=1n(yiyˉ)2\sum_{i=1}^{n} (y_i - \bar{y})^2,衡量因变量的总变异。
  • SSRreg_{reg} (Regression Sum of Squares) 或 SSEexpl_{expl} (Explained Sum of Squares):回归平方和,i=1n(y^iyˉ)2\sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2,衡量由模型解释的变异。
  • SSE (Error Sum of Squares):残差平方和,i=1n(yiy^i)2\sum_{i=1}^{n} (y_i - \hat{y}_i)^2,衡量模型未能解释的变异。

基于此分解,我们定义决定系数 (R2R^2) 为:

R2=SSRregSST=1SSESSTR^2 = \frac{SSR_{reg}}{SST} = 1 - \frac{SSE}{SST}

R2R^2 介于 0 和 1 之间,表示模型中自变量所能解释的因变量变异的比例。SSE 越小,R2R^2 越接近于 1,模型的拟合效果越好。

需要特别注意的是,当在模型中增加新的自变量时,SSE 通常不会增加(甚至严格递减),从而 R2R^2 也随之单调递增。这导致了过拟合 (Overfitting) 的风险。为此,调整后的 R2R^2 (Adjusted R2R^2) 对自变量的个数施加了惩罚:

Rˉ2=1SSE/(nk1)SST/(n1)\bar{R}^2 = 1 - \frac{SSE / (n - k - 1)}{SST / (n - 1)}

其中 kk 为自变量的个数,nn 为样本量。

SSE 在统计推断中的应用

SSE 在假设检验模型选择中也扮演着重要的角色。

无偏方差估计

在经典线性回归模型中,误差项方差 σ2\sigma^2 的无偏估计量由 SSE 导出:

σ^2=SSEnk1=MSE\hat{\sigma}^2 = \frac{SSE}{n - k - 1} = MSE

其中 MSE (Mean Squared Error, 均方误差) 是 SSE 除以其自由度得到的。分母中的 nk1n - k - 1 是残差的自由度 (degrees of freedom),反映了估计 k+1k+1 个参数(包括截距项)造成的自由度损失。

F 检验与模型比较

F 检验 (F-test) 用于检验一组自变量的整体显著性。检验统计量为:

F=SSRreg/kSSE/(nk1)=MSRregMSEF = \frac{SSR_{reg} / k}{SSE / (n - k - 1)} = \frac{MSR_{reg}}{MSE}

对于嵌套模型的比较,我们可以使用似然比检验 (Likelihood Ratio Test) 或基于 SSE 的约简模型比较

F=(SSErestrictedSSEunrestricted)/qSSEunrestricted/(nk1)F = \frac{(SSE_{restricted} - SSE_{unrestricted}) / q}{SSE_{unrestricted} / (n - k - 1)}

其中 qq 是受约束的参数个数。这一统计量服从 F 分布,用于判断约束条件是否显著降低了模型的拟合质量。

信息准则

赤池信息准则 (AIC) 和贝叶斯信息准则 (BIC) 也在一定程度上依赖于 SSE:

AIC=nln(SSEn)+2k,BIC=nln(SSEn)+klnnAIC = n \ln\left(\frac{SSE}{n}\right) + 2k, \quad BIC = n \ln\left(\frac{SSE}{n}\right) + k \ln n

这些准则在模型拟合优度(以 SSE 度量)与模型复杂度(以参数个数 kk 度量)之间做出权衡,以防范过拟合。

SSE 与其他统计量的关系

理解 SSE 与其他平方和的关系,有助于全面把握回归分析的逻辑框架:

  • 均方误差 (MSE)MSE=SSE/(nk1)MSE = SSE / (n - k - 1)。MSE 是 σ2\sigma^2 的无偏估计,是构造回归系数标准误的基础。
  • 均方根误差 (RMSE)RMSE=MSERMSE = \sqrt{MSE}。RMSE 与因变量的量纲一致,直观地反映模型的平均预测误差。
  • 总平方和 (SST):SST 是 SSE 与 SSRreg_{reg} 之和,代表因变量的总变异。
  • 回归平方和 (SSRreg_{reg}):模型能够解释的变异部分,与 SSE 互补地刻画了模型的解释力。

局限性与注意事项

尽管 SSE 是衡量模型拟合的直观指标,但在实际应用中需注意以下几点:

  1. 量纲依赖性:SSE 的值依赖于因变量的量纲,因此不能直接用于跨数据集或跨不同因变量模型的比较。
  2. 对异常值敏感:由于平方运算放大了较大残差的影响,SSE 极易受到异常值 (outliers) 的干扰。一个极端值可能主导 SSE 的值,从而扭曲模型评估。
  3. 不适用于非线性模型比较:对于非线性回归或非参数模型,SSE 的统计性质(如方差分解)不再保持,需要谨慎使用。
  4. 惩罚不足:如前所述,增加自变量总能降低(或维持)SSE,需借助调整 R2R^2 或信息准则进行修正。

拓展:加权与广义最小二乘

异方差性 (Heteroscedasticity) 存在的情况下,普通最小二乘法不再有效。此时可使用加权最小二乘法 (Weighted Least Squares, WLS) 或广义最小二乘法 (Generalized Least Squares, GLS),其目标函数为加权残差平方和

SSEWLS=i=1nwi(yiy^i)2SSE_{WLS} = \sum_{i=1}^{n} w_i (y_i - \hat{y}_i)^2

其中 wiw_i 为第 ii 个观测的权重,通常取为 wi=1/σi2w_i = 1 / \sigma_i^2,即对方差较大的观测赋予较小的权重。这一方法有效解决了异方差问题下的有效估计。

岭回归 (Ridge Regression) 和LASSO正则化方法中,目标函数在 SSE 的基础上增加了对系数大小的惩罚项,实现了偏差与方差的权衡:

β^ridge=argminβi=1n(yixiβ)2+λj=1kβj2\hat{\beta}_{ridge} = \arg\min_{\beta} \sum_{i=1}^{n} (y_i - x_i^{\top} \beta)^2 + \lambda \sum_{j=1}^{k} \beta_j^2

总结

残差平方和 (SSE) 作为回归分析的核心统计量,贯穿于模型估计、拟合优度评价、假设检验和模型选择的各个环节。它不仅是最小二乘估计的目标函数,也是连接方差分解、决定系数、F 检验和信息准则的桥梁。理解 SSE 的理论内涵与统计性质,对于正确运用和应用回归模型具有不可替代的基础性意义。