ARTICLE

Sum of Squared Residuals

残差平方和(Sum of Squared Residuals, SSR;亦称Residual Sum of Squares, RSS)是回归分析和统计建模中最基础的评估指标之一。它度量了回归模型预测值与实际观测值之间偏差的平方之和,直观地反映了模型未能解释的那部分变异量。残差平方和在最小二乘法(Ordinary Least Squares, OLS)中扮演着

浏览 0 更新 2025-11-11

残差平方和(Sum of Squared Residuals, SSR;亦称Residual Sum of Squares, RSS)是回归分析和统计建模中最基础的评估指标之一。它度量了回归模型预测值与实际观测值之间偏差的平方之和,直观地反映了模型未能解释的那部分变异量。残差平方和在最小二乘法(Ordinary Least Squares, OLS)中扮演着核心角色——正是通过对残差平方和的最小化,OLS估计量才得以推导出来。与此同时,SSR也是构造多种拟合优度统计量(如R²、F统计量)和模型诊断工具的基本构件,是连接理论推导与实证应用的桥梁。

数学定义与符号约定

设有一个包含n n 个观测值的回归模型,第i i 个观测点的因变量实际值为yi y_i ,模型对该观测点的预测值为y^i \hat{y}_i ,则残差ei e_i 定义为ei=yiy^i e_i = y_i - \hat{y}_i 。残差平方和即为所有残差的平方之和:

SSR=i=1n(yiy^i)2=i=1nei2SSR = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 = \sum_{i=1}^{n} e_i^2

在矩阵表示法中,若将所有残差组织为n×1 n \times 1 列向量e \mathbf{e} ,则SSR可简洁地表示为向量内积形式:SSR=eTe SSR = \mathbf{e}^T \mathbf{e} 。在线性回归模型y=Xβ+ϵ \mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\epsilon} 中,若以β^ \hat{\boldsymbol{\beta}} 表示系数向量的OLS估计量,则残差向量可表达为e=yXβ^=MXy \mathbf{e} = \mathbf{y} - \mathbf{X}\hat{\boldsymbol{\beta}} = \mathbf{M_X} \mathbf{y} ,其中MX=IX(XTX)1XT \mathbf{M_X} = \mathbf{I} - \mathbf{X}(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T 为著名的"消去矩阵"(Annihilator Matrix)或"残差制造矩阵"。这一表示展现了残差向量是原响应变量在模型矩阵列空间正交补上的投影。

值得注意的是,在英文文献中残差平方和存在多种缩写混用的情况。部分文献将之记为RSS(Residual Sum of Squares),另一些则使用SSE(Sum of Squared Errors)或SSR(Sum of Squared Residuals)。中文语境下,"残差平方和"是最通行的名称,有时为避免与回归平方和(SSR, Regression Sum of Squares)混淆,也使用"误差平方和"或"剩余平方和"等表述。在方差分析(ANOVA)分解框架下,总平方和(SST)被分解为回归平方和(SSReg)与残差平方和(SSR),三者满足SST=SSReg+SSR SST = SSReg + SSR

最小二乘法的核心目标

OLS估计量的本质目标即是通过选择回归系数β \boldsymbol{\beta} ,使残差平方和达到最小。这一优化问题可写为:

minβi=1n(yixiTβ)2=minβ(yXβ)T(yXβ)\min_{\boldsymbol{\beta}} \sum_{i=1}^{n} (y_i - \mathbf{x}_i^T \boldsymbol{\beta})^2 = \min_{\boldsymbol{\beta}} (\mathbf{y} - \mathbf{X}\boldsymbol{\beta})^T (\mathbf{y} - \mathbf{X}\boldsymbol{\beta})

β \boldsymbol{\beta} 求一阶导数并令其为零,得到正态方程组(Normal Equations):(XTX)β^=XTy (\mathbf{X}^T \mathbf{X})\hat{\boldsymbol{\beta}} = \mathbf{X}^T \mathbf{y} 。若XTX \mathbf{X}^T \mathbf{X} 可逆,则解出β^=(XTX)1XTy \hat{\boldsymbol{\beta}} = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y} 。该估计量在高斯-马尔可夫定理(Gauss-Markov Theorem)下被证明为最佳线性无偏估计量(BLUE)——在所有线性无偏估计量中具有最小的方差。平方形式的选择绝非偶然:若采用绝对值之和(L1范数)替代平方和(L2范数),则优化问题将退化为最小绝对偏差回归(Least Absolute Deviation, LAD),其虽具有更强的稳健性,但在数学处理上不再具备OLS的解析闭式解和统计上的最优性。

从几何视角理解,OLS本质上是在Rn \mathbb{R}^n 空间中寻找因变量向量y \mathbf{y} 在由解释变量张成的线性子空间上的投影。残差向量e \mathbf{e} 恰好是该投影的正交补分量,而残差平方和正是该正交补向量长度的平方。这一几何诠释揭示了一个重要性质:残差向量与所有解释变量正交,即XTe=0 \mathbf{X}^T \mathbf{e} = \mathbf{0} ,这正是正态方程组的等价表述。

拟合优度的评估

残差平方和的绝对数值本身受多种因素影响,包括样本量大小和因变量的量纲尺度,因此难以直接作为模型好坏的横向比较标准。为解决这一问题,统计学家基于SSR构造了多种相对化的拟合优度指标。判定系数R2 R^2 是其中最广为人知者,定义为模型解释的变异占总变异的比例:

R2=1SSRSSTR^2 = 1 - \frac{SSR}{SST}

其中SST=(yiyˉ)2 SST = \sum (y_i - \bar{y})^2 为总平方和。R2 R^2 的取值范围为[0,1] [0, 1] ,数值越接近1,表明模型解释的数据变异占比越高。然而,R2 R^2 存在一个严重缺陷:在普通最小二乘回归中,增加解释变量不会使SSR上升,因而R2 R^2 必然随变量数增加而单调递增,导致该指标无法惩罚过度参数化。为此,调整后的R2 R^2 (Adjusted R2 R^2 )引入自由度惩罚项,计算公式为:

Rˉ2=1SSR/(nk1)SST/(n1)\bar{R}^2 = 1 - \frac{SSR/(n-k-1)}{SST/(n-1)}

其中k k 为自变量的个数,n n 为样本量。调整R2 R^2 可以有效遏制变量数量的盲目增加,在模型选择中比普通R2 R^2 更为可靠。

残差平方和还直接参与了方程整体显著性检验。在多元线性回归中,F统计量用于检验所有回归系数(不含截距项)是否同时为零,其构造形式为:

F=(SSTSSR)/kSSR/(nk1)=SSReg/kSSR/(nk1)F = \frac{(SST - SSR)/k}{SSR/(n-k-1)} = \frac{SSReg/k}{SSR/(n-k-1)}

该统计量服从分子自由度为k k 、分母自由度为nk1 n-k-1 的F分布。一个较大的F值意味着模型整体解释的变异显著大于残差变异,从而表明回归模型具有统计显著性。

模型诊断与残差分析

残差平方和固然是一个综合性指标,但它本质上是对模型误差的"汇总",会掩盖残差的分布模式。因此,经典的残差诊断路线要求研究者在使用SSR之前,首先对残差本身进行细致入微的检查。有效的残差诊断通常包含以下几个维度。

异方差性(Heteroscedasticity)检验:若残差平方随拟合值或某个解释变量的水平呈系统性变化,则表明存在异方差。此时虽然回归系数的OLS估计仍保持无偏性,但标准误的估计出现偏误,导致t检验和F检验失效。Breusch-Pagan检验和White检验均基于对ei2 e_i^2 的辅助回归来诊断异方差,其本质正是在考察残差平方的均值(即SSR在各观测点上的分解)是否随解释变量系统变化。

自相关性(Autocorrelation)检验:在时间序列数据中,相邻期残差可能相互关联。Durbin-Watson统计量d=t=2n(etet1)2/t=1net2 d = \sum_{t=2}^n (e_t - e_{t-1})^2 / \sum_{t=1}^n e_t^2 通过对比相邻残差之差与残差本身的波动来检测一阶自相关。当残差存在正自相关时,d d 值显著小于2,OLS标准误会严重低估,从而夸大系数的统计显著性。

异常值与强影响点:单个极端观测值可以不成比例地拉高SSR,从而主导整个模型拟合。通过将第i i 个观测值删除前后的SSR差异(即ΔSSR \Delta SSR )加以对比,可以构造Cook距离(Cook's Distance)用于识别强影响点。该指标综合衡量了剔除某个观测点后回归系数向量的变化幅度,是回归诊断中的标准工具。

信息准则与模型选择

在模型选择领域,残差平方和构成了信息准则的核心构件。AIC(Akaike Information Criterion)和BIC(Bayesian Information Criterion)均在SSR的基础上引入参数数量的惩罚项,以此在模型拟合优度与简洁性之间取得平衡。对于线性回归模型,AIC的计算公式为:

AIC=nln(SSRn)+2kAIC = n \ln\left(\frac{SSR}{n}\right) + 2k

BIC则以kln(n) k \ln(n) 替代2k 2k ,对参数数量的惩罚力度更强:

BIC=nln(SSRn)+kln(n)BIC = n \ln\left(\frac{SSR}{n}\right) + k \ln(n)

这两种准则的非嵌套形式使它们能够比较参数个数不同的模型——这是单纯基于R2 R^2 或F检验不可能做到的。在实践应用中,研究者通常在候选模型集合中选取AIC或BIC最小的模型作为相对最优模型。值得注意的是,信息准则依赖的仍然是SSR所代表的拟合误差部分,因此残差平方和计算的准确性直接影响最终的模型选择结果。

局限性与替代方法

残差平方和虽然应用广泛,但并非完美无缺。最显著的局限在于它对异常值的高度敏感性。由于采用平方形式,个别极端偏离的观测值会对SSR产生过大的影响,导致模型为了拟合这些异常点而扭曲整体参数估计。稳健回归方法(如M估计、MM估计)通过替换平方损失函数为Huber损失或Tukey双权重损失等形式,有效降低了异常值的权重,以牺牲一部分效率换取鲁棒性。

此外,SSR作为一个全局性汇总统计量,不能揭示模型在不同子群体或不同取值区间上的局部拟合差异。在异质性数据的处理中,即使整体SSR较小,模型也可能在某些关键子群中预测严重失准。此时,分位数回归(Quantile Regression)或非参数回归方法可以通过在条件分位数上的局部拟合来弥补这一缺陷。最后,在高维数据场景中(pn p \gg n ),OLS不再可辨识,SSR最小化问题将退化为无约束的过拟合问题。这也是LASSO、岭回归等正则化方法之所以引入L1或L2惩罚项并放弃单纯最小化SSR的根本原因。