RSS(残差平方和)
残差平方和(Residual Sum of Squares,简称 RSS),亦称为误差平方和(Sum of Squared Errors,SSE)或剩余平方和,是回归分析与统计建模中衡量模型拟合优度的核心统计量。它定义为观测值 yi 与模型预测值 y^i 之差的平方和:
RSS=i=1∑n(yi−y^i)2=i=1∑nei2
其中 ei=yi−y^i 为第 i 个观测的残差。RSS 量化了模型未能解释的那部分数据变异性——RSS 越小,表明预测值与真实观测值越贴近,模型的拟合效果越好。极端情况下,若 RSS 为零,则意味着模型完美拟合了所有数据点。
平方和分解定理
在经典线性回归模型中,总平方和(Total Sum of Squares,TSS)可分解为回归平方和(Explained Sum of Squares,ESS)与残差平方和(RSS)两部分。这一分解成立的前提是模型包含截距项且采用 OLS 估计,此时残差之和为零且残差与拟合值正交:
TSS=ESS+RSS
其中 TSS=∑i=1n(yi−yˉ)2 度量因变量 y 的总变异性,ESS=∑i=1n(y^i−yˉ)2 度量模型通过解释变量能够解释的那部分变异性。这一分解关系是方差分析(ANOVA)的基本依据,也是理解模型拟合效果的理论基础。
由此直接导出决定系数 R2:
R2=TSSESS=1−TSSRSS
R2 的取值范围在 [0,1] 之间,值越大表示模型解释的变异性比例越高。若 R2=0.85,则意味着模型解释了 85\% 的因变量变异,剩余 15\% 的变异归因于随机误差或未纳入模型的因素。
最小二乘法的优化目标
普通最小二乘法(Ordinary Least Squares,OLS)的核心思想正是最小化残差平方和。求解参数估计量 β^ 的优化问题表述为:
β^=argβmini=1∑n(yi−xi′β)2
该二次优化问题具有良好的数学性质——其一阶条件(正规方程)为线性方程组,解具有闭合形式:
β^=(X′X)−1X′y
在高斯-马尔可夫定理的经典假定(线性性、严格外生性、球形误差)下,OLS 估计量是最佳线性无偏估计量(Best Linear Unbiased Estimator,BLUE)。这意味着在所有线性无偏估计量中,OLS 具有最小方差。而 RSS 在此过程中不仅作为优化目标,还用于估计误差项的方差:
σ^2=n−k−1RSS
该估计量是误差方差 σ2 的无偏估计量,其中分母 n−k−1 为残差的自由度,即样本量减去待估参数个数。
RSS 与假设检验
RSS 在回归模型的假设检验中扮演着关键角色。在F检验中,用于检验回归方程整体显著性的 F 统计量定义为:
F=RSS/(n−k−1)ESS/k=RSS/(n−k−1)(TSS−RSS)/k
该统计量服从 F(k,n−k−1) 分布。同样,对于嵌套模型的比较,可构造似然比检验或约束F检验。设无约束模型的残差平方和为 RSSU,约束模型(即在原假设下施加了若干线性约束后的模型)的残差平方和为 RSSR,则检验统计量为:
F=RSSU/(n−k−1)(RSSR−RSSU)/q
其中 q 为约束条件的个数。若原假设成立,RSSR 与 RSSU 应相差不大;若原假设不成立,则 RSSR 显著大于 RSSU。
模型选择与信息准则
RSS 本身不适合直接用于模型选择,因为它随解释变量数量的增加而单调递减(即使加入完全不相关的变量,RSS 至少不会上升),这必然导致过拟合。为解决这一问题,基于 RSS 发展出了多种信息准则:
- 赤池信息准则(AIC):AIC=nln(RSS/n)+2k,在拟合优度与模型简洁性之间寻求平衡。
- 贝叶斯信息准则(BIC):BIC=nln(RSS/n)+klnn,对复杂模型的惩罚力度比 AIC 更大,倾向于选择更简约的模型。
- Mallows' Cp 统计量:Cp=σ^2RSSp+2p−n,其中 p 为子模型中参数数量,σ^2 为全模型的误差方差估计。
这些准则均以 RSS 为基础,通过加入对参数数量的惩罚项来修正单纯最小化 RSS 所导致的过拟合倾向。在实际应用中,研究者通常在候选模型集合中逐一计算这些准则值,选择取值最小的模型作为最优模型。
加权最小二乘法中的 RSS
当异方差性(heteroskedasticity)存在时,OLS 估计虽仍保持无偏性,但不再具有最小方差。加权最小二乘法(Weighted Least Squares,WLS)通过给每个观测值赋予不同的权重来修正这一问题,其目标函数为加权残差平方和:
RSSw=i=1∑nwi(yi−xi′β)2
其中权重 wi 通常取为 1/σi2,即误差方差越大的观测被赋予越小的权重。这一方法有效降低了异方差对估计效率的影响,其思想也延伸至广义最小二乘法(GLS)。
在机器学习领域的推广
在机器学习与统计学习中,RSS 的基本形式被广泛用作损失函数或目标函数的组成部分。岭回归(Ridge Regression)在 RSS 基础上加入 L2 正则化项 λ∑j=1kβj2,其目标函数为:
βmin{i=1∑n(yi−xi′β)2+λj=1∑kβj2}
LASSO(Least Absolute Shrinkage and Selection Operator)则加入 L1 惩罚项 λ∑j=1k∣βj∣,兼具变量选择功能:
βmin{i=1∑n(yi−xi′β)2+λj=1∑k∣βj∣}
这些正则化方法在最小化 RSS 与约束系数大小之间寻求平衡,以降低模型的方差、增强泛化能力。近年来,弹性网(Elastic Net)进一步结合了 L1 和 L2 惩罚。这些方法统称为正则化方法,在变量个数远多于样本量的高维场景(即 p≫n 问题)中尤为有效。
局限性分析
RSS 存在若干不可忽视的局限性。首先,它对异常值极为敏感——由于残差被平方放大,单个极端观测值可能主导 RSS 的值,从而显著扭曲回归系数的估计结果。例如,一个偏离回归线 10 个单位的观测值,其残差平方为 100,相当于 100 个偏离 1 个单位的观测值的贡献之和。因此,在使用 OLS 之前进行异常值检测和稳健回归分析是重要的诊断步骤。其次,RSS 高度依赖量纲:因变量单位改变(如从元改为万元)时 RSS 成比例变化,因此其绝对值在不同数据集或不同模型之间缺乏直接可比性。标准化的做法是使用决定系数 R2、均方误差(MSE)或均方根误差(RMSE)等无量纲或标度化的度量。此外,RSS 仅衡量样本内拟合效果,不能直接反映模型的样本外预测能力。一个在训练集上 RSS 很小的模型可能在测试集上表现糟糕——这便是过拟合(overfitting)的典型表现。因此,现代统计学习中广泛采用交叉验证(cross-validation)来评估模型的泛化误差,而非依赖样本内的 RSS。
数值示例
考虑一个简单线性回归模型 y=β0+β1x+ϵ。设观测数据如下:
yi3.05.07.09.011.0y^i2.84.97.39.110.9ei=yi−y^i0.20.1−0.3−0.10.1
计算各残差的平方:
RSS=0.22+0.12+(−0.3)2+(−0.1)2+0.12=0.04+0.01+0.09+0.01+0.01=0.16
该 RSS 值较小,表明线性模型对这组数据的预测效果良好。进一步地,若 yˉ=7.0,则 TSS=∑(yi−7)2=40,可算得 R2=1−0.16/40=0.996,即模型解释了 99.6\% 的总变异。
总结
RSS 作为回归分析中最基础且最重要的统计量之一,贯穿于参数估计、模型诊断、假设检验与模型选择等各个环节。它既是 OLS 估计的直接优化目标,也是构建 R2、调整 R2、AIC、BIC、Mallows' Cp 等众多模型评估指标的基础。深刻理解 RSS 及其在总变异分解中的角色,是掌握现代计量经济学和统计学习理论不可或缺的前提。RSS 作为连接理论推导与实际数据分析的桥梁,无论对于学术研究还是工业应用都具有基础性的重要意义。