残差平方和 (Sum of Squares Error, SSE)
残差平方和(Sum of Squares Error,简称 SSE),也称为误差平方和或剩余平方和,是回归分析中衡量模型拟合优度的核心统计量之一。它定义为观测值 yi 与模型预测值 y^i 之差的平方和,反映模型未能解释的变异部分。SSE 越小,意味着模型对数据的拟合效果通常越好;反之,SSE 越大,说明模型的预测偏差越大。
数学定义
对于包含 n 个观测值的回归模型,SSE 的数学表达式为:
SSE=i=1∑n(yi−y^i)2
其中 yi 为第 i 个因变量的实际观测值,y^i 为模型对该观测值的拟合值或预测值。在普通最小二乘法(OLS)框架下,参数估计的目标正是通过最小化 SSE 来求解:
β^=argβmini=1∑n(yi−xi′β)2
这使得 OLS 估计量在经典线性模型假设下具备最小方差无偏估计(BLUE)的性质(高斯-马尔可夫定理)。
平方和分解
在回归分析中,总平方和(SST)、回归平方和(SSR)与残差平方和(SSE)三者之间满足平方和分解关系:
SST=SSR+SSE
其中 SST=∑(yi−yˉ)2 度量因变量的总变异,SSR=∑(y^i−yˉ)2 度量模型解释的变异。这一分解成立的前提是回归方程包含截距项。基于此分解,可以构造拟合优度指标:
R2=SSTSSR=1−SSTSSE
R2 的取值范围为 [0,1],它表示模型解释的变异占总变异的比例。当 SSE 趋近于零时,R2 趋近于 1,意味着模型几乎完全拟合数据。
自由度与均方误差
SSE 的自由度等于样本量减去待估参数的个数:n−k−1,其中 k 为自变量的个数,常数项截距计入一个参数。利用 SSE 及其自由度,可以计算均方误差(Mean Square Error, MSE):
MSE=n−k−1SSE
MSE 是误差项方差 σ2 的无偏估计量,在假设检验和区间估计中具有关键作用。具体而言,回归系数的方差-协方差矩阵可表示为:
Var(β^)=σ2(X′X)−1
实际计算中以 MSE 替代 σ2,从而构造 t 统计量和 F 统计量。
假设检验中的应用
SSE 在假设检验中扮演核心角色。对于回归模型的整体显著性检验(F 检验),检验统计量建立于 SSR 与 SSE 之比之上:
F=SSE/(n−k−1)SSR/k=MSEMSR∼F(k,n−k−1)
在模型比较中,通过衡量约束模型与无约束模型之间 SSE 的增加量,可以构造似然比检验或F 检验来判断一组变量的联合显著性。若新增变量能显著减少 SSE,则表明这些变量对因变量具有解释能力。此外,赤池信息量准则(AIC)和贝叶斯信息量准则(BIC)等模型选择指标也间接依赖于 SSE:
AIC=nln(nSSE)+2k,BIC=nln(nSSE)+klnn
注意事项
SSE 依赖于数据的量纲——如果因变量的测量单位发生变化,SSE 的数值也会随之改变,因此 SSE 本身不适合直接用于跨模型或跨数据集的比较。此外,在多元回归中加入新的自变量总会使 SSE 下降(或至少不增),这可能导致过度拟合问题。调整 R2 和上述信息准则通过对自由度的惩罚来缓解这一问题。在异常值存在时,个别极端残差的平方项可能主导 SSE,使得模型对异常点过度敏感,此时可考虑使用稳健回归或绝对误差损失函数。