残差平方和 (Sum of Squared Errors, SSE)
残差平方和 (Sum of Squared Errors,简称 SSE),亦常被称为残差平方和 (Residual Sum of Squares, RSS) 或误差平方和 (Error Sum of Squares),是回归分析 和方差分析 中衡量模型拟合误差的核心统计量。它定义为所有观测值与模型拟合值之差的平方和,量化了模型未能解释的因变量变异。在普通最小二乘法 (OLS) 框架下,参数估计的目标正是使残差平方和达到最小。
设因变量 y i y_i y i 的观测值共有 n n n 个,模型对于第 i i i 个观测产生拟合值 y ^ i \hat{y}_i y ^ i ,则残差定义为:
e i = y i − y ^ i e_i = y_i - \hat{y}_i e i = y i − y ^ i
残差平方和即为残差的平方累加:
SSE = ∑ i = 1 n e i 2 = ∑ i = 1 n ( y i − y ^ i ) 2 \text{SSE} = \sum_{i=1}^{n} e_i^2 = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 SSE = i = 1 ∑ n e i 2 = i = 1 ∑ n ( y i − y ^ i ) 2
这一看似简单的二次型函数,承载着回归诊断、模型比较和统计推断的多重功能,是经典线性模型理论的核心构件。
平方和分解与几何直觉
对于包含截距项的线性回归模型 y i = β 0 + x i ′ β + ϵ i y_i = \beta_0 + \mathbf{x}_i'\boldsymbol{\beta} + \epsilon_i y i = β 0 + x i ′ β + ϵ i ,OLS 拟合产生三个相互关联的平方和,构成方差分析的恒等分解:
TSS = ESS + SSE \text{TSS} = \text{ESS} + \text{SSE} TSS = ESS + SSE
其中:
TSS = ∑ i = 1 n ( y i − y ˉ ) 2 \text{TSS} = \sum_{i=1}^{n} (y_i - \bar{y})^2 TSS = ∑ i = 1 n ( y i − y ˉ ) 2 为总平方和 (Total Sum of Squares),度量因变量围绕样本均值的总变异,自由度为 n − 1 n-1 n − 1 。ESS = ∑ i = 1 n ( y ^ i − y ˉ ) 2 \text{ESS} = \sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2 ESS = ∑ i = 1 n ( y ^ i − y ˉ ) 2 为回归平方和 (Explained Sum of Squares,亦称 Model Sum of Squares, MSS),度量回归模型捕捉的结构性变异,自由度为 k k k (自变量个数)。SSE = ∑ i = 1 n ( y i − y ^ i ) 2 \text{SSE} = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 SSE = ∑ i = 1 n ( y i − y ^ i ) 2 为残差平方和,度量模型未能解释的随机变异,自由度为 n − k − 1 n - k - 1 n − k − 1 。
从几何视角看,这一分解具有清晰的正交投影 解释。记 y \mathbf{y} y 为 n × 1 n \times 1 n × 1 的观测向量,X \mathbf{X} X 为 n × ( k + 1 ) n \times (k+1) n × ( k + 1 ) 的设计矩阵(含截距列),则拟合值 y ^ = X ( X ′ X ) − 1 X ′ y = H y \hat{\mathbf{y}} = \mathbf{X}(\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{y} = \mathbf{H}\mathbf{y} y ^ = X ( X ′ X ) − 1 X ′ y = Hy ,其中 H \mathbf{H} H 为帽子矩阵 (Hat Matrix),是向 X \mathbf{X} X 的列空间的正交投影算子。残差向量 e = y − y ^ = ( I − H ) y \mathbf{e} = \mathbf{y} - \hat{\mathbf{y}} = (\mathbf{I} - \mathbf{H})\mathbf{y} e = y − y ^ = ( I − H ) y 则属于 X \mathbf{X} X 列空间的正交补 。平方和分解本质上是勾股定理 在 n n n 维欧氏空间中的体现:总平方和向量在其投影及其正交补上的模长平方之和等于原向量的模长平方。
OLS 估计与正规方程
普通最小二乘法的核心思想是选择参数向量 β \boldsymbol{\beta} β 使残差平方和达到最小:
β ^ = arg min β SSE ( β ) = arg min β ∑ i = 1 n ( y i − x i ′ β ) 2 \hat{\boldsymbol{\beta}} = \arg\min_{\boldsymbol{\beta}} \; \text{SSE}(\boldsymbol{\beta}) = \arg\min_{\boldsymbol{\beta}} \sum_{i=1}^{n} (y_i - \mathbf{x}_i'\boldsymbol{\beta})^2 β ^ = arg β min SSE ( β ) = arg β min i = 1 ∑ n ( y i − x i ′ β ) 2
对 β \boldsymbol{\beta} β 求一阶导数并设为零,得到正规方程 (Normal Equations):
∂ SSE ∂ β = − 2 X ′ y + 2 X ′ X β = 0 ⟹ X ′ X β ^ = X ′ y \frac{\partial \text{SSE}}{\partial \boldsymbol{\beta}} = -2\mathbf{X}'\mathbf{y} + 2\mathbf{X}'\mathbf{X}\boldsymbol{\beta} = \mathbf{0} \quad \Longrightarrow \quad \mathbf{X}'\mathbf{X}\hat{\boldsymbol{\beta}} = \mathbf{X}'\mathbf{y} ∂ β ∂ SSE = − 2 X ′ y + 2 X ′ X β = 0 ⟹ X ′ X β ^ = X ′ y
若 X ′ X \mathbf{X}'\mathbf{X} X ′ X 可逆(即设计矩阵满秩),则 OLS 估计量具有解析形式:
β ^ = ( X ′ X ) − 1 X ′ y \hat{\boldsymbol{\beta}} = (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{y} β ^ = ( X ′ X ) − 1 X ′ y
该估计量在高斯-马尔可夫定理 (Gauss-Markov Theorem) 的经典假设下(误差项零均值、同方差、无自相关),是所有线性无偏估计量中方差最小的,即最优线性无偏估计 (BLUE)。
残差平方和的最小值可表示为二次型:
SSE min = y ′ ( I − H ) y = y ′ y − β ^ ′ X ′ y \text{SSE}_{\min} = \mathbf{y}'(\mathbf{I} - \mathbf{H})\mathbf{y} = \mathbf{y}'\mathbf{y} - \hat{\boldsymbol{\beta}}'\mathbf{X}'\mathbf{y} SSE m i n = y ′ ( I − H ) y = y ′ y − β ^ ′ X ′ y
残差方差的无偏估计与标准误
残差平方和不仅是衡量拟合质量的指标,更是推断总体误差方差 σ 2 \sigma^2 σ 2 的基础。在经典线性回归假设下,残差平方和与总体误差方差之比服从卡方分布 :
SSE σ 2 ∼ χ 2 ( n − k − 1 ) \frac{\text{SSE}}{\sigma^2} \sim \chi^2(n - k - 1) σ 2 SSE ∼ χ 2 ( n − k − 1 )
由此导出 σ 2 \sigma^2 σ 2 的无偏估计量——均方误差 (Mean Squared Error, MSE):
σ ^ 2 = MSE = SSE n − k − 1 \hat{\sigma}^2 = \text{MSE} = \frac{\text{SSE}}{n - k - 1} σ ^ 2 = MSE = n − k − 1 SSE
取平方根即得回归标准误 (Standard Error of the Regression, SER),也称残差标准误 (Residual Standard Error, RSE):
σ ^ = SSE n − k − 1 \hat{\sigma} = \sqrt{\frac{\text{SSE}}{n - k - 1}} σ ^ = n − k − 1 SSE
回归标准误度量了因变量观测值围绕回归线的平均离散程度,是评估模型预测精度的关键指标。它与因变量的单位相同,因此具有直观的可解释性——例如在工资方程中,若 σ ^ = 2500 \hat{\sigma} = 2500 σ ^ = 2500 元,则意味着模型预测值平均偏离实际工资约 2500 元。
SSE 与决定系数的关系
残差平方和与决定系数 (R 2 R^2 R 2 ) 之间存在直接的函数关系:
R 2 = 1 − SSE TSS = ESS TSS R^2 = 1 - \frac{\text{SSE}}{\text{TSS}} = \frac{\text{ESS}}{\text{TSS}} R 2 = 1 − TSS SSE = TSS ESS
这一关系揭示了 SSE 在模型评估中的核心地位:R 2 R^2 R 2 本质上是通过 SSE 与 TSS 的比值来标准化模型拟合程度。当 SSE 趋近于零时,R 2 R^2 R 2 趋近于 1,表明模型几乎完美拟合数据;当 SSE 趋近于 TSS 时,R 2 R^2 R 2 趋近于 0,表明模型几乎不提供任何解释力。
相比 R 2 R^2 R 2 ,SSE 具有一个重要的技术优势:SSE 永远随自变量数量增加而单调递减(或至少不增),而 R 2 R^2 R 2 虽然同样是单调不减的,但通过自由度调整后的调整决定系数 (adjusted R 2 R^2 R 2 ) 将 SSE 的下降与自由度损失进行权衡:
R ˉ 2 = 1 − SSE / ( n − k − 1 ) TSS / ( n − 1 ) \bar{R}^2 = 1 - \frac{\text{SSE} / (n - k - 1)}{\text{TSS} / (n - 1)} R ˉ 2 = 1 − TSS / ( n − 1 ) SSE / ( n − k − 1 )
在模型选择 中,SSE 本身不宜直接用于比较不同参数数目的模型(因参数越多的模型 SSE 必不更大),但结合自由度惩罚后可以转化为赤池信息准则 (AIC) 和贝叶斯信息准则 (BIC) 等信息准则:
AIC = n ln ( SSE n ) + 2 k , BIC = n ln ( SSE n ) + k ln n \text{AIC} = n \ln\left(\frac{\text{SSE}}{n}\right) + 2k, \quad \text{BIC} = n \ln\left(\frac{\text{SSE}}{n}\right) + k \ln n AIC = n ln ( n SSE ) + 2 k , BIC = n ln ( n SSE ) + k ln n
这些准则在 SSE 拟合精度与模型简洁性之间寻求平衡,为嵌套和非嵌套模型的比较提供了理论依据。
SSE 在假设检验中的作用
残差平方和在回归系数的假设检验中扮演关键角色。对于参数向量的线性约束 H 0 : R β = r H_0: \mathbf{R}\boldsymbol{\beta} = \mathbf{r} H 0 : R β = r ,可通过比较约束模型与非约束模型的残差平方和构建检验统计量。
单个系数的 t 检验
对于回归系数 β j \beta_j β j 的显著性检验,OLS 估计量的方差-协方差矩阵为:
Var ( β ^ ) = σ 2 ( X ′ X ) − 1 \operatorname{Var}(\hat{\boldsymbol{\beta}}) = \sigma^2 (\mathbf{X}'\mathbf{X})^{-1} Var ( β ^ ) = σ 2 ( X ′ X ) − 1
用 MSE 替代 σ 2 \sigma^2 σ 2 ,得 Var ^ ( β ^ j ) = MSE ⋅ [ ( X ′ X ) − 1 ] j j \widehat{\operatorname{Var}}(\hat{\beta}_j) = \text{MSE} \cdot [(\mathbf{X}'\mathbf{X})^{-1}]_{jj} Var ( β ^ j ) = MSE ⋅ [( X ′ X ) − 1 ] jj ,由此构建 t 统计量:
t = β ^ j MSE ⋅ [ ( X ′ X ) − 1 ] j j ∼ t ( n − k − 1 ) t = \frac{\hat{\beta}_j}{\sqrt{\text{MSE} \cdot [(\mathbf{X}'\mathbf{X})^{-1}]_{jj}}} \sim t(n - k - 1) t = MSE ⋅ [( X ′ X ) − 1 ] jj β ^ j ∼ t ( n − k − 1 )
整体显著性的 F 检验
回归方程的整体显著性可通过比较仅含截距项的约束模型(此时 SSE R = TSS \text{SSE}_R = \text{TSS} SSE R = TSS )与完整模型(此时 SSE U = SSE \text{SSE}_U = \text{SSE} SSE U = SSE )来检验:
F = ( SSE R − SSE U ) / k SSE U / ( n − k − 1 ) = ESS / k SSE / ( n − k − 1 ) = R 2 / k ( 1 − R 2 ) / ( n − k − 1 ) ∼ F ( k , n − k − 1 ) F = \frac{(\text{SSE}_R - \text{SSE}_U) / k}{\text{SSE}_U / (n - k - 1)} = \frac{\text{ESS} / k}{\text{SSE} / (n - k - 1)} = \frac{R^2 / k}{(1 - R^2) / (n - k - 1)} \sim F(k, n - k - 1) F = SSE U / ( n − k − 1 ) ( SSE R − SSE U ) / k = SSE / ( n − k − 1 ) ESS / k = ( 1 − R 2 ) / ( n − k − 1 ) R 2 / k ∼ F ( k , n − k − 1 )
一般线性约束的 F 检验
更一般地,对于任意线性约束 R β = r \mathbf{R}\boldsymbol{\beta} = \mathbf{r} R β = r ,记约束模型的残差平方和为 SSE R \text{SSE}_R SSE R ,非约束模型为 SSE U \text{SSE}_U SSE U ,约束个数为 q q q ,则:
F = ( SSE R − SSE U ) / q SSE U / ( n − k − 1 ) ∼ F ( q , n − k − 1 ) F = \frac{(\text{SSE}_R - \text{SSE}_U) / q}{\text{SSE}_U / (n - k - 1)} \sim F(q, n - k - 1) F = SSE U / ( n − k − 1 ) ( SSE R − SSE U ) / q ∼ F ( q , n − k − 1 )
该检验是邹检验 (Chow Test)、格兰杰因果检验 以及诸多结构变化检验的数学基础。
与方差分析的统一
残差平方和在方差分析 (ANOVA) 框架下具有更一般的含义。对于单因素方差分析,总平方和分解为组间平方和 与组内平方和 (即误差平方和,等同于回归语境中的 SSE)。在经典 ANOVA 表中,残差平方和对应"误差"或"残差"行,是计算均方误差和 F 统计量的基础:
| 变异来源 | 平方和 (SS) | 自由度 (df) | 均方 (MS) | F | |---------|------------|------------|----------|---| | 回归 (Model) | ESS | k k k | ESS / k k k | MSR / MSE | | 残差 (Error) | SSE | n − k − 1 n - k - 1 n − k − 1 | SSE / ( n − k − 1 ) (n - k - 1) ( n − k − 1 ) | — | | 总计 (Total) | TSS | n − 1 n - 1 n − 1 | — | — |
这一分析框架将回归分析与方差分析统一于同一数学结构中——两者本质上都是通过平方和分解将变异归因于系统因素与随机因素,差异仅在于自变量的性质(回归中通常为连续变量,ANOVA 中为分类变量),而线性模型的理论基础完全一致。
SSE 的性质与诊断应用
单调性
在嵌套模型结构中,SSE 关于自变量集合是单调非增的:若模型 A 的自变量集合包含模型 B 的自变量集合,则必有 SSE A ≤ SSE B \text{SSE}_A \leq \text{SSE}_B SSE A ≤ SSE B 。这一性质使 SSE 不能单独用作模型选择标准,必须结合自由度惩罚。
与残差图诊断
尽管 SSE 是衡量整体拟合的标量指标,其构成部分——单个残差 e i e_i e i ——在回归诊断 中不可或缺。常见的诊断方法包括:
残差散点图 :以拟合值 y ^ i \hat{y}_i y ^ i 为横轴、残差 e i e_i e i 为纵轴绘制图形。理想情况下残差应随机分布在零线两侧,无系统模式。若呈现喇叭形(异方差信号)或曲线形态(非线性信号),则提示模型设定可能失当。Q-Q 图 :将标准化残差的分位数与标准正态的理论分位数比较,用于评估正态性假设 。标准化残差 :r i = e i / ( σ ^ 1 − h i i ) r_i = e_i / (\hat{\sigma}\sqrt{1 - h_{ii}}) r i = e i / ( σ ^ 1 − h ii ) ,其中 h i i h_{ii} h ii 为帽子矩阵的第 i i i 个对角元(杠杆值 )。标准化残差可用于识别异常值 :一般认为 ∣ r i ∣ > 2 |r_i| > 2 ∣ r i ∣ > 2 或 3 3 3 的观测值得关注。学生化残差 :与标准化残差相似,但在估计 σ \sigma σ 时剔除第 i i i 个观测,使其与分子独立,更精确地服从 t 分布。
PRESS 统计量
预测残差平方和 (Prediction Residual Error Sum of Squares, PRESS) 是 SSE 在预测评估方向的自然延伸:
PRESS = ∑ i = 1 n ( y i − y ^ i ( − i ) ) 2 \text{PRESS} = \sum_{i=1}^{n} (y_i - \hat{y}_{i(-i)})^2 PRESS = i = 1 ∑ n ( y i − y ^ i ( − i ) ) 2
其中 y ^ i ( − i ) \hat{y}_{i(-i)} y ^ i ( − i ) 是剔除第 i i i 个观测后拟合的模型对该观测的预测值。与 SSE 不同,PRESS 直接度量模型的预测能力 而非内插拟合能力,对过拟合的惩罚更为敏感,在交叉验证 和模型选择中有重要应用。
非经典情境下的 SSE
异方差性
当误差项存在异方差性 (Var ( ϵ i ) ≠ σ 2 \operatorname{Var}(\epsilon_i) \neq \sigma^2 Var ( ϵ i ) = σ 2 ) 时,OLS 估计量虽然仍无偏一致,但不再有效,基于均方误差的标准误估计将是有偏的。此时应使用异方差稳健标准误 (Heteroskedasticity-Robust Standard Errors,亦称 White 标准误或 Huber-White 标准误),这些标准误的计算虽然在形式上仍涉及残差,但不再依赖于同方差的 SSE 分解。
加权最小二乘法
当异方差的形态已知或可估计时,加权最小二乘法 (Weighted Least Squares, WLS) 最小化加权残差平方和:
WSSE = ∑ i = 1 n w i ( y i − x i ′ β ) 2 \text{WSSE} = \sum_{i=1}^{n} w_i (y_i - \mathbf{x}_i'\boldsymbol{\beta})^2 WSSE = i = 1 ∑ n w i ( y i − x i ′ β ) 2
其中权重 w i w_i w i 通常取 1 / Var ( ϵ i ) 1 / \operatorname{Var}(\epsilon_i) 1/ Var ( ϵ i ) ,使方差较大的观测获得较小权重,从而恢复估计量的有效性。
岭回归与惩罚回归
在高维或共线性的情境下,岭回归 (Ridge Regression) 在残差平方和基础上增加 L 2 L_2 L 2 惩罚项:
β ^ ridge = arg min β { ∑ i = 1 n ( y i − x i ′ β ) 2 + λ ∑ j = 1 k β j 2 } \hat{\boldsymbol{\beta}}_{\text{ridge}} = \arg\min_{\boldsymbol{\beta}} \left\{ \sum_{i=1}^{n} (y_i - \mathbf{x}_i'\boldsymbol{\beta})^2 + \lambda \sum_{j=1}^{k} \beta_j^2 \right\} β ^ ridge = arg β min { i = 1 ∑ n ( y i − x i ′ β ) 2 + λ j = 1 ∑ k β j 2 }
LASSO 则将惩罚项替换为 L 1 L_1 L 1 范数 λ ∑ ∣ β j ∣ \lambda \sum |\beta_j| λ ∑ ∣ β j ∣ 。这些方法的共同逻辑是:纯粹的 SSE 最小化在多维空间中可能导致过拟合 或数值不稳定,引入惩罚项可在偏差与方差之间取得更优的平衡。
小结
残差平方和 SSE 是回归分析中连接估计、诊断和推断的枢纽性概念。它既是 OLS 估计的目标函数,又是方差分解的基本构件,还是假设检验中 F 统计量与 t 统计量的核心输入。理解 SSE 的数学结构——从正交投影的几何解释到卡方分布的概率性质——是深入掌握线性模型理论的必要条件。在实际应用中,研究者应超越单一的 SSE 数值,结合自由度、残差诊断图形和模型假设检验,全面评估模型的拟合质量与适用性。