Sum of Squares Error (SSE)
误差平方和 (Sum of Squares Error, SSE),也称残差平方和 (Residual Sum of Squares, RSS),是回归分析 和方差分析 中度量模型拟合优度的基础统计量。对于包含 n n n 个观测的样本,设第 i i i 个观测的真实值为 y i y_i y i ,模型给出的预测值为 y ^ i \hat{y}_i y ^ i ,则残差 e i = y i − y ^ i e_i = y_i - \hat{y}_i e i = y i − y ^ i 表示模型未能解释的部分。SSE 定义为所有残差的平方和:
SSE = ∑ i = 1 n ( y i − y ^ i ) 2 = ∑ i = 1 n e i 2 \operatorname{SSE} = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 = \sum_{i=1}^{n} e_i^2 SSE = i = 1 ∑ n ( y i − y ^ i ) 2 = i = 1 ∑ n e i 2
SSE 恒为非负值:SSE = 0 \operatorname{SSE} = 0 SSE = 0 意味着模型完美拟合所有观测点(所有残差为零),而 SSE 越大表示模型预测偏离实际值越远。在普通最小二乘法 (OLS) 框架中,SSE 正是被最小化的目标函数——OLS 估计量 β ^ \hat{\beta} β ^ 通过求解 min β SSE ( β ) \min_{\beta} \operatorname{SSE}(\beta) min β SSE ( β ) 得出。对目标函数求导并令其一阶条件为零,可得正规方程 X T X β ^ = X T y \mathbf{X}^T\mathbf{X}\hat{\beta} = \mathbf{X}^T\mathbf{y} X T X β ^ = X T y ,解出 β ^ = ( X T X ) − 1 X T y \hat{\beta} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y} β ^ = ( X T X ) − 1 X T y ,即所有线性无偏估计量中方差最小者。
术语辨析
SSE 在不同学科和教材中存在多种等价称谓,这一命名混乱常给初学者带来困扰。在计量经济学文献中常记为 SSE (Sum of Squares Error) 或 RSS (Residual Sum of Squares);在统计学教材中有时记为 SS error \operatorname{SS}_{\text{error}} SS error 、SS resid \operatorname{SS}_{\text{resid}} SS resid 或简称误差平方和;在部分实验设计教材中亦记为 SS within \operatorname{SS}_{\text{within}} SS within (组内平方和)。需特别警惕:某些教材将 SSE 与 ESS (Explained Sum of Squares) 的缩写互换使用——前者指未被解释的残余变异,后者指模型可解释的变异。在同一语境中使用这些符号时,务必确认其约定含义,避免将 SSE 的增减方向与拟合好坏的关系颠倒误判。
平方和分解与决定系数
含截距项的经典线性回归模型中,总变异 SST = ∑ ( y i − y ˉ ) 2 \operatorname{SST} = \sum (y_i - \bar{y})^2 SST = ∑ ( y i − y ˉ ) 2 可作正交分解:
SST = SSR + SSE \operatorname{SST} = \operatorname{SSR} + \operatorname{SSE} SST = SSR + SSE
其中 SSR = ∑ ( y ^ i − y ˉ ) 2 \operatorname{SSR} = \sum (\hat{y}_i - \bar{y})^2 SSR = ∑ ( y ^ i − y ˉ ) 2 为回归平方和 ,度量模型可解释的变异部分。该分解恒等式的成立依赖于残差与拟合值正交这一 OLS 的核心性质——残差向量 e \mathbf{e} e 与预测向量 y ^ \hat{\mathbf{y}} y ^ 的内积为零,即 ∑ e i y ^ i = 0 \sum e_i \hat{y}_i = 0 ∑ e i y ^ i = 0 。从几何角度看,该分解对应将响应向量 y \mathbf{y} y 正交投影至设计矩阵 X \mathbf{X} X 的列空间:SSR 衡量投影向量的变异大小,SSE 衡量残差向量(正交于列空间的垂直距离)的平方长度。
由此,决定系数 R 2 R^2 R 2 自然定义为:
R 2 = 1 − SSE SST = SSR SST R^2 = 1 - \frac{\operatorname{SSE}}{\operatorname{SST}} = \frac{\operatorname{SSR}}{\operatorname{SST}} R 2 = 1 − SST SSE = SST SSR
R 2 R^2 R 2 位于 [ 0 , 1 ] [0,1] [ 0 , 1 ] 区间,直观解释为因变量总变异中被模型解释的比例。当 SSE → 0 时 R 2 → 1 R^2 → 1 R 2 → 1 ;当模型不优于用样本均值预测时,SSE ≈ SST,R 2 → 0 R^2 → 0 R 2 → 0 。需要注意的是,向模型中增加解释变量总会使 SSE 不增(至少不变),因此 R 2 R^2 R 2 会机械上升,不能单独用于比较不同参数个数的模型。为此常使用调整 R 2 R^2 R 2 :R ˉ 2 = 1 − SSE / ( n − p ) SST / ( n − 1 ) \bar{R}^2 = 1 - \frac{\operatorname{SSE}/(n-p)}{\operatorname{SST}/(n-1)} R ˉ 2 = 1 − SST / ( n − 1 ) SSE / ( n − p ) ,通过自由度惩罚多余变量。
误差方差的估计与抽样分布
在高斯-马尔可夫定理 的经典假设下(误差项同方差 Var ( ε i ) = σ 2 \operatorname{Var}(\varepsilon_i) = \sigma^2 Var ( ε i ) = σ 2 且彼此无关),SSE 为推断误差方差 σ 2 \sigma^2 σ 2 提供了基础。残差平方和的期望可以证明为:
E [ SSE ] = ( n − p ) σ 2 \mathbb{E}[\operatorname{SSE}] = (n - p)\,\sigma^2 E [ SSE ] = ( n − p ) σ 2
其中 p p p 为模型参数个数(含截距)。由此,误差方差 的无偏估计量为均方误差:
σ ^ 2 = MSE = SSE n − p \hat{\sigma}^2 = \operatorname{MSE} = \frac{\operatorname{SSE}}{n - p} σ ^ 2 = MSE = n − p SSE
分母 n − p n - p n − p 称为模型的自由度 ——反映在估计了 p p p 个回归系数后,n n n 个观测中剩余的独立信息数量。σ ^ 2 \hat{\sigma}^2 σ ^ 2 的平方根 σ ^ \hat{\sigma} σ ^ 即为回归标准误 (Standard Error of the Regression),度量了观测值围绕回归线的典型离散程度。
若进一步假设误差服从正态分布 ε i ∼ N ( 0 , σ 2 ) \varepsilon_i \sim \mathcal{N}(0, \sigma^2) ε i ∼ N ( 0 , σ 2 ) ,则有以下精确分布结果:SSE / σ 2 ∼ χ n − p 2 \operatorname{SSE}/\sigma^2 \sim \chi^2_{n-p} SSE / σ 2 ∼ χ n − p 2 ,且该分布独立于回归系数估计量 β ^ \hat{\beta} β ^ 。这一卡方性质是构造回归系数显著性 t t t 检验和模型整体显著性 F F F 检验的理论支柱。
模型比较与选择
SSE 是嵌套模型检验和多种模型选择准则的核心组分。在嵌套模型 F F F 检验中,通过比较受约束模型(施加了 q q q 个线性约束)与无约束模型的 SSE 差异构造检验统计量:
F = ( SSE R − SSE U ) / q SSE U / ( n − p ) F = \frac{(\operatorname{SSE}_R - \operatorname{SSE}_U) / q}{\operatorname{SSE}_U / (n - p)} F = SSE U / ( n − p ) ( SSE R − SSE U ) / q
直观上,若新增变量仅使 SSE 略微下降,则 F F F 值较小,无法拒绝约束条件成立的零假设;反之若 SSE 下降幅度显著,则提示约束条件限制了模型的解释能力。
在赤池信息准则 (AIC) 和贝叶斯信息准则 (BIC) 中,SSE 以对数尺度进入:
AIC = n ln ( SSE n ) + 2 p , BIC = n ln ( SSE n ) + p ln n \operatorname{AIC} = n \ln\!\left(\frac{\operatorname{SSE}}{n}\right) + 2p,\quad
\operatorname{BIC} = n \ln\!\left(\frac{\operatorname{SSE}}{n}\right) + p \ln n AIC = n ln ( n SSE ) + 2 p , BIC = n ln ( n SSE ) + p ln n
两准则均在拟合优度(SSE 够小)与模型简约性(参数 p p p 够少)之间寻求平衡:减小 SSE 往往需要增加参数,但过多的参数又导致过拟合风险。BIC 对大样本下复杂模型的惩罚比 AIC 更严厉(当 n > 7 n > 7 n > 7 时 ln n > 2 \ln n > 2 ln n > 2 ),倾向于选择更简约的模型。
与最大似然估计的一致性
假设误差服从独立正态分布 ε i ∼ N ( 0 , σ 2 ) \varepsilon_i \sim \mathcal{N}(0, \sigma^2) ε i ∼ N ( 0 , σ 2 ) ,样本的最大似然估计 (MLE) 对数似然函数为:
ℓ ( β , σ 2 ) = − n 2 ln ( 2 π σ 2 ) − 1 2 σ 2 ∑ i = 1 n ( y i − x i T β ) 2 \ell(\beta, \sigma^2) = -\frac{n}{2}\ln(2\pi\sigma^2) - \frac{1}{2\sigma^2}\sum_{i=1}^{n} (y_i - \mathbf{x}_i^T\beta)^2 ℓ ( β , σ 2 ) = − 2 n ln ( 2 π σ 2 ) − 2 σ 2 1 i = 1 ∑ n ( y i − x i T β ) 2
最大化该似然函数时,第一项与 β \beta β 无关,第二项的负号意味着最大化 ℓ \ell ℓ 等价于最小化 SSE。换言之,正态误差假设下 OLS 与 MLE 对回归系数的估计完全等价。此时最小化 SSE 不仅得到最佳线性无偏估计量 (BLUE),更是在所有无偏估计量中达到 Cramér-Rao 下界的最小方差估计量。
残差诊断
SSE 不仅是汇总统计量,也是回归诊断的起点。模型假设的验证常通过分析残差模式进行:绘制残差对拟合值 ( y ^ i , e i ) (\hat{y}_i, e_i) ( y ^ i , e i ) 的散点图,若点的分布呈漏斗形(提示异方差性 )或系统性弯曲(提示非线性关系),则表明线性模型设定可能不当。此外,学生化残差 r i = e i / ( σ ^ 1 − h i i ) r_i = e_i / (\hat{\sigma}\sqrt{1 - h_{ii}}) r i = e i / ( σ ^ 1 − h ii ) (其中 h i i h_{ii} h ii 为帽子矩阵对角元)可用于识别离群值 ——当 ∣ r i ∣ > 2 |r_i| > 2 ∣ r i ∣ > 2 或 3 3 3 时需关注对应观测的异常性。
计算与实用提示
直接按定义式计算 SSE 在大规模或病态数据中可能出现数值不稳定。实践中推荐:(1) 通过 QR 分解 X = Q R \mathbf{X} = \mathbf{Q}\mathbf{R} X = QR ,利用 Q \mathbf{Q} Q 的正交性计算 SSE = ∥ y − Q Q T y ∥ 2 \operatorname{SSE} = \|\mathbf{y} - \mathbf{Q}\mathbf{Q}^T\mathbf{y}\|^2 SSE = ∥ y − Q Q T y ∥ 2 ;(2) 避免显式构造 X T X \mathbf{X}^T\mathbf{X} X T X 及其逆矩阵以减少舍入误差;(3) 各主流统计软件(R 的 \texttt{lm()}、Python 的 \texttt{statsmodels}、Stata 的 \texttt{regress})内部均通过矩阵分解自动计算 SSE,用户无需手动编程。
SSE 作为定量分析中最朴素也最核心的度量,从参数估计与假设检验,到模型诊断与选择的每一环节均不可或缺。透彻理解其定义、分布特性及与其他统计量之间的结构关系,是掌握回归分析方法论的基本前提。
关于知经 KNOWECON
知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌,长期面向北京大学、清华大学、中国人民大学等顶尖院校,提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考,并成功进入理想院校。
知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业,获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者,长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。
我们相信,好的考研辅导不只是押题和陪跑,更是把复杂知识讲清楚、把复习路径设计清楚,并用技术让学习过程更可追踪、更可反馈、更可坚持。