ARTICLE

Sum of Squared Errors

Sum of Squared Errors (SSE) 误差平方和 (Sum of Squared Errors, SSE)，也称为残差平方和 (Residual Sum of Squares, RSS) 或解释平方和的剩余部分，是统计学、计量经济学和机器学习中最基础的拟合优度度量之一。对于包含 n 个观测的数据集，设第 i 个观测的真实值为 y_i，模型给

浏览 0 更新 2025-10-26

Sum of Squared Errors (SSE)

误差平方和 (Sum of Squared Errors, SSE)，也称为残差平方和 (Residual Sum of Squares, RSS) 或解释平方和的剩余部分，是统计学、计量经济学和机器学习中最基础的拟合优度度量之一。对于包含 $n$ 个观测的数据集，设第 $i$ 个观测的真实值为 $y_i$ ，模型给出的预测值为 $\hat{y}_i$ ，则残差 $e_i = y_i - \hat{y}_i$ ，SSE 定义为所有残差的平方和：

\operatorname{SSE} = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 = \sum_{i=1}^{n} e_i^2

SSE 度量了模型未能解释的变异总量，其值越小，说明模型的拟合效果越好。在普通最小二乘法 (OLS) 框架下，SSE 正是被最小化的目标函数——OLS 回归系数 $\hat{\beta}$ 通过求解 $\min_{\beta} \operatorname{SSE}(\beta)$ 得到。

在回归分析中的地位

考虑经典的线性回归模型 $y_i = \mathbf{x}_i^T\beta + \varepsilon_i$ ，其中 $\mathbf{x}_i$ 为第 $i$ 个观测的 $p$ 维解释变量向量（包含截距）， $\beta$ 为未知参数向量， $\varepsilon_i$ 为误差项。OLS 估计量 $\hat{\beta}$ 的表达式为：

\hat{\beta} = \arg\min_{\beta} \sum_{i=1}^{n} (y_i - \mathbf{x}_i^T\beta)^2 = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y}

其中 $\mathbf{X}$ 为 $n \times p$ 设计矩阵， $\mathbf{y} = (y_1, \ldots, y_n)^T$ 。由此得到拟合值 $\hat{\mathbf{y}} = \mathbf{X}\hat{\beta} = \mathbf{H}\mathbf{y}$ ，其中 $\mathbf{H} = \mathbf{X}(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T$ 为帽子矩阵 (Hat Matrix)。最小化的 SSE 可写作：

\operatorname{SSE} = \mathbf{y}^T(\mathbf{I} - \mathbf{H})\mathbf{y} = \mathbf{e}^T\mathbf{e}

该二次型表示是推导 $\operatorname{SSE}$ 的抽样分布和进行统计推断的基础。

从几何角度看，OLS 本质上是将响应向量 $\mathbf{y}$ 正交投影到设计矩阵 $\mathbf{X}$ 的列空间 $\mathcal{C}(\mathbf{X})$ 上。拟合值 $\hat{\mathbf{y}} = \mathbf{H}\mathbf{y}$ 是该投影的结果，而残差向量 $\mathbf{e} = \mathbf{y} - \hat{\mathbf{y}} = (\mathbf{I} - \mathbf{H})\mathbf{y}$ 则正交于 $\mathcal{C}(\mathbf{X})$ 。SSE 正是残差向量长度的平方 $\|\mathbf{e}\|^2$ 。这一几何视角统一了对回归拟合的理解：SSE 度量了 $\mathbf{y}$ 到模型空间的垂直距离，最小化 SSE 等价于寻找 $\mathbf{y}$ 在 $\mathcal{C}(\mathbf{X})$ 上的最近点。

平方和分解与 $R^2$

SSE 是总变异分解的三大组成部分之一。定义总平方和 $\operatorname{SST} = \sum_{i=1}^{n} (y_i - \bar{y})^2$ 和回归平方和 $\operatorname{SSR} = \sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2$ ，在线性回归模型包含截距项时，存在如下平方和分解恒等式：

\operatorname{SST} = \operatorname{SSR} + \operatorname{SSE}

其中，SST 度量数据围绕均值的总变异，SSR 度量模型解释的变异，SSE 度量模型未能解释的变异。该分解是方差分析 (ANOVA) 和模型比较的基石。由此，决定系数 $R^2$ 被定义为：

R^2 = 1 - \frac{\operatorname{SSE}}{\operatorname{SST}} = \frac{\operatorname{SSR}}{\operatorname{SST}}

$R^2 \in [0, 1]$ 刻画了因变量的变异中被模型解释的比例。值得注意的是，向模型中追加任意变量都会使 SSE 不增，因此 $R^2$ 永远不减；为避免模型过度膨胀，常使用调整 $R^2$ (Adjusted $R^2$ )，其用自由度惩罚多余的变量：

\bar{R}^2 = 1 - \frac{\operatorname{SSE} / (n - p)}{\operatorname{SST} / (n - 1)}

作为方差估计量的基础

SSE 是估计误差方差 $\sigma^2 = \operatorname{Var}(\varepsilon_i)$ 的出发点。在线性回归满足高斯-马尔可夫假定（尤其是同方差性与误差不相关）时，残差平方和的期望为：

\mathbb{E}[\operatorname{SSE}] = (n - p)\,\sigma^2

因此，误差方差的一个无偏估计量由均方误差 (Mean Squared Error, MSE) 给出：

\hat{\sigma}^2 = \operatorname{MSE} = \frac{\operatorname{SSE}}{n - p}

其中 $n - p$ 为模型的自由度——它反映了在估计 $p$ 个参数后剩余的独立信息量。 $\hat{\sigma}^2$ 是检验回归系数显著性的 $t$ 检验和整体显著性的 $F$ 检验的关键输入。具体地，系数估计的方差-协方差矩阵为 $\widehat{\operatorname{Var}}(\hat{\beta}) = \hat{\sigma}^2 (\mathbf{X}^T\mathbf{X})^{-1}$ 。

在经典正态误差假设 $\varepsilon_i \sim N(0, \sigma^2)$ 下，有精确分布结果：

\frac{\operatorname{SSE}}{\sigma^2} \sim \chi^2_{n-p}

该结果独立于 $\hat{\beta}$ ，是构造回归系数的置信区间和假设检验的理论依据。

SSE 与模型选择

SSE 是多种模型选择准则 (Model Selection Criteria) 的核心成分。以赤池信息准则 (AIC) 和贝叶斯信息准则 (BIC) 为例：

\begin{aligned} \operatorname{AIC} &= n \ln\left(\frac{\operatorname{SSE}}{n}\right) + 2p, \\ \operatorname{BIC} &= n \ln\left(\frac{\operatorname{SSE}}{n}\right) + p \ln n. \end{aligned}

两者在 SSE 拟合优度与模型复杂度 ( $p$ ) 之间寻求平衡：降低 SSE 需要增加参数，但过多的参数导致过拟合；AIC 和 BIC 通过惩罚项实现自动化的偏差-方差权衡。BIC 对复杂模型的惩罚力度更大（当 $n > 7$ 时 $\ln n > 2$ ），在大样本下倾向于选择更简约的模型。

在交叉验证 (Cross-Validation) 中，SSE 在留出验证集或 $k$ 折验证中的表现 $\sum_{\text{fold}} \sum_{i \in \text{fold}} (y_i - \hat{y}_i^{(\text{-fold})})^2$ 为评估模型泛化能力提供了实用的经验指标。

与 ANOVA 的关联

在方差分析 (ANOVA) 中，SSE 的概念得到了扩展。在单因素 ANOVA 中，SSE（亦称组内平方和，Within-group Sum of Squares）度量了各组内部观测值围绕各组均值的离散程度：

\operatorname{SSE} = \sum_{j=1}^{k} \sum_{i=1}^{n_j} (y_{ij} - \bar{y}_{\cdot j})^2

其中 $k$ 为组数， $n_j$ 为第 $j$ 组的样本量， $\bar{y}_{\cdot j}$ 为组均值。相应的 $F$ 检验统计量 $F = \frac{\operatorname{SSR} / (k-1)}{\operatorname{SSE} / (n-k)}$ 用于检验所有组均值是否相等。

残差诊断中的 SSE 应用

SSE 不仅是汇总统计量，也是残差诊断 (Residual Diagnostics) 的起点。单个残差 $e_i = y_i - \hat{y}_i$ 本身难以直接判断其大小是否异常——不同观测点的杠杆率和方差可能不同。为此，常使用学生化残差 (Studentized Residual)：

r_i = \frac{e_i}{\hat{\sigma}\sqrt{1 - h_{ii}}}

其中 $h_{ii}$ 为帽子矩阵的第 $i$ 个对角元（即第 $i$ 个观测的杠杆值）。学生化残差近似服从 $t$ 分布，可用于识别离群值 (Outliers)。当某个观测的学生化残差的绝对值超过阈值（如 $2$ 或 $3$ ）时，表明该点可能为异常点。通过逐个剔除每个观测后重新计算 SSE 的变化（即 PRESS 统计量，Prediction Error Sum of Squares），可进一步评估单个观测对模型拟合的影响力，这在Cook 距离等诊断统计量中发挥核心作用。

此外，绘制残差对拟合值 $(\hat{y}_i, e_i)$ 的散点图是检验模型假设的经典手段。若 SSE 的分布模式呈现漏斗形（异方差）或系统性弯曲（非线性），则提示模型设定可能存在偏差，需考虑变量变换或扩展模型形式。

计算注意事项

在实际计算中，直接按定义式计算 SSE 可能遭遇数值稳定性问题。对于大规模或病态数据，常采用以下方法：(1) 利用 QR 分解 $\mathbf{X} = \mathbf{Q}\mathbf{R}$ ，其中 $\mathbf{Q}$ 为正交矩阵，SSE 可通过 $\|\mathbf{y} - \mathbf{Q}\mathbf{Q}^T\mathbf{y}\|^2$ 更稳定地计算；(2) 使用增量更新公式（如 Welford 类算法）避免存储整个残差向量；(3) 在统计软件（R、Stata、Python statsmodels）中，SSE 通常通过矩阵分解而非显式求逆 $(\mathbf{X}^T\mathbf{X})^{-1}$ 来计算，以兼顾计算精度和速度。

SSE 作为一个看似简单的二次型，贯穿了参数估计、假设检验、模型诊断和模型选择的全部核心环节。在非线性回归和广义线性模型 (GLM) 中，SSE 被推广为偏差 (Deviance) 或更一般的损失函数，但其最小化残差变异的核心思想不变。理解 SSE 的定义、分布性质和与其它指标的关联，是掌握回归分析方法论的基本功。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。

Sum of Squared Errors