ARTICLE

Residual Sum of Squares (RSS)

残差平方和 (Residual Sum of Squares, RSS) 残差平方和(Residual Sum of Squares,缩写 RSS),也称误差平方和(Sum of Squared Errors, SSE),是回归分析与方差分析中度量模型拟合误差的核心统计量。它量化了因变量 y 的观测值与模型拟合值之间偏差的平方和,代表回归模型未能解释的残差变

浏览 0 更新 2025-12-23

残差平方和 (Residual Sum of Squares, RSS)

残差平方和(Residual Sum of Squares,缩写 RSS),也称误差平方和(Sum of Squared Errors, SSE),是回归分析方差分析中度量模型拟合误差的核心统计量。它量化了因变量 yy 的观测值与模型拟合值之间偏差的平方和,代表回归模型未能解释的残差变异。在普通最小二乘法 (OLS) 的框架下,RSS 扮演着双重角色:它既是 OLS 估计量的最小化目标函数,也是平方和分解恒等式中的误差部分,是推导决定系数 R2R^2残差标准误以及整体显著性F检验的基础。

定义与数学表达

设有样本容量为 nn 的观测数据,因变量第 ii 个观测值为 yiy_i,对应的模型拟合值(预测值)为 y^i=xiβ^\hat{y}_i = \mathbf{x}_i'\hat{\boldsymbol{\beta}},其中 xi\mathbf{x}_i 为第 ii 个观测的自变量向量,β^\hat{\boldsymbol{\beta}} 为回归系数的估计量。定义第 ii残差(residual)为:

ei=yiy^i=yixiβ^e_i = y_i - \hat{y}_i = y_i - \mathbf{x}_i'\hat{\boldsymbol{\beta}}

则残差平方和 RSS 为所有残差平方的加总:

RSS=i=1nei2=i=1n(yiy^i)2\text{RSS} = \sum_{i=1}^{n} e_i^2 = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2

在矩阵表达中,记 y=(y1,,yn)\mathbf{y} = (y_1, \ldots, y_n)' 为观测向量,y^=Xβ^\hat{\mathbf{y}} = \mathbf{X}\hat{\boldsymbol{\beta}} 为拟合向量,残差向量为 e=yy^\mathbf{e} = \mathbf{y} - \hat{\mathbf{y}}。引入帽子矩阵 H=X(XX)1X\mathbf{H} = \mathbf{X}(\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}',有 y^=Hy\hat{\mathbf{y}} = \mathbf{H}\mathbf{y}e=(InH)y\mathbf{e} = (\mathbf{I}_n - \mathbf{H})\mathbf{y},其中 M=InH\mathbf{M} = \mathbf{I}_n - \mathbf{H} 称为残差生成矩阵(residual maker)。RSS 可写作二次型:

RSS=ee=y(InH)y=yMy\text{RSS} = \mathbf{e}'\mathbf{e} = \mathbf{y}'(\mathbf{I}_n - \mathbf{H})\mathbf{y} = \mathbf{y}'\mathbf{M}\mathbf{y}

在经典线性模型假设下,M\mathbf{M} 是对称幂等矩阵且秩为 nk1n - k - 1(含截距项时,kk 为自变量个数),因此 RSS 的自由度为 nk1n - k - 1

作为 OLS 最小化目标

给定线性模型 y=Xβ+ε\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon},OLS 估计量的核心思想是选择 β^\hat{\boldsymbol{\beta}}最小化残差平方和

β^OLS=argminβi=1n(yixiβ)2=argminβRSS(β)\hat{\boldsymbol{\beta}}_{\text{OLS}} = \arg\min_{\boldsymbol{\beta}} \sum_{i=1}^{n} (y_i - \mathbf{x}_i'\boldsymbol{\beta})^2 = \arg\min_{\boldsymbol{\beta}} \text{RSS}(\boldsymbol{\beta})

取一阶条件 RSSβ=2X(yXβ)=0\frac{\partial \text{RSS}}{\partial \boldsymbol{\beta}} = -2\mathbf{X}'(\mathbf{y} - \mathbf{X}\boldsymbol{\beta}) = \mathbf{0},得到正规方程 XXβ^=Xy\mathbf{X}'\mathbf{X}\hat{\boldsymbol{\beta}} = \mathbf{X}'\mathbf{y},从而 β^=(XX)1Xy\hat{\boldsymbol{\beta}} = (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{y}。RSS 既定义了估计准则,其最小值 RSS(β^)\text{RSS}(\hat{\boldsymbol{\beta}}) 又是衡量模型优劣的直接尺度。

在高斯-马尔可夫假设下,即 E[ε]=0E[\boldsymbol{\varepsilon}] = \mathbf{0}Var(ε)=σ2In\text{Var}(\boldsymbol{\varepsilon}) = \sigma^2\mathbf{I}_n,OLS 估计量是最佳线性无偏估计量(BLUE)。此时总体误差方差 σ2\sigma^2 的无偏估计量为:

σ^2=RSSnk1\hat{\sigma}^2 = \frac{\text{RSS}}{n - k - 1}

该估计量构成了所有回归系数标准误和置信区间计算的基础。

平方和分解中的 RSS

回归分析最根本的代数恒等式是平方和分解

SST=SSR+RSS\text{SST} = \text{SSR} + \text{RSS}
i=1n(yiyˉ)2=i=1n(y^iyˉ)2+i=1n(yiy^i)2\sum_{i=1}^{n} (y_i - \bar{y})^2 = \sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2 + \sum_{i=1}^{n} (y_i - \hat{y}_i)^2

其中:

  • SST (Total Sum of Squares)总平方和,自由度 n1n-1,度量因变量的总变异。
  • SSR (Sum of Squares Regression)回归平方和,自由度 kk,度量模型解释的系统性变异。需注意缩写 SSR 在部分文献中也指代残差平方和(参见下文\S 命名歧义)。
  • RSS (Residual Sum of Squares):残差平方和,自由度 nk1n-k-1,度量模型未能捕捉的随机变异。

从几何观点看,在 Rn\mathbb{R}^n 中,残差向量 e\mathbf{e} 与拟合值向量 y^yˉ\hat{\mathbf{y}} - \bar{\mathbf{y}} 正交(由正规条件 Xe=0\mathbf{X}'\mathbf{e} = \mathbf{0} 保证)。平方和分解本质上是勾股定理nn 维欧氏空间中的表现,其中 OLS 回归等价于将 y\mathbf{y}X\mathbf{X} 的列空间做正交投影,RSS 即为残差向量的模长平方。

RSS 与决定系数 R2R^2

利用平方和分解,决定系数 R2R^2 可方便地通过 RSS 表达:

R2=1RSSSSTR^2 = 1 - \frac{\text{RSS}}{\text{SST}}

当模型完美拟合时 RSS=0\text{RSS} = 0R2=1R^2 = 1;当模型无解释力时 RSS=SST\text{RSS} = \text{SST}R2=0R^2 = 0(含截距项时)。由于 RSS 关于自变量数量单调非增——向模型中添加新变量必然不增大 RSS——R2R^2 随之单调非减。这正是引入调整决定系数 (adjusted R2R^2) 的动因:

Rˉ2=1RSS/(nk1)SST/(n1)=1n1nk1(1R2)\bar{R}^2 = 1 - \frac{\text{RSS} / (n - k - 1)}{\text{SST} / (n - 1)} = 1 - \frac{n-1}{n-k-1}(1-R^2)

调整 R2R^2 仅在新增变量对 RSS 的削减超过自由度损失时才上升,为模型选择提供了更可靠的准则。

RSS 与 F 检验

RSS 是构建回归整体显著性 F 检验的另一半核心元素。检验假设 H0:β1=β2==βk=0H_0: \beta_1 = \beta_2 = \cdots = \beta_k = 0(所有斜率系数为零)对 H1H_1:至少一个不为零,F 统计量为:

F=(SSTRSS)/kRSS/(nk1)=SSR/kRSS/(nk1)F = \frac{(\text{SST} - \text{RSS}) / k}{\text{RSS} / (n - k - 1)} = \frac{\text{SSR} / k}{\text{RSS} / (n - k - 1)}

H0H_0 下服从自由度为 (k,nk1)(k, n-k-1)F分布。直观地,分母 RSS/(nk1)\text{RSS} / (n-k-1) 是残差均方(MSE),度量每个自由度的平均未解释变异;分子 SSR/k/k 是回归均方(MSR)。若 RSS 相对于 SST 较小,F 值将显著大于 1,提供拒绝 H0H_0 的证据。

更一般地,对嵌套模型的比较:设约束模型(含 qq 个约束)的残差平方和为 RSSR\text{RSS}_R,无约束模型为 RSSU\text{RSS}_U,则:

F=(RSSRRSSU)/qRSSU/(nk1)F = \frac{(\text{RSS}_R - \text{RSS}_U) / q}{\text{RSS}_U / (n - k - 1)}

任何关于回归系数的线性约束检验均可通过 RSS 的增量来评估。

RSS 与极大似然估计

在经典线性回归中,若进一步假设误差项服从正态分布 εiN(0,σ2)\varepsilon_i \sim \mathcal{N}(0, \sigma^2),则样本的对数似然函数可写为:

(β,σ2)=n2ln(2πσ2)12σ2RSS(β)\ell(\boldsymbol{\beta}, \sigma^2) = -\frac{n}{2}\ln(2\pi\sigma^2) - \frac{1}{2\sigma^2}\text{RSS}(\boldsymbol{\beta})

在此设定下,β^MLE=β^OLS\hat{\boldsymbol{\beta}}_{\text{MLE}} = \hat{\boldsymbol{\beta}}_{\text{OLS}},即极大似然估计与最小二乘估计等价——最小化 RSS 等价于最大化似然函数。而 σ2\sigma^2 的 MLE 为 σ^MLE2=RSS/n\hat{\sigma}^2_{\text{MLE}} = \text{RSS} / n(有偏),与前述无偏估计 RSS/(nk1)\text{RSS}/(n-k-1) 相差一个自由度修正。

此联系也构成了基于 RSS 的模型选择准则的理论基础:

  • AIC (Akaike Information Criterion)AIC=nln(RSS/n)+2p\text{AIC} = n\ln(\text{RSS}/n) + 2p,其中 pp 为模型中参数的总个数。第一项衡量拟合优度(RSS 越小越好),第二项为复杂度惩罚项。
  • BIC (Bayesian Information Criterion)BIC=nln(RSS/n)+pln(n)\text{BIC} = n\ln(\text{RSS}/n) + p\ln(n),对参数个数的惩罚比 AIC 更严厉,倾向于选择更简洁的模型。
  • Mallows CpC_pCp=RSSσ^full2(n2p)C_p = \frac{\text{RSS}}{\hat{\sigma}^2_{\text{full}}} - (n - 2p),其中 σ^full2\hat{\sigma}^2_{\text{full}} 为全模型的残差方差估计。当模型正确设定时,CppC_p \approx p

残差标准误 (RSE)

残差标准误(Residual Standard Error, RSE),也称回归标准误,是 RSS 经自由度调整后的平方根:

RSE=RSSnk1=σ^\text{RSE} = \sqrt{\frac{\text{RSS}}{n - k - 1}} = \hat{\sigma}

RSE 度量了因变量观测值围绕回归超平面的平均离散程度,是模型预测精度的核心指标。其单位与因变量一致,便于直接解释:RSE 越小,模型对数据的拟合越紧密。RSE 与因变量均值 yˉ\bar{y} 的比值(变异系数形式)常被用作拟合质量的直观度量,通常在 0-15\% 之间被认为是可接受的拟合精度。

命名歧义与文献惯例

缩写 RSS 的歧义性是回归分析学习者必须注意的重要问题。三种主要命名体系如下:

  1. RSS = Residual Sum of Squares(残差平方和):即本词条所述含义,与 SSE (Sum of Squared Errors) 等价。这是计量经济学中最为普遍的用法,见于 Wooldridge《Introductory Econometrics》、Greene《Econometric Analysis》以及大多数统计软件(如 R 的 \texttt{summary.lm} 输出中的 Residual Sum of Squares)。
  2. RSS = Regression Sum of Squares(回归平方和):在部分文献中,RSS 被理解为 "Regression" 而非 "Residual"。此时 RSS 与 ESS (Explained Sum of Squares) 或模型平方和等价。此类用法在早期统计学教材中较为常见,现已逐渐减少。
  3. RSS = Sum of Squares due to Regression:与第二种含义一致,但用 "due to" 强化因果归因色彩。在 Neter et al.《Applied Linear Statistical Models》等经典文献中可见。

为避免混淆,最安全的做法是:

  • 始终观察平方和分解的具体形式:若公式为 SST=SSR+RSS\text{SST} = \text{SSR} + \text{RSS} 且 RSS 出现在残差一侧,则 RSS 为残差平方和;若 SST = RSS + SSE,则 RSS 为回归平方和。
  • 首选使用无歧义的术语对:ESS(解释平方和)与 RSS(残差平方和),或 SSR(回归平方和)与 SSE(误差平方和)。
  • 在现代计量经济学实践中,RSS = Residual Sum of Squares 已形成牢固的共识约定,除非有明确的相反指示,否则应默认此解释。

小结

残差平方和 RSS 是回归分析中度量模型误差的基本统计量。作为 OLS 的最小化目标、平方和分解的误差分量、R2R^2 的互补部分、F 检验的分母核心以及模型选择准则的信息来源,RSS 贯穿了经典线性回归理论的每一个重要环节。它与回归平方和 SSR、总平方和 SST 共同构成的三角关系(SST=SSR+RSS\text{SST} = \text{SSR} + \text{RSS})是线性模型理论的代数基石。深刻理解 RSS 的定义、性质与统计功能,是将回归分析从公式套用提升至理论把握的关键一步。