残差平方和 (Residual Sum of Squares, RSS)
残差平方和 (Residual Sum of Squares,缩写 RSS),也称误差平方和 (Sum of Squared Errors, SSE),是回归分析 与方差分析 中度量模型拟合误差的核心统计量。它量化了因变量 y y y 的观测值与模型拟合值之间偏差的平方和,代表回归模型未能解释的残差变异。在普通最小二乘法 (OLS) 的框架下,RSS 扮演着双重角色:它既是 OLS 估计量的最小化目标函数,也是平方和分解恒等式中的误差部分,是推导决定系数 R 2 R^2 R 2 、残差标准误 以及整体显著性F检验 的基础。
定义与数学表达
设有样本容量为 n n n 的观测数据,因变量第 i i i 个观测值为 y i y_i y i ,对应的模型拟合值(预测值)为 y ^ i = x i ′ β ^ \hat{y}_i = \mathbf{x}_i'\hat{\boldsymbol{\beta}} y ^ i = x i ′ β ^ ,其中 x i \mathbf{x}_i x i 为第 i i i 个观测的自变量向量,β ^ \hat{\boldsymbol{\beta}} β ^ 为回归系数的估计量。定义第 i i i 个残差 (residual)为:
e i = y i − y ^ i = y i − x i ′ β ^ e_i = y_i - \hat{y}_i = y_i - \mathbf{x}_i'\hat{\boldsymbol{\beta}} e i = y i − y ^ i = y i − x i ′ β ^
则残差平方和 RSS 为所有残差平方的加总:
RSS = ∑ i = 1 n e i 2 = ∑ i = 1 n ( y i − y ^ i ) 2 \text{RSS} = \sum_{i=1}^{n} e_i^2 = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 RSS = i = 1 ∑ n e i 2 = i = 1 ∑ n ( y i − y ^ i ) 2
在矩阵表达中,记 y = ( y 1 , … , y n ) ′ \mathbf{y} = (y_1, \ldots, y_n)' y = ( y 1 , … , y n ) ′ 为观测向量,y ^ = X β ^ \hat{\mathbf{y}} = \mathbf{X}\hat{\boldsymbol{\beta}} y ^ = X β ^ 为拟合向量,残差向量为 e = y − y ^ \mathbf{e} = \mathbf{y} - \hat{\mathbf{y}} e = y − y ^ 。引入帽子矩阵 H = X ( X ′ X ) − 1 X ′ \mathbf{H} = \mathbf{X}(\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}' H = X ( X ′ X ) − 1 X ′ ,有 y ^ = H y \hat{\mathbf{y}} = \mathbf{H}\mathbf{y} y ^ = Hy 及 e = ( I n − H ) y \mathbf{e} = (\mathbf{I}_n - \mathbf{H})\mathbf{y} e = ( I n − H ) y ,其中 M = I n − H \mathbf{M} = \mathbf{I}_n - \mathbf{H} M = I n − H 称为残差生成矩阵 (residual maker)。RSS 可写作二次型:
RSS = e ′ e = y ′ ( I n − H ) y = y ′ M y \text{RSS} = \mathbf{e}'\mathbf{e} = \mathbf{y}'(\mathbf{I}_n - \mathbf{H})\mathbf{y} = \mathbf{y}'\mathbf{M}\mathbf{y} RSS = e ′ e = y ′ ( I n − H ) y = y ′ My
在经典线性模型假设下,M \mathbf{M} M 是对称幂等矩阵且秩为 n − k − 1 n - k - 1 n − k − 1 (含截距项时,k k k 为自变量个数),因此 RSS 的自由度为 n − k − 1 n - k - 1 n − k − 1 。
作为 OLS 最小化目标
给定线性模型 y = X β + ε \mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon} y = X β + ε ,OLS 估计量的核心思想是选择 β ^ \hat{\boldsymbol{\beta}} β ^ 以最小化残差平方和 :
β ^ OLS = arg min β ∑ i = 1 n ( y i − x i ′ β ) 2 = arg min β RSS ( β ) \hat{\boldsymbol{\beta}}_{\text{OLS}} = \arg\min_{\boldsymbol{\beta}} \sum_{i=1}^{n} (y_i - \mathbf{x}_i'\boldsymbol{\beta})^2 = \arg\min_{\boldsymbol{\beta}} \text{RSS}(\boldsymbol{\beta}) β ^ OLS = arg β min i = 1 ∑ n ( y i − x i ′ β ) 2 = arg β min RSS ( β )
取一阶条件 ∂ RSS ∂ β = − 2 X ′ ( y − X β ) = 0 \frac{\partial \text{RSS}}{\partial \boldsymbol{\beta}} = -2\mathbf{X}'(\mathbf{y} - \mathbf{X}\boldsymbol{\beta}) = \mathbf{0} ∂ β ∂ RSS = − 2 X ′ ( y − X β ) = 0 ,得到正规方程 X ′ X β ^ = X ′ y \mathbf{X}'\mathbf{X}\hat{\boldsymbol{\beta}} = \mathbf{X}'\mathbf{y} X ′ X β ^ = X ′ y ,从而 β ^ = ( X ′ X ) − 1 X ′ y \hat{\boldsymbol{\beta}} = (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{y} β ^ = ( X ′ X ) − 1 X ′ y 。RSS 既定义了估计准则,其最小值 RSS ( β ^ ) \text{RSS}(\hat{\boldsymbol{\beta}}) RSS ( β ^ ) 又是衡量模型优劣的直接尺度。
在高斯-马尔可夫假设下,即 E [ ε ] = 0 E[\boldsymbol{\varepsilon}] = \mathbf{0} E [ ε ] = 0 且 Var ( ε ) = σ 2 I n \text{Var}(\boldsymbol{\varepsilon}) = \sigma^2\mathbf{I}_n Var ( ε ) = σ 2 I n ,OLS 估计量是最佳线性无偏估计量 (BLUE)。此时总体误差方差 σ 2 \sigma^2 σ 2 的无偏估计量为:
σ ^ 2 = RSS n − k − 1 \hat{\sigma}^2 = \frac{\text{RSS}}{n - k - 1} σ ^ 2 = n − k − 1 RSS
该估计量构成了所有回归系数标准误和置信区间计算的基础。
平方和分解中的 RSS
回归分析最根本的代数恒等式是平方和分解 :
SST = SSR + RSS \text{SST} = \text{SSR} + \text{RSS} SST = SSR + RSS
∑ i = 1 n ( y i − y ˉ ) 2 = ∑ i = 1 n ( y ^ i − y ˉ ) 2 + ∑ i = 1 n ( y i − y ^ i ) 2 \sum_{i=1}^{n} (y_i - \bar{y})^2 = \sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2 + \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 i = 1 ∑ n ( y i − y ˉ ) 2 = i = 1 ∑ n ( y ^ i − y ˉ ) 2 + i = 1 ∑ n ( y i − y ^ i ) 2
其中:
SST (Total Sum of Squares) :总平方和 ,自由度 n − 1 n-1 n − 1 ,度量因变量的总变异。SSR (Sum of Squares Regression) :回归平方和 ,自由度 k k k ,度量模型解释的系统性变异。需注意缩写 SSR 在部分文献中也指代残差平方和(参见下文\S 命名歧义)。RSS (Residual Sum of Squares) :残差平方和,自由度 n − k − 1 n-k-1 n − k − 1 ,度量模型未能捕捉的随机变异。
从几何观点看,在 R n \mathbb{R}^n R n 中,残差向量 e \mathbf{e} e 与拟合值向量 y ^ − y ˉ \hat{\mathbf{y}} - \bar{\mathbf{y}} y ^ − y ˉ 正交(由正规条件 X ′ e = 0 \mathbf{X}'\mathbf{e} = \mathbf{0} X ′ e = 0 保证)。平方和分解本质上是勾股定理 在 n n n 维欧氏空间中的表现,其中 OLS 回归等价于将 y \mathbf{y} y 向 X \mathbf{X} X 的列空间做正交投影 ,RSS 即为残差向量的模长平方。
RSS 与决定系数 R 2 R^2 R 2
利用平方和分解,决定系数 R 2 R^2 R 2 可方便地通过 RSS 表达:
R 2 = 1 − RSS SST R^2 = 1 - \frac{\text{RSS}}{\text{SST}} R 2 = 1 − SST RSS
当模型完美拟合时 RSS = 0 \text{RSS} = 0 RSS = 0 ,R 2 = 1 R^2 = 1 R 2 = 1 ;当模型无解释力时 RSS = SST \text{RSS} = \text{SST} RSS = SST ,R 2 = 0 R^2 = 0 R 2 = 0 (含截距项时)。由于 RSS 关于自变量数量单调非增 ——向模型中添加新变量必然不增大 RSS——R 2 R^2 R 2 随之单调非减。这正是引入调整决定系数 (adjusted R 2 R^2 R 2 ) 的动因:
R ˉ 2 = 1 − RSS / ( n − k − 1 ) SST / ( n − 1 ) = 1 − n − 1 n − k − 1 ( 1 − R 2 ) \bar{R}^2 = 1 - \frac{\text{RSS} / (n - k - 1)}{\text{SST} / (n - 1)} = 1 - \frac{n-1}{n-k-1}(1-R^2) R ˉ 2 = 1 − SST / ( n − 1 ) RSS / ( n − k − 1 ) = 1 − n − k − 1 n − 1 ( 1 − R 2 )
调整 R 2 R^2 R 2 仅在新增变量对 RSS 的削减超过自由度损失时才上升,为模型选择提供了更可靠的准则。
RSS 与 F 检验
RSS 是构建回归整体显著性 F 检验的另一半核心元素。检验假设 H 0 : β 1 = β 2 = ⋯ = β k = 0 H_0: \beta_1 = \beta_2 = \cdots = \beta_k = 0 H 0 : β 1 = β 2 = ⋯ = β k = 0 (所有斜率系数为零)对 H 1 H_1 H 1 :至少一个不为零,F 统计量为:
F = ( SST − RSS ) / k RSS / ( n − k − 1 ) = SSR / k RSS / ( n − k − 1 ) F = \frac{(\text{SST} - \text{RSS}) / k}{\text{RSS} / (n - k - 1)} = \frac{\text{SSR} / k}{\text{RSS} / (n - k - 1)} F = RSS / ( n − k − 1 ) ( SST − RSS ) / k = RSS / ( n − k − 1 ) SSR / k
在 H 0 H_0 H 0 下服从自由度为 ( k , n − k − 1 ) (k, n-k-1) ( k , n − k − 1 ) 的F分布 。直观地,分母 RSS / ( n − k − 1 ) \text{RSS} / (n-k-1) RSS / ( n − k − 1 ) 是残差均方(MSE),度量每个自由度的平均未解释变异;分子 SSR/ k /k / k 是回归均方(MSR)。若 RSS 相对于 SST 较小,F 值将显著大于 1,提供拒绝 H 0 H_0 H 0 的证据。
更一般地,对嵌套模型的比较:设约束模型(含 q q q 个约束)的残差平方和为 RSS R \text{RSS}_R RSS R ,无约束模型为 RSS U \text{RSS}_U RSS U ,则:
F = ( RSS R − RSS U ) / q RSS U / ( n − k − 1 ) F = \frac{(\text{RSS}_R - \text{RSS}_U) / q}{\text{RSS}_U / (n - k - 1)} F = RSS U / ( n − k − 1 ) ( RSS R − RSS U ) / q
任何关于回归系数的线性约束检验均可通过 RSS 的增量来评估。
RSS 与极大似然估计
在经典线性回归中,若进一步假设误差项服从正态分布 ε i ∼ N ( 0 , σ 2 ) \varepsilon_i \sim \mathcal{N}(0, \sigma^2) ε i ∼ N ( 0 , σ 2 ) ,则样本的对数似然函数可写为:
ℓ ( β , σ 2 ) = − n 2 ln ( 2 π σ 2 ) − 1 2 σ 2 RSS ( β ) \ell(\boldsymbol{\beta}, \sigma^2) = -\frac{n}{2}\ln(2\pi\sigma^2) - \frac{1}{2\sigma^2}\text{RSS}(\boldsymbol{\beta}) ℓ ( β , σ 2 ) = − 2 n ln ( 2 π σ 2 ) − 2 σ 2 1 RSS ( β )
在此设定下,β ^ MLE = β ^ OLS \hat{\boldsymbol{\beta}}_{\text{MLE}} = \hat{\boldsymbol{\beta}}_{\text{OLS}} β ^ MLE = β ^ OLS ,即极大似然估计与最小二乘估计等价——最小化 RSS 等价于最大化似然函数。而 σ 2 \sigma^2 σ 2 的 MLE 为 σ ^ MLE 2 = RSS / n \hat{\sigma}^2_{\text{MLE}} = \text{RSS} / n σ ^ MLE 2 = RSS / n (有偏),与前述无偏估计 RSS / ( n − k − 1 ) \text{RSS}/(n-k-1) RSS / ( n − k − 1 ) 相差一个自由度修正。
此联系也构成了基于 RSS 的模型选择准则的理论基础:
AIC (Akaike Information Criterion) :AIC = n ln ( RSS / n ) + 2 p \text{AIC} = n\ln(\text{RSS}/n) + 2p AIC = n ln ( RSS / n ) + 2 p ,其中 p p p 为模型中参数的总个数。第一项衡量拟合优度(RSS 越小越好),第二项为复杂度惩罚项。BIC (Bayesian Information Criterion) :BIC = n ln ( RSS / n ) + p ln ( n ) \text{BIC} = n\ln(\text{RSS}/n) + p\ln(n) BIC = n ln ( RSS / n ) + p ln ( n ) ,对参数个数的惩罚比 AIC 更严厉,倾向于选择更简洁的模型。Mallows C p C_p C p :C p = RSS σ ^ full 2 − ( n − 2 p ) C_p = \frac{\text{RSS}}{\hat{\sigma}^2_{\text{full}}} - (n - 2p) C p = σ ^ full 2 RSS − ( n − 2 p ) ,其中 σ ^ full 2 \hat{\sigma}^2_{\text{full}} σ ^ full 2 为全模型的残差方差估计。当模型正确设定时,C p ≈ p C_p \approx p C p ≈ p 。
残差标准误 (RSE)
残差标准误 (Residual Standard Error, RSE),也称回归标准误,是 RSS 经自由度调整后的平方根:
RSE = RSS n − k − 1 = σ ^ \text{RSE} = \sqrt{\frac{\text{RSS}}{n - k - 1}} = \hat{\sigma} RSE = n − k − 1 RSS = σ ^
RSE 度量了因变量观测值围绕回归超平面的平均离散程度,是模型预测精度的核心指标。其单位与因变量一致,便于直接解释:RSE 越小,模型对数据的拟合越紧密。RSE 与因变量均值 y ˉ \bar{y} y ˉ 的比值(变异系数形式)常被用作拟合质量的直观度量,通常在 0-15\% 之间被认为是可接受的拟合精度。
命名歧义与文献惯例
缩写 RSS 的歧义性是回归分析学习者必须注意的重要问题。三种主要命名体系如下:
RSS = Residual Sum of Squares (残差平方和):即本词条所述含义,与 SSE (Sum of Squared Errors) 等价。这是计量经济学中最为普遍的用法,见于 Wooldridge《Introductory Econometrics》、Greene《Econometric Analysis》以及大多数统计软件(如 R 的 \texttt{summary.lm} 输出中的 Residual Sum of Squares)。RSS = Regression Sum of Squares (回归平方和):在部分文献中,RSS 被理解为 "Regression" 而非 "Residual"。此时 RSS 与 ESS (Explained Sum of Squares) 或模型平方和等价。此类用法在早期统计学教材中较为常见,现已逐渐减少。RSS = Sum of Squares due to Regression :与第二种含义一致,但用 "due to" 强化因果归因色彩。在 Neter et al.《Applied Linear Statistical Models》等经典文献中可见。
为避免混淆,最安全的做法是:
始终观察平方和分解的具体形式:若公式为 SST = SSR + RSS \text{SST} = \text{SSR} + \text{RSS} SST = SSR + RSS 且 RSS 出现在残差一侧,则 RSS 为残差平方和;若 SST = RSS + SSE,则 RSS 为回归平方和。 首选使用无歧义的术语对:ESS(解释平方和)与 RSS(残差平方和),或 SSR(回归平方和)与 SSE(误差平方和)。 在现代计量经济学实践中,RSS = Residual Sum of Squares 已形成牢固的共识约定,除非有明确的相反指示,否则应默认此解释。
小结
残差平方和 RSS 是回归分析中度量模型误差的基本统计量。作为 OLS 的最小化目标、平方和分解的误差分量、R 2 R^2 R 2 的互补部分、F 检验的分母核心以及模型选择准则的信息来源,RSS 贯穿了经典线性回归理论的每一个重要环节。它与回归平方和 SSR、总平方和 SST 共同构成的三角关系(SST = SSR + RSS \text{SST} = \text{SSR} + \text{RSS} SST = SSR + RSS )是线性模型理论的代数基石。深刻理解 RSS 的定义、性质与统计功能,是将回归分析从公式套用提升至理论把握的关键一步。
关于知经 KNOWECON
知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌,长期面向北京大学、清华大学、中国人民大学等顶尖院校,提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考,并成功进入理想院校。
知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业,获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者,长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。
我们相信,好的考研辅导不只是押题和陪跑,更是把复杂知识讲清楚、把复习路径设计清楚,并用技术让学习过程更可追踪、更可反馈、更可坚持。