RSS:残差平方和 (Residual Sum of Squares)
RSS ,全称为 残差平方和 (Residual Sum of Squares),也称为 误差平方和 (Sum of Squared Errors, SSE) 或 不可解释的平方和 (Unexplained Sum of Squares),是计量经济学 和统计学 中线性回归 模型的一个核心诊断量。RSS 衡量了模型拟合后剩余的、未能被解释变量所捕捉的变异总量,是评估模型拟合优度、进行假设检验和模型选择的基础。
直观上,RSS 是对模型「犯错」程度的一种汇总度量——它把所有观测点到回归线的垂直距离(残差)平方后加总,残差越大,RSS 越大,模型对数据的拟合就越差。最小化 RSS 正是普通最小二乘法 (OLS) 的目标函数。
定义与公式
考虑一个标准的多元线性回归模型:
y i = β 0 + β 1 x i 1 + β 2 x i 2 + ⋯ + β k x i k + ε i , i = 1 , 2 , … , n y_i = \beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2} + \cdots + \beta_k x_{ik} + \varepsilon_i, \quad i = 1, 2, \dots, n y i = β 0 + β 1 x i 1 + β 2 x i 2 + ⋯ + β k x ik + ε i , i = 1 , 2 , … , n
其中 y i y_i y i 为被解释变量的观测值,x i j x_{ij} x ij 为解释变量,β j \beta_j β j 为待估参数,ε i \varepsilon_i ε i 为随机误差项。
模型估计后,第 i i i 个观测的残差 ε ^ i \hat{\varepsilon}_i ε ^ i 定义为观测值 y i y_i y i 与模型预测值 y ^ i \hat{y}_i y ^ i 之差:
ε ^ i = y i − y ^ i = y i − ( β ^ 0 + β ^ 1 x i 1 + ⋯ + β ^ k x i k ) \hat{\varepsilon}_i = y_i - \hat{y}_i = y_i - (\hat{\beta}_0 + \hat{\beta}_1 x_{i1} + \cdots + \hat{\beta}_k x_{ik}) ε ^ i = y i − y ^ i = y i − ( β ^ 0 + β ^ 1 x i 1 + ⋯ + β ^ k x ik )
残差平方和 RSS 定义为所有残差的平方之和:
RSS = ∑ i = 1 n ε ^ i 2 = ∑ i = 1 n ( y i − y ^ i ) 2 \text{RSS} = \sum_{i=1}^{n} \hat{\varepsilon}_i^2 = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 RSS = i = 1 ∑ n ε ^ i 2 = i = 1 ∑ n ( y i − y ^ i ) 2
为什么要平方? 如果直接加总残差,正负残差会相互抵消。取平方确保了所有偏离都被计入损失,且更大的偏离受到不成比例的「惩罚」(平方效应),这有利于找出拟合最优的解。
平方和分解:TSS、ESS 与 RSS
在包含截距项的线性回归模型中,总平方和 (Total Sum of Squares, TSS)、解释平方和 (Explained Sum of Squares, ESS,也称回归平方和) 和 RSS 之间存在一个恒等关系,称为 方差分解 (Analysis of Variance, ANOVA) 恒等式:
∑ i = 1 n ( y i − y ˉ ) 2 ⏟ TSS = ∑ i = 1 n ( y ^ i − y ˉ ) 2 ⏟ ESS + ∑ i = 1 n ( y i − y ^ i ) 2 ⏟ RSS \underbrace{\sum_{i=1}^{n} (y_i - \bar{y})^2}_{\text{TSS}} = \underbrace{\sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2}_{\text{ESS}} + \underbrace{\sum_{i=1}^{n} (y_i - \hat{y}_i)^2}_{\text{RSS}} TSS i = 1 ∑ n ( y i − y ˉ ) 2 = ESS i = 1 ∑ n ( y ^ i − y ˉ ) 2 + RSS i = 1 ∑ n ( y i − y ^ i ) 2
即 TSS = ESS + RSS \text{TSS} = \text{ESS} + \text{RSS} TSS = ESS + RSS 。这个分解具有直观的几何意义:数据的总变异 (TSS) 被拆分为模型能解释的变异 (ESS) 和模型解释不了的残余变异 (RSS)。
决定系数 R 2 R^2 R 2
RSS 最重要的应用是构造决定系数 R 2 R^2 R 2 ,它是衡量模型拟合优度的标准统计量:
R 2 = ESS TSS = 1 − RSS TSS R^2 = \frac{\text{ESS}}{\text{TSS}} = 1 - \frac{\text{RSS}}{\text{TSS}} R 2 = TSS ESS = 1 − TSS RSS
R 2 R^2 R 2 表示被解释变量的总变异中可由解释变量线性解释的比例,取值范围为 [ 0 , 1 ] [0, 1] [ 0 , 1 ] (含截距的 OLS 回归中)。当 R 2 = 1 R^2 = 1 R 2 = 1 时,RSS = 0,模型完美拟合数据;当 R 2 = 0 R^2 = 0 R 2 = 0 时,RSS = TSS,模型与用均值 y ˉ \bar{y} y ˉ 预测无异。
由于增加解释变量总会使 RSS 减小(或至少不增加),R 2 R^2 R 2 存在过度依赖模型规模的缺陷。为此引入了经过自由度调整的 调整 R² (Adjusted R-squared):
R ˉ 2 = 1 − RSS / ( n − k − 1 ) TSS / ( n − 1 ) \bar{R}^2 = 1 - \frac{\text{RSS} / (n - k - 1)}{\text{TSS} / (n - 1)} R ˉ 2 = 1 − TSS / ( n − 1 ) RSS / ( n − k − 1 )
其中 n n n 为样本量,k k k 为解释变量个数。
OLS 估计与 RSS 最小化
普通最小二乘法 (Ordinary Least Squares, OLS) 的核心思想是选择 β ^ \hat{\beta} β ^ 使 RSS 达到最小:
β ^ OLS = arg min β ∑ i = 1 n ( y i − x i ′ β ) 2 \hat{\beta}_{\text{OLS}} = \arg\min_{\beta} \sum_{i=1}^{n} \left( y_i - x_i'\beta \right)^2 β ^ OLS = arg β min i = 1 ∑ n ( y i − x i ′ β ) 2
通过一阶条件求解,得到 OLS 估计量的解析表达式(矩阵形式):
β ^ = ( X ′ X ) − 1 X ′ y \hat{\beta} = (X'X)^{-1} X'y β ^ = ( X ′ X ) − 1 X ′ y
OLS 估计量在 高斯-马尔可夫定理 的条件下是最优线性无偏估计量 (BLUE)。
σ 2 \sigma^2 σ 2 的无偏估计
在经典线性回归假设下,随机误差 ε i \varepsilon_i ε i 具有恒定方差 σ 2 \sigma^2 σ 2 。RSS 为 σ 2 \sigma^2 σ 2 的无偏估计提供了基础:
σ ^ 2 = RSS n − k − 1 = 1 n − k − 1 ∑ i = 1 n ε ^ i 2 \hat{\sigma}^2 = \frac{\text{RSS}}{n - k - 1} = \frac{1}{n - k - 1} \sum_{i=1}^{n} \hat{\varepsilon}_i^2 σ ^ 2 = n − k − 1 RSS = n − k − 1 1 i = 1 ∑ n ε ^ i 2
分母使用 n − k − 1 n - k - 1 n − k − 1 (自由度)而非 n n n ,是因为 OLS 估计中 k + 1 k+1 k + 1 个参数已从数据中利用,使得 ε ^ i \hat{\varepsilon}_i ε ^ i 之间存在 k + 1 k+1 k + 1 个线性约束。
假设检验:F 检验
RSS 是构造模型整体显著性 F 检验 的基础。检验原假设 H 0 : β 1 = β 2 = ⋯ = β k = 0 H_0: \beta_1 = \beta_2 = \cdots = \beta_k = 0 H 0 : β 1 = β 2 = ⋯ = β k = 0 的 F 统计量为:
F = ( TSS − RSS ) / k RSS / ( n − k − 1 ) = ESS / k RSS / ( n − k − 1 ) ∼ F ( k , n − k − 1 ) F = \frac{(\text{TSS} - \text{RSS}) / k}{\text{RSS} / (n - k - 1)} = \frac{\text{ESS} / k}{\text{RSS} / (n - k - 1)} \sim F(k, n-k-1) F = RSS / ( n − k − 1 ) ( TSS − RSS ) / k = RSS / ( n − k − 1 ) ESS / k ∼ F ( k , n − k − 1 )
对于检验一组解释变量的联合显著性,可以使用受约束模型与无约束模型的 RSS 之差构造 F 统计量:
F = ( RSS restricted − RSS unrestricted ) / q RSS unrestricted / ( n − k − 1 ) F = \frac{(\text{RSS}_{\text{restricted}} - \text{RSS}_{\text{unrestricted}}) / q}{\text{RSS}_{\text{unrestricted}} / (n - k - 1)} F = RSS unrestricted / ( n − k − 1 ) ( RSS restricted − RSS unrestricted ) / q
其中 q q q 为约束条件个数。该检验广泛用于模型选择 和结构变动检验 (邹氏检验 )。
RSS 与 AIC / BIC
RSS 也是构造信息准则的基础。赤池信息准则 (AIC) 和 贝叶斯信息准则 (BIC) 均以对数 RSS 为核心:
AIC = n ln ( RSS n ) + 2 k \text{AIC} = n \ln\left(\frac{\text{RSS}}{n}\right) + 2k AIC = n ln ( n RSS ) + 2 k
BIC = n ln ( RSS n ) + k ln ( n ) \text{BIC} = n \ln\left(\frac{\text{RSS}}{n}\right) + k \ln(n) BIC = n ln ( n RSS ) + k ln ( n )
局限性与注意事项
量纲依赖 :RSS 的值取决于 y y y 的单位,因此不能直接跨数据集比较。样本量依赖 :RSS 随样本量增加而机械增大。过拟合风险 :一昧追求 RSS 最小化会导致过拟合 与偏差-方差权衡 问题。对异常值敏感 :由于使用平方,RSS 对异常值 (Outliers) 非常敏感。稳健回归 方法(如 LAD、Huber 损失等)提供了替代方案。
RSS 相关术语辨析
RSS (Residual Sum of Squares):残差平方和,∑ ( y i − y ^ i ) 2 \sum(y_i - \hat{y}_i)^2 ∑ ( y i − y ^ i ) 2 。ESS (Explained Sum of Squares):解释平方和,∑ ( y ^ i − y ˉ ) 2 \sum(\hat{y}_i - \bar{y})^2 ∑ ( y ^ i − y ˉ ) 2 。TSS (Total Sum of Squares):总平方和,∑ ( y i − y ˉ ) 2 \sum(y_i - \bar{y})^2 ∑ ( y i − y ˉ ) 2 。SSE (Sum of Squared Errors):误差平方和,部分文献中与 RSS 同义。SSR (Sum of Squares Regression):回归平方和,部分文献中与 ESS 同义。
注意 :不同教材和软件(如 R、Stata、Python 的 statsmodels)中,RSS / SSE / SSR 的命名惯例可能不完全一致,使用时应查阅对应文档确认具体含义。
总体而言,RSS 作为回归分析中最基本的变异度量之一,贯穿了参数估计、模型诊断、假设检验和模型选择的全部环节,是计量经济学家和数据分析师工具箱中不可或缺的核心概念。
关于知经 KNOWECON
知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌,长期面向北京大学、清华大学、中国人民大学等顶尖院校,提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考,并成功进入理想院校。
知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业,获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者,长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。
我们相信,好的考研辅导不只是押题和陪跑,更是把复杂知识讲清楚、把复习路径设计清楚,并用技术让学习过程更可追踪、更可反馈、更可坚持。