ARTICLE
残差平方和
残差平方和 (Sum of Squared Residuals) 残差平方和 (Sum of Squared Residuals, SSR),在不同文献中也常被称为 RSS (Residual Sum of Squares) 或 SSE (Sum of Squared Errors),是统计学和计量经济学中,尤其是在回归分析领域至关重要的概念。它衡量模型预测
残差平方和 (Sum of Squared Residuals)
残差平方和 (Sum of Squared Residuals, SSR),在不同文献中也常被称为 RSS (Residual Sum of Squares) 或 SSE (Sum of Squared Errors),是统计学和计量经济学中,尤其是在回归分析领域至关重要的概念。它衡量模型预测值与实际观测值之间差异的总量——具体而言,是所有观测样本残差的平方之和。
在评估统计模型的拟合优度时,SSR 是核心指标:较小的 SSR 意味着模型未能解释的变异(误差)较小,拟合效果更优。
数学定义
对于数据集中的第 个观测样本,设 为因变量的实际观测值, 为模型的预测值(拟合值)。则残差定义为:
残差平方和即为所有 个样本残差的平方之和:
对残差取平方有三个关键原因:(1) 消除正负符号的抵消效应,使所有项非负;(2) 放大较大误差的权重,使模型更倾向于避免极端错误;(3) 平方和函数连续可微且为凸函数,这使得通过求导寻找极小值成为可能——这正是普通最小二乘法 (OLS) 的数学基础。
在普通最小二乘法 (OLS) 中的核心作用
SSR 是普通最小二乘法 (OLS) 的目标函数。OLS 是线性回归模型中最常用的参数估计方法,其核心思想是选择一组参数使 SSR 达到最小。
考虑简单线性回归模型 ,OLS 的目标是:
通过对 SSR 分别求关于 和 的偏导数并令其为零,可解出唯一的 OLS 估计量。因此,SSR 最小化是 OLS 方法的定义性特征。
方差分解与模型评估
回归分析中,因变量的总变异可分解为模型可解释部分与不可解释部分,这是方差分析 (ANOVA) 的基础。三者关系由以下恒等式给出:
其中:总平方和 衡量 的总变异;解释平方和 为模型可解释的变异;SSR 为模型未能解释的变异。
基于此分解可定义决定系数 :
表示因变量总变异中能被模型解释的比例。在 SST 固定时,SSR 越小则 越高,模型解释力越强。
局限性与改进指标
SSR 虽核心但存在局限:(1) 单位依赖性——因变量单位变化会缩放 SSR 数值;(2) 样本量依赖性——SSR 随样本量增加而自然增大;(3) 对模型复杂度不敏感——增加自变量几乎总会减小 SSR,即使新增变量毫无解释力,可能导致过度拟合。
为此发展出以下标准化指标:
均方误差 (MSE):用 SSR 除以自由度 ( 为自变量个数),校正样本量和复杂度影响:
均方根误差 (RMSE):MSE 的平方根,单位与因变量一致,更易解释:
此外,赤池信息准则 (AIC) 和 贝叶斯信息准则 (BIC) 在 SSR(或似然函数)基础上对参数数量施加惩罚,在拟合优度与模型简洁性之间权衡。F检验 则通过在嵌套模型中考察增加变量后 SSR 的减小是否"显著"来判断新变量的联合显著性。这些工具共同构成了从 SSR 出发的完整模型评估与选择体系。