ARTICLE

回归平方和

回归平方和 (Sum of Squares due to Regression) 回归平方和,通常缩写为 SSR (Sum of Squares due to Regression),是统计学和计量经济学中回归分析的一个核心概念。它度量了因变量(y)的总变异中,能够被所构建的回归模型(即由自变量 x 解释的部分)所解释的变异大小。因此,回归平方和是评估模型拟

浏览 169 更新 2025-10-26

回归平方和 (Sum of Squares due to Regression)

回归平方和,通常缩写为 SSR (Sum of Squares due to Regression),是统计学计量经济学回归分析的一个核心概念。它度量了因变量yy)的总变异中,能够被所构建的回归模型(即由自变量 xx 解释的部分)所解释的变异大小。因此,回归平方和是评估模型拟合优度的关键组成部分。

数学定义与计算

线性回归模型中,回归平方和的定义是所有预测值(y^i\hat{y}_i)与因变量样本均值(yˉ\bar{y})之间离差的平方和。其计算公式如下:

SSR=i=1n(y^iyˉ)2SSR = \sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2

其中:

  • nn 表示样本观测值的数量。
  • y^i\hat{y}_i 是对第 ii 个观测值的因变量 yiy_i拟合值 (fitted value) 或预测值 (predicted value)。该值是通过将第 ii 个观测值的自变量 xix_i 代入已估计的回归方程得到的。例如,在简单线性回归 y=β0+β1x+ϵy = \beta_0 + \beta_1 x + \epsilon 中,其估计方程为 y^=β^0+β^1x\hat{y} = \hat{\beta}_0 + \hat{\beta}_1 x,则 y^i=β^0+β^1xi\hat{y}_i = \hat{\beta}_0 + \hat{\beta}_1 x_i
  • yˉ\bar{y} 是因变量 yy 的样本均值,其计算公式为 yˉ=1ni=1nyi\bar{y} = \frac{1}{n}\sum_{i=1}^{n} y_iyˉ\bar{y} 代表了在不使用任何自变量信息的情况下,对 yy 最朴素的预测。

从直观上看,(y^iyˉ)(\hat{y}_i - \bar{y}) 这一项代表了回归模型所提供的预测值 y^i\hat{y}_i 相对于仅使用均值 yˉ\bar{y} 进行预测的“改进量”。SSR 将所有这些“改进量”进行平方并加总,从而量化了整个模型解释变异的能力。

方差分解:SSR在回归分析中的核心地位

为了深刻理解回归平方和的意义,我们必须将其置于回归分析的方差分解 (Variance Decomposition) 框架下。最小二乘法 (Ordinary Least Squares, OLS) 的一个基本数学性质是,它可以将因变量的总变异完美地分解为两部分:一部分由模型解释,另一部分则无法解释。

这个分解由以下三个关键的“平方和”概念构成:

  1. 总平方和 (Total Sum of Squares, SST):它度量了因变量 yy 的总变异,即观测值 yiy_i 围绕其样本均值 yˉ\bar{y} 的离散程度。 \[ SST = \sum_{i=1}^{n} (y_i - \bar{y})^2 \]
  2. 残差平方和 (Sum of Squared Errors, SSE):也称为误差平方和。它度量了模型未能解释的变异部分,即实际观测值 yiy_i 与模型预测值 y^i\hat{y}_i 之间的差异(即残差)。 \[ SSE = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 \]
  3. 回归平方和 (Sum of Squares due to Regression, SSR):即我们正在讨论的,由模型解释的变异部分。

这三者之间存在一个恒等式,是回归分析的基石:

SST=SSR+SSESST = SSR + SSE
i=1n(yiyˉ)2=i=1n(y^iyˉ)2+i=1n(yiy^i)2\sum_{i=1}^{n} (y_i - \bar{y})^2 = \sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2 + \sum_{i=1}^{n} (y_i - \hat{y}_i)^2

这个恒等式可以直观地理解为:(因变量的总变异)=(模型解释的变异)+(模型未解释的变异)

一个“好”的回归模型,其解释的变异(SSR)应该在总变异(SST)中占有较大比重,而未解释的变异(SSE)则应尽可能小。

SSR的解释与应用

回归平方和本身是一个数值,其绝对大小会随数据量纲的改变而改变,因此单独解读其数值意义不大。它的核心价值体现在与其他平方和的比较以及在统计检验中的应用。

决定系数(R2R^2

决定系数R2R^2,Coefficient of Determination)是衡量回归模型拟合优度最常用的指标之一。它直接由回归平方和导出,定义为SSR占SST的比例:

R2=SSRSST=i=1n(y^iyˉ)2i=1n(yiyˉ)2R^2 = \frac{SSR}{SST} = \frac{\sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2}

由于 SST=SSR+SSESST = SSR + SSE,所以 R2R^2 也可以写成:

R2=1SSESSTR^2 = 1 - \frac{SSE}{SST}

R2R^2 的值域为 [0,1][0, 1]。其值表示因变量总变异中可以被自变量解释的百分比。例如,R2=0.85R^2 = 0.85 意味着因变量 yy 的总变异中有 85\% 可以由模型中的自变量来解释。一个高 R2R^2 值通常意味着一个大的SSR,表明模型对数据的拟合程度较好。

回归的F检验

多元回归分析中,我们需要对整个模型的显著性进行假设检验,即检验是否至少有一个自变量能够显著影响因变量。这个检验就是著名的F检验。F统计量的构造离不开SSR。

F检验的原假设H0H_0)和备择假设H1H_1)通常是:

  • H0H_0:所有自变量的系数都为0(即模型整体不显著)。
  • H1H_1:至少有一个自变量的系数不为0(即模型整体显著)。

F统计量的计算公式为:

F=MSRMSE=SSR/kSSE/(nk1)F = \frac{MSR}{MSE} = \frac{SSR/k}{SSE/(n-k-1)}

其中:

  • MSRMSR回归均方 (Mean Square due to Regression),等于SSR除以其自由度 kkkk 是模型中自变量的数量。
  • MSEMSE残差均方 (Mean Square Error),等于SSE除以其自由度 nk1n-k-1
  • nn 是样本量。

F统计量衡量的是“平均每个自变量能解释的方差”与“模型未能解释的方差”之比。如果SSR很大(导致MSR很大),F统计量的值就会很大,这为我们拒绝原假设、认为模型整体显著提供了强有力的证据。我们会将计算出的F值与相应自由度下的F分布临界值进行比较,或直接计算其p值,来做出统计推断。

总结

回归平方和 (SSR) 是理解和评估回归模型的核心构件。它不仅量化了模型解释的变异量,还是构建关键评估指标如决定系数(R2R^2和进行模型整体显著性F检验的基础。在方差分解的框架(SST=SSR+SSESST = SSR + SSE)中,SSR作为“已解释”的部分,其相对大小直接反映了回归模型的有效性和解释力。因此,掌握SSR的计算与意义,是深入学习回归分析的必经之路。