ARTICLE
回归平方和
回归平方和 (Sum of Squares due to Regression) 回归平方和,通常缩写为 SSR (Sum of Squares due to Regression),是统计学和计量经济学中回归分析的一个核心概念。它度量了因变量(y)的总变异中,能够被所构建的回归模型(即由自变量 x 解释的部分)所解释的变异大小。因此,回归平方和是评估模型拟
回归平方和 (Sum of Squares due to Regression)
回归平方和,通常缩写为 SSR (Sum of Squares due to Regression),是统计学和计量经济学中回归分析的一个核心概念。它度量了因变量()的总变异中,能够被所构建的回归模型(即由自变量 解释的部分)所解释的变异大小。因此,回归平方和是评估模型拟合优度的关键组成部分。
数学定义与计算
在线性回归模型中,回归平方和的定义是所有预测值()与因变量样本均值()之间离差的平方和。其计算公式如下:
其中:
- 表示样本观测值的数量。
- 是对第 个观测值的因变量 的拟合值 (fitted value) 或预测值 (predicted value)。该值是通过将第 个观测值的自变量 代入已估计的回归方程得到的。例如,在简单线性回归 中,其估计方程为 ,则 。
- 是因变量 的样本均值,其计算公式为 。 代表了在不使用任何自变量信息的情况下,对 最朴素的预测。
从直观上看, 这一项代表了回归模型所提供的预测值 相对于仅使用均值 进行预测的“改进量”。SSR 将所有这些“改进量”进行平方并加总,从而量化了整个模型解释变异的能力。
方差分解:SSR在回归分析中的核心地位
为了深刻理解回归平方和的意义,我们必须将其置于回归分析的方差分解 (Variance Decomposition) 框架下。最小二乘法 (Ordinary Least Squares, OLS) 的一个基本数学性质是,它可以将因变量的总变异完美地分解为两部分:一部分由模型解释,另一部分则无法解释。
这个分解由以下三个关键的“平方和”概念构成:
- 总平方和 (Total Sum of Squares, SST):它度量了因变量 的总变异,即观测值 围绕其样本均值 的离散程度。 \[ SST = \sum_{i=1}^{n} (y_i - \bar{y})^2 \]
- 残差平方和 (Sum of Squared Errors, SSE):也称为误差平方和。它度量了模型未能解释的变异部分,即实际观测值 与模型预测值 之间的差异(即残差)。 \[ SSE = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 \]
- 回归平方和 (Sum of Squares due to Regression, SSR):即我们正在讨论的,由模型解释的变异部分。
这三者之间存在一个恒等式,是回归分析的基石:
这个恒等式可以直观地理解为:(因变量的总变异)=(模型解释的变异)+(模型未解释的变异)
一个“好”的回归模型,其解释的变异(SSR)应该在总变异(SST)中占有较大比重,而未解释的变异(SSE)则应尽可能小。
SSR的解释与应用
回归平方和本身是一个数值,其绝对大小会随数据量纲的改变而改变,因此单独解读其数值意义不大。它的核心价值体现在与其他平方和的比较以及在统计检验中的应用。
决定系数()
决定系数(,Coefficient of Determination)是衡量回归模型拟合优度最常用的指标之一。它直接由回归平方和导出,定义为SSR占SST的比例:
由于 ,所以 也可以写成:
的值域为 。其值表示因变量总变异中可以被自变量解释的百分比。例如, 意味着因变量 的总变异中有 85\% 可以由模型中的自变量来解释。一个高 值通常意味着一个大的SSR,表明模型对数据的拟合程度较好。
回归的F检验
在多元回归分析中,我们需要对整个模型的显著性进行假设检验,即检验是否至少有一个自变量能够显著影响因变量。这个检验就是著名的F检验。F统计量的构造离不开SSR。
- :所有自变量的系数都为0(即模型整体不显著)。
- :至少有一个自变量的系数不为0(即模型整体显著)。
F统计量的计算公式为:
其中:
- 是 回归均方 (Mean Square due to Regression),等于SSR除以其自由度 。 是模型中自变量的数量。
- 是 残差均方 (Mean Square Error),等于SSE除以其自由度 。
- 是样本量。
F统计量衡量的是“平均每个自变量能解释的方差”与“模型未能解释的方差”之比。如果SSR很大(导致MSR很大),F统计量的值就会很大,这为我们拒绝原假设、认为模型整体显著提供了强有力的证据。我们会将计算出的F值与相应自由度下的F分布临界值进行比较,或直接计算其p值,来做出统计推断。
总结
回归平方和 (SSR) 是理解和评估回归模型的核心构件。它不仅量化了模型解释的变异量,还是构建关键评估指标如决定系数()和进行模型整体显著性F检验的基础。在方差分解的框架()中,SSR作为“已解释”的部分,其相对大小直接反映了回归模型的有效性和解释力。因此,掌握SSR的计算与意义,是深入学习回归分析的必经之路。