# 回归平方和 (Sum of Squares due to Regression)
回归平方和,通常缩写为 SSR (Sum of Squares due to Regression),是{{{统计学}}}和{{{计量经济学}}}中{{{回归分析}}}的一个核心概念。它度量了{{{因变量}}} ($y$) 的总变异中,能够被所构建的{{{回归模型}}}(即由{{{自变量}}} $x$ 解释的部分)所解释的变异大小。因此,回归平方和是评估模型拟合优度的关键组成部分。
## 数学定义与计算
在{{{线性回归}}}模型中,回归平方和的定义是所有预测值 ($\hat{y}_i$) 与因变量样本均值 ($\bar{y}$) 之间离差的平方和。其计算公式如下:
$$ SSR = \sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2 $$
其中: * $n$ 表示样本观测值的数量。 * $\hat{y}_i$ 是对第 $i$ 个观测值的因变量 $y_i$ 的拟合值 (fitted value) 或预测值 (predicted value)。该值是通过将第 $i$ 个观测值的自变量 $x_i$ 代入已估计的回归方程得到的。例如,在简单线性回归 $y = \beta_0 + \beta_1 x + \epsilon$ 中,其估计方程为 $\hat{y} = \hat{\beta}_0 + \hat{\beta}_1 x$,则 $\hat{y}_i = \hat{\beta}_0 + \hat{\beta}_1 x_i$。 * $\bar{y}$ 是因变量 $y$ 的样本均值,其计算公式为 $\bar{y} = \frac{1}{n}\sum_{i=1}^{n} y_i$。$\bar{y}$ 代表了在不使用任何自变量信息的情况下,对 $y$ 最朴素的预测。
从直观上看,$(\hat{y}_i - \bar{y})$ 这一项代表了回归模型所提供的预测值 $\hat{y}_i$ 相对于仅使用均值 $\bar{y}$ 进行预测的“改进量”。SSR 将所有这些“改进量”进行平方并加总,从而量化了整个模型解释变异的能力。
## 方差分解:SSR在回归分析中的核心地位
为了深刻理解回归平方和的意义,我们必须将其置于回归分析的方差分解 (Variance Decomposition) 框架下。{{{最小二乘法}}} (Ordinary Least Squares, OLS) 的一个基本数学性质是,它可以将因变量的总变异完美地分解为两部分:一部分由模型解释,另一部分则无法解释。
这个分解由以下三个关键的“平方和”概念构成:
1. {{{总平方和}}} (Total Sum of Squares, SST):它度量了因变量 $y$ 的总变异,即观测值 $y_i$ 围绕其样本均值 $\bar{y}$ 的离散程度。 $$ SST = \sum_{i=1}^{n} (y_i - \bar{y})^2 $$
2. {{{残差平方和}}} (Sum of Squared Errors, SSE):也称为误差平方和。它度量了模型未能解释的变异部分,即实际观测值 $y_i$ 与模型预测值 $\hat{y}_i$ 之间的差异(即{{{残差}}})。 $$ SSE = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 $$
3. 回归平方和 (Sum of Squares due to Regression, SSR):即我们正在讨论的,由模型解释的变异部分。
这三者之间存在一个恒等式,是回归分析的基石: $$ SST = SSR + SSE $$ $$ \sum_{i=1}^{n} (y_i - \bar{y})^2 = \sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2 + \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 $$
这个恒等式可以直观地理解为: (因变量的总变异)=(模型解释的变异)+(模型未解释的变异)
一个“好”的回归模型,其解释的变异(SSR)应该在总变异(SST)中占有较大比重,而未解释的变异(SSE)则应尽可能小。
## SSR的解释与应用
回归平方和本身是一个数值,其绝对大小会随数据量纲的改变而改变,因此单独解读其数值意义不大。它的核心价值体现在与其他平方和的比较以及在统计检验中的应用。
### 1. 决定系数 ($R^2$)
{{{决定系数}}} ($R^2$, Coefficient of Determination) 是衡量回归模型拟合优度最常用的指标之一。它直接由回归平方和导出,定义为SSR占SST的比例: $$ R^2 = \frac{SSR}{SST} = \frac{\sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2} $$ 由于 $SST = SSR + SSE$,所以 $R^2$ 也可以写成: $$ R^2 = 1 - \frac{SSE}{SST} $$ $R^2$ 的值域为 $[0, 1]$。其值表示因变量总变异中可以被自变量解释的百分比。例如,$R^2 = 0.85$ 意味着因变量 $y$ 的总变异中有 85% 可以由模型中的自变量来解释。一个高 $R^2$ 值通常意味着一个大的SSR,表明模型对数据的拟合程度较好。
### 2. 回归的F检验
在{{{多元回归分析}}}中,我们需要对整个模型的显著性进行{{{假设检验}}},即检验是否至少有一个自变量能够显著影响因变量。这个检验就是著名的{{{F检验}}}。F统计量的构造离不开SSR。
F检验的{{{原假设}}} ($H_0$) 和{{{备择假设}}} ($H_1$) 通常是: * $H_0$: 所有自变量的系数都为0 (即模型整体不显著)。 * $H_1$: 至少有一个自变量的系数不为0 (即模型整体显著)。
F统计量的计算公式为: $$ F = \frac{MSR}{MSE} = \frac{SSR/k}{SSE/(n-k-1)} $$ 其中: * $MSR$ 是 回归均方 (Mean Square due to Regression),等于SSR除以其{{{自由度}}} $k$。$k$ 是模型中自变量的数量。 * $MSE$ 是 残差均方 (Mean Square Error),等于SSE除以其自由度 $n-k-1$。 * $n$ 是样本量。
F统计量衡量的是“平均每个自变量能解释的方差”与“模型未能解释的方差”之比。如果SSR很大(导致MSR很大),F统计量的值就会很大,这为我们拒绝原假设、认为模型整体显著提供了强有力的证据。我们会将计算出的F值与相应自由度下的F分布临界值进行比较,或直接计算其p值,来做出统计推断。
## 总结
回归平方和 (SSR) 是理解和评估回归模型的核心构件。它不仅量化了模型解释的变异量,还是构建关键评估指标如决定系数 ($R^2$) 和进行模型整体显著性F检验的基础。在方差分解的框架 ($SST = SSR + SSE$) 中,SSR作为“已解释”的部分,其相对大小直接反映了回归模型的有效性和解释力。因此,掌握SSR的计算与意义,是深入学习回归分析的必经之路。