ARTICLE

回归平方和

回归平方和 (Sum of Squares due to Regression) 回归平方和，通常缩写为 SSR (Sum of Squares due to Regression)，是统计学和计量经济学中回归分析的一个核心概念。它度量了因变量（y）的总变异中，能够被所构建的回归模型（即由自变量 x 解释的部分）所解释的变异大小。因此，回归平方和是评估模型拟

浏览 169 更新 2025-10-26

回归平方和 (Sum of Squares due to Regression)

回归平方和，通常缩写为 SSR (Sum of Squares due to Regression)，是统计学和计量经济学中回归分析的一个核心概念。它度量了因变量（ $y$ ）的总变异中，能够被所构建的回归模型（即由自变量 $x$ 解释的部分）所解释的变异大小。因此，回归平方和是评估模型拟合优度的关键组成部分。

数学定义与计算

在线性回归模型中，回归平方和的定义是所有预测值（ $\hat{y}_i$ ）与因变量样本均值（ $\bar{y}$ ）之间离差的平方和。其计算公式如下：

SSR = \sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2

其中：

$n$ 表示样本观测值的数量。
$\hat{y}_i$ 是对第 $i$ 个观测值的因变量 $y_i$ 的拟合值 (fitted value) 或预测值 (predicted value)。该值是通过将第 $i$ 个观测值的自变量 $x_i$ 代入已估计的回归方程得到的。例如，在简单线性回归 $y = \beta_0 + \beta_1 x + \epsilon$ 中，其估计方程为 $\hat{y} = \hat{\beta}_0 + \hat{\beta}_1 x$ ，则 $\hat{y}_i = \hat{\beta}_0 + \hat{\beta}_1 x_i$ 。
$\bar{y}$ 是因变量 $y$ 的样本均值，其计算公式为 $\bar{y} = \frac{1}{n}\sum_{i=1}^{n} y_i$ 。 $\bar{y}$ 代表了在不使用任何自变量信息的情况下，对 $y$ 最朴素的预测。

从直观上看， $(\hat{y}_i - \bar{y})$ 这一项代表了回归模型所提供的预测值 $\hat{y}_i$ 相对于仅使用均值 $\bar{y}$ 进行预测的“改进量”。SSR 将所有这些“改进量”进行平方并加总，从而量化了整个模型解释变异的能力。

方差分解：SSR在回归分析中的核心地位

为了深刻理解回归平方和的意义，我们必须将其置于回归分析的方差分解 (Variance Decomposition) 框架下。最小二乘法 (Ordinary Least Squares, OLS) 的一个基本数学性质是，它可以将因变量的总变异完美地分解为两部分：一部分由模型解释，另一部分则无法解释。

这个分解由以下三个关键的“平方和”概念构成：

总平方和 (Total Sum of Squares, SST)：它度量了因变量 $y$ 的总变异，即观测值 $y_i$ 围绕其样本均值 $\bar{y}$ 的离散程度。 \[ SST = \sum_{i=1}^{n} (y_i - \bar{y})^2 \]
残差平方和 (Sum of Squared Errors, SSE)：也称为误差平方和。它度量了模型未能解释的变异部分，即实际观测值 $y_i$ 与模型预测值 $\hat{y}_i$ 之间的差异（即残差）。 \[ SSE = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 \]
回归平方和 (Sum of Squares due to Regression, SSR)：即我们正在讨论的，由模型解释的变异部分。

这三者之间存在一个恒等式，是回归分析的基石：

SST = SSR + SSE

\sum_{i=1}^{n} (y_i - \bar{y})^2 = \sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2 + \sum_{i=1}^{n} (y_i - \hat{y}_i)^2

这个恒等式可以直观地理解为：（因变量的总变异）=（模型解释的变异）+（模型未解释的变异）

一个“好”的回归模型，其解释的变异（SSR）应该在总变异（SST）中占有较大比重，而未解释的变异（SSE）则应尽可能小。

SSR的解释与应用

回归平方和本身是一个数值，其绝对大小会随数据量纲的改变而改变，因此单独解读其数值意义不大。它的核心价值体现在与其他平方和的比较以及在统计检验中的应用。

决定系数（ $R^2$ ）

决定系数（ $R^2$ ，Coefficient of Determination）是衡量回归模型拟合优度最常用的指标之一。它直接由回归平方和导出，定义为SSR占SST的比例：

R^2 = \frac{SSR}{SST} = \frac{\sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2}

由于 $SST = SSR + SSE$ ，所以 $R^2$ 也可以写成：

R^2 = 1 - \frac{SSE}{SST}

$R^2$ 的值域为 $[0, 1]$ 。其值表示因变量总变异中可以被自变量解释的百分比。例如， $R^2 = 0.85$ 意味着因变量 $y$ 的总变异中有 85\% 可以由模型中的自变量来解释。一个高 $R^2$ 值通常意味着一个大的SSR，表明模型对数据的拟合程度较好。

回归的F检验

在多元回归分析中，我们需要对整个模型的显著性进行假设检验，即检验是否至少有一个自变量能够显著影响因变量。这个检验就是著名的F检验。F统计量的构造离不开SSR。

F检验的原假设（ $H_0$ ）和备择假设（ $H_1$ ）通常是：

$H_0$ ：所有自变量的系数都为0（即模型整体不显著）。
$H_1$ ：至少有一个自变量的系数不为0（即模型整体显著）。

F统计量的计算公式为：

F = \frac{MSR}{MSE} = \frac{SSR/k}{SSE/(n-k-1)}

其中：

$MSR$ 是 回归均方 (Mean Square due to Regression)，等于SSR除以其自由度 $k$ 。 $k$ 是模型中自变量的数量。
$MSE$ 是 残差均方 (Mean Square Error)，等于SSE除以其自由度 $n-k-1$ 。
$n$ 是样本量。

F统计量衡量的是“平均每个自变量能解释的方差”与“模型未能解释的方差”之比。如果SSR很大（导致MSR很大），F统计量的值就会很大，这为我们拒绝原假设、认为模型整体显著提供了强有力的证据。我们会将计算出的F值与相应自由度下的F分布临界值进行比较，或直接计算其p值，来做出统计推断。

总结

回归平方和 (SSR) 是理解和评估回归模型的核心构件。它不仅量化了模型解释的变异量，还是构建关键评估指标如决定系数（ $R^2$ ）和进行模型整体显著性F检验的基础。在方差分解的框架（ $SST = SSR + SSE$ ）中，SSR作为“已解释”的部分，其相对大小直接反映了回归模型的有效性和解释力。因此，掌握SSR的计算与意义，是深入学习回归分析的必经之路。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。

回归平方和