ARTICLE

决定系数 (R-squared)

决定系数 (R-squared) 决定系数 (Coefficient of Determination)，记作 R^2 （读作 "R-squared"），是\%回归分析\%中衡量模型拟合优度的最重要统计量之一。它定量回答了这样一个问题：因变量的总变异中有多大比例能够被回归模型中的自变量所解释？ R^2 的取值范围通常在 [0, 1] 之间，其值越接近 1 ，

浏览 0 更新 2025-10-26

决定系数 (R-squared)

决定系数 (Coefficient of Determination)，记作 $R^2$ （读作 "R-squared"），是\%回归分析\%中衡量模型拟合优度的最重要统计量之一。它定量回答了这样一个问题：因变量的总变异中有多大比例能够被回归模型中的自变量所解释？ $R^2$ 的取值范围通常在 $[0, 1]$ 之间，其值越接近 $1$ ，表明模型对数据的拟合程度越高；越接近 $0$ ，则表明模型几乎不具备解释力。

理论基础：平方和的分解

要理解 $R^2$ ，首先需要认识\%回归分析\%中三个核心平方和的概念。对于每个观测值 $y_i$ ，其与均值 $\bar{y}$ 的离差可以分解为模型可解释部分与不可解释部分：

(y_i - \bar{y}) = (\hat{y}_i - \bar{y}) + (y_i - \hat{y}_i)

对等式两边平方并求和，在\%普通最小二乘法\% (OLS) 的假设下，可以得到方差分解恒等式：

\sum_{i=1}^{n} (y_i - \bar{y})^2 = \sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2 + \sum_{i=1}^{n} (y_i - \hat{y}_i)^2

这一恒等式可以简洁地写作 TSS = ESS + RSS。其中：

总平方和 (TSS)： $\text{TSS} = \sum (y_i - \bar{y})^2$ ，衡量因变量的总变异。如果没有模型，预测 $Y$ 的最佳方式就是使用其均值 $\bar{y}$ ，TSS 即直接使用均值预测所产生的总误差。
回归平方和 (ESS)： $\text{ESS} = \sum (\hat{y}_i - \bar{y})^2$ ，衡量能够被回归模型所解释的变异部分，即模型预测值相对于均值的波动程度。
残差平方和 (RSS)： $\text{RSS} = \sum (y_i - \hat{y}_i)^2$ ，衡量模型无法解释的随机变异，即实际值与预测值之间的差异平方和。

$R^2$ 的计算与含义

基于上述分解，决定系数被定义为被解释变异占总变异的比例：

R^2 = \frac{\text{ESS}}{\text{TSS}} = 1 - \frac{\text{RSS}}{\text{TSS}}

当模型完美拟合所有数据点时， $\text{RSS} = 0$ ，故 $R^2 = 1$ ；当模型完全没有解释力（表现不比直接使用均值更好）， $\text{ESS} = 0$ ，故 $R^2 = 0$ 。此外，在\%简单线性回归\%（仅一个自变量）中， $R^2$ 等于因变量 $Y$ 与自变量 $X$ 之间\%皮尔逊相关系数\% $r$ 的平方： $R^2 = r^2$ 。

局限性：过拟合与调整 $R^2$

$R^2$ 有一个关键缺陷：向模型中添加任何新自变量，即使该变量与因变量毫无关系， $R^2$ 也几乎总会上升（至少不降）。这是因为 OLS 总会给新增变量分配一个微小系数，利用样本中的随机波动来略微减小 RSS，从而虚增表面拟合度。这种现象容易导致\%过拟合\% (Overfitting)。

为解决这一问题，统计学家提出了调整决定系数 (Adjusted $R^2$ )，引入对自变量数量的惩罚：

R^2_{\text{adj}} = 1 - \frac{(1 - R^2)(n - 1)}{n - k - 1}

其中 $n$ 为\%样本量\%， $k$ 为自变量个数。与 $R^2$ 不同，调整 $R^2$ 仅在新增变量带来的拟合改善足以补偿自由度损失时才上升；若变量毫无解释力，调整 $R^2$ 可能下降甚至为负。在\%模型选择\%中，调整 $R^2$ 可与\%赤池信息准则\% (AIC) 和\%贝叶斯信息准则\% (BIC) 配合使用。

使用注意事项

在实证研究中，对 $R^2$ 的解读需保持审慎：

高 $R^2$ 不等于好模型：高 $R^2$ 仅表示样本拟合度高，不意味着模型系数无偏、显著或存在因果关系。模型可能仍存在\%异方差性\%、\%自相关\%或\%多重共线性\%等问题。

低 $R^2$ 不等于坏模型：在社会科学或金融学中，个体行为的随机性导致变量间关系本身较弱， $R^2$ 在 0.1 至 0.3 之间是常见且可接受的水平，模型仍可能具有重要的统计显著性。

$R^2$ 不可跨模型比较： $R^2$ 仅适用于因变量相同的模型。比较不同函数形式（如线性 vs 对数线性）或因变量变换后的模型时， $R^2$ 不具有可比性。此外， $R^2$ 对\%异常值\%极为敏感，少数极端观测即可显著改变其数值。

$R^2$ 与 F 检验的关系： $R^2$ 与 F 统计量之间存在直接数学关系 $\displaystyle F = \frac{R^2 / k}{(1 - R^2)/(n - k - 1)}$ 。即使 $R^2$ 看似可观，若样本量很小或自变量过多，F 检验仍可能不显著。因此，实证报告中应同时汇报 $R^2$ 、调整 $R^2$ 和 F 检验的 p 值。

拓展：伪 $R^2$ 与非线性模型

$R^2$ 的方差分解恒等式在\%逻辑回归\%、\%泊松回归\%等非线性模型中不再成立。为此，统计学家发展出多种伪 $R^2$ (Pseudo $R^2$ ) 指标，如 McFadden $R^2$ 、Cox-Snell $R^2$ 和 Nagelkerke $R^2$ 。但这些指标不具备方差分解的直观解释，各指标之间不可直接比较，更不能将其等同于 OLS 框架下的 $R^2$ 来解读"解释百分比"。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。

决定系数 (R-squared)