ARTICLE

决定系数

决定系数 (Coefficient of Determination) 决定系数 (Coefficient of Determination)，通常用 R^2 (读作 "R-squared") 表示，是\%统计学\%和\%计量经济学\%中用于评估\%回归模型\%拟合优度的一个关键指标。它衡量了因变量的\%方差\%中，可以被自变量解释的百分比。简而言之， R^

浏览 131 更新 2025-10-26

决定系数 (Coefficient of Determination)

决定系数 (Coefficient of Determination)，通常用 $R^2$ (读作 "R-squared") 表示，是\%统计学\%和\%计量经济学\%中用于评估\%回归模型\%拟合优度的一个关键指标。它衡量了因变量的\%方差\%中，可以被自变量解释的百分比。简而言之， $R^2$ 回答了这样一个问题：“你的模型在多大程度上解释了结果的变化？”

$R^2$ 的取值范围通常在 $0$ 到 $1$ 之间。一个接近 $1$ 的 $R^2$ 值表明模型解释了因变量大部分的变异性，而一个接近 $0$ 的值则表明模型几乎没有解释其变异性。因此，它是一个衡量模型解释力 (Explanatory Power) 的核心工具。

理论基础：变异的分解

要深入理解 $R^2$ ，我们必须首先理解\%因变量\%的总变异是如何被分解的。在\%回归分析\%中，我们试图用一个模型（一条回归线）来描述自变量 $X$ 和因变量 $Y$ 之间的关系。对于数据集中的每一个观测值 $y_i$ ，其与因变量均值 $\bar{y}$ 的离差 $(y_i - \bar{y})$ 可以被分解为两部分：

模型可以解释的部分：即模型的预测值 $\hat{y}_i$ 与均值 $\bar{y}$ 的离差 $(\hat{y}_i - \bar{y})$ 。
模型无法解释的部分：即实际观测值 $y_i$ 与模型预测值 $\hat{y}_i$ 的离差 $(y_i - \hat{y}_i)$ ，这部分被称为\%残差\% (Residual)，记为 $e_i$ 。

因此，我们有：

(y_i - \bar{y}) = (\hat{y}_i - \bar{y}) + (y_i - \hat{y}_i)

为了量化整个数据集的总变异，我们使用离差的平方和。通过对上式两边平方并求和，我们可以得到一个在统计学中至关重要的恒等式（在满足\%普通最小二乘法\% (OLS) 的某些假设下成立）：

\sum_{i=1}^{n} (y_i - \bar{y})^2 = \sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2 + \sum_{i=1}^{n} (y_i - \hat{y}_i)^2

这个恒等式可以被写成：

TSS = ESS + RSS

这里的三个组成部分是：

总平方和 (Total Sum of Squares, TSS): $TSS = \sum_{i=1}^{n} (y_i - \bar{y})^2$

这代表了因变量 $Y$ 的总变异量。如果我们没有任何模型，预测 $Y$ 最好的方法就是使用其均值 $\bar{y}$ ，TSS衡量了使用均值进行预测所产生的总误差。

回归平方和 (Explained Sum of Squares, ESS): $ESS = \sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2$

这代表了能够被我们的回归模型所解释的变异部分。它衡量了模型预测值 $\hat{y}_i$ 相对于均值 $\bar{y}$ 的波动程度。一个好的模型会使得预测值 $\hat{y}_i$ 尽可能地分散，以捕捉 $y_i$ 的真实波动。

残差平方和 (Residual Sum of Squares, RSS): $RSS = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 = \sum_{i=1}^{n} e_i^2$

这代表了模型无法解释的变异部分，即\%误差\%。它是实际值与模型预测值之间差异的平方和。在\%OLS回归\%中，我们的目标就是最小化这个 RSS。

$R^2$ 的计算公式

基于上述变异分解，决定系数 $R^2$ 被定义为被解释的变异占总变异的比例。因此，其主要计算公式为：

R^2 = \frac{ESS}{TSS}

这个公式直观地表达了模型的解释能力。例如，如果 $R^2 = 0.85$ ，这意味着因变量总变异的85\%可以由模型中的自变量来解释。

利用恒等式 $TSS = ESS + RSS$ ，我们可以推导出另一个等价且更常用的计算公式：

R^2 = \frac{TSS - RSS}{TSS} = 1 - \frac{RSS}{TSS}

这个公式的含义是： $R^2$ 等于 $1$ 减去未被解释的变异（残差）所占的比例。当模型完美拟合数据时（所有残差 $e_i$ 均为0）， $RSS=0$ ，于是 $R^2 = 1$ 。当模型完全没有解释能力时（其表现不比直接使用均值更好）， $ESS=0$ ，于是 $R^2=0$ 。

与相关系数的关系

在\%简单线性回归\%（即只有一个自变量）的特殊情况下，决定系数 $R^2$ 等于\%因变量\% $Y$ 和\%自变量\% $X$ 之间\%皮尔逊相关系数\% ( $r$ ) 的平方。

R^2 = r^2

这建立了一个重要的联系：\%相关性\%衡量了两个变量之间线性关系的强度和方向，而 $R^2$ 则衡量了这种线性关系能够解释多大比例的方差。

$R^2$ 的局限性与调整后的 $R^2$

尽管 $R^2$ 非常有用，但它有一个显著的缺陷：在模型中增加新的自变量几乎总会使 $R^2$ 值提高（或至少保持不变），即使这个新变量与因变量毫无关系。这是因为，在最小化 $RSS$ 的过程中，模型可以给这个无关变量赋予一个非零的微小系数，从而“利用”其在样本中的随机波动来略微改善拟合，导致 $RSS$ 下降， $R^2$ 上升。这种现象可能会导致\%过拟合\% (Overfitting)，即模型对样本数据拟合得过好，但对新数据的\%预测能力\%很差。

为了解决这个问题，统计学家提出了调整后的决定系数 (Adjusted R-squared, $R_{adj}^2$ )。

$R_{adj}^2$ 在 $R^2$ 的基础上，对模型中自变量的数量进行了“惩罚”。其计算公式为：

R_{adj}^2 = 1 - \frac{(1-R^2)(n-1)}{n-k-1}

其中：

$n$ 是\%样本量\%。
$k$ 是模型中自变量的数量。

与 $R^2$ 不同， $R_{adj}^2$ 的性质如下：

当向模型中添加一个对解释因变量没有显著贡献的新变量时， $R_{adj}^2$ 很有可能会下降。
$R_{adj}^2$ 总是小于或等于 $R^2$ 。
$R_{adj}^2$ 甚至可能为负值。当模型的解释力非常差，甚至不如直接使用均值预测时，就会出现这种情况。

因此，在比较包含不同数量自变量的模型时（例如在进行\%模型选择\%时），使用 $R_{adj}^2$ 是一个比 $R^2$ 更为公平和可靠的准则。

使用注意事项

作为学习者，必须警惕对 $R^2$ 的滥用和误解：

高 $R^2$ 不等于“好模型”：一个高 $R^2$ 值仅表示模型对样本数据的拟合度好，但这并不意味着：

模型中的系数是无偏的或显著的（需要通过\%t检验\%和\%p值\%来判断）。
模型不存在其他问题，如\%异方差性\%、\%自相关\%或\%多重共线性\%。
自变量与因变量之间存在\%因果关系\%。\%相关不蕴含因果\%。

低 $R^2$ 不等于“坏模型”：在某些领域，如社会科学、心理学或金融学（特别是预测\%股票收益率\%），人类行为和市场的高度随机性导致变量之间的关系本身就很弱。在这些情况下，即使一个低 $R^2$ （例如0.10）的模型，也可能具有非常重要的理论意义和统计显著性。

$R^2$ 不可用于比较因变量不同的模型：例如，一个预测 $log(wage)$ 的模型得到的 $R^2$ 值，不能与一个预测 $wage$ 的模型得到的 $R^2$ 值直接比较，因为它们的总变异量（TSS）是不同的。

$R^2$ 与 F 检验的关系

在\%计量经济学\%的实证研究中， $R^2$ 常与\%F检验\%配合使用，以评估模型的整体显著性。F 统计量与 $R^2$ 之间存在直接的数学关系：

F = \frac{R^2 / k}{(1 - R^2) / (n - k - 1)}

其中 $k$ 为自变量个数， $n$ 为\%样本量\%。这一公式揭示了一个重要洞见：当 $R^2$ 较高且样本量足够大时，F 统计量往往显著，意味着模型中至少有一个自变量对因变量有解释力。反之，即使 $R^2$ 看起来可观，若样本量很小或自变量很多，F 检验仍可能不显著——这恰好呼应了 $R_{adj}^2$ 的设计初衷。因此，在实际的\%回归分析\%报告中，研究者通常同时汇报 $R^2$ 、 $R_{adj}^2$ 和 F 统计量的 p 值，三者共同构成对模型拟合质量的全面评估。

拓展：伪 $R^2$ 与非线性模型

$R^2$ 的定义依赖于 OLS 框架下的方差分解恒等式 $TSS = ESS + RSS$ ，这一恒等式在\%逻辑回归\%、\%泊松回归\%等非线性模型中不再成立。为此，统计学家提出了多种"伪 $R^2$ " (Pseudo $R^2$ ) 指标，如 McFadden $R^2$ 、Cox-Snell $R^2$ 和 Nagelkerke $R^2$ 。它们的取值虽也在 0 到 1 之间，但其解释与经典 $R^2$ 不同——例如 McFadden $R^2$ 在 0.2 到 0.4 之间即被视为"极好"的拟合。使用者需注意：伪 $R^2$ 之间不能直接比较，更不能将其等同于 OLS 中的 $R^2$ 来解读模型的"解释百分比"。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。

决定系数

决定系数 (Coefficient of Determination)

理论基础：变异的分解

R2 R^2 R2 的计算公式

与相关系数的关系

R2 R^2 R2 的局限性与调整后的R2 R^2 R2

使用注意事项

R2 R^2 R2 与 F 检验的关系

拓展：伪 R2 R^2 R2 与非线性模型

$R^2$ 的计算公式

$R^2$ 的局限性与调整后的 $R^2$

$R^2$ 与 F 检验的关系

拓展：伪 $R^2$ 与非线性模型