ARTICLE

可决系数

可决系数 (Coefficient of Determination) 可决系数 (Coefficient of Determination)，在统计学中通常用公式 (R-squared) 表示，是回归分析中用于衡量模型"拟合优度" (Goodness of Fit) 的一个关键指标。它量化了因变量 (Dependent Variable) 的总变异中，能

浏览 47 更新 2025-10-26

可决系数 (Coefficient of Determination)

可决系数 (Coefficient of Determination)，在统计学中通常用 $R^2$ (R-squared) 表示，是回归分析中用于衡量模型"拟合优度" (Goodness of Fit) 的一个关键指标。它量化了因变量 (Dependent Variable) 的总变异中，能够被模型中的自变量 (Independent Variable(s)) 所解释的部分所占的百分比。简而言之， $R^2$ 回答了这样一个问题："你的模型在多大程度上解释了数据的变异性？"

可决系数的值域通常在 0 到 1 之间。一个接近 1 的 $R^2$ 值表明模型能够解释大部分因变量的变异，拟合效果较好。相反，一个接近 0 的 $R^2$ 值则表明模型对因变量的变异几乎没有解释力。

核心概念与计算

要深刻理解可决系数，必须首先掌握构成其计算基础的三个核心"平方和"概念。这些概念分解了因变量 $y$ 的总变异。

假设我们有一个数据集，包含 $n$ 个观测值 $(x_i, y_i)$ ，其中 $y_i$ 是观测值， $\bar{y}$ 是所有 $y_i$ 的样本均值，而 $\hat{y}_i$ 是由回归模型对 $y_i$ 的预测值。

总平方和 (Total Sum of Squares, SST)

SST = \sum_{i=1}^{n} (y_i - \bar{y})^2

SST 代表了因变量 $y$ 的总变异量。它衡量的是各个观测值 $y_i$ 与其均值 $\bar{y}$ 之间的离散程度。在没有回归模型的情况下，对任何 $y_i$ 最朴素的预测就是其均值 $\bar{y}$ ，那么 SST 就代表了使用这种朴素预测方式所产生的总误差的平方和。

回归平方和 (Regression Sum of Squares, SSR)

SSR = \sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2

SSR，有时也称为已解释平方和 (Explained Sum of Squares, ESS)，代表了能够被回归模型解释的那部分变异。它衡量的是模型的预测值 $\hat{y}_i$ 与因变量均值 $\bar{y}$ 之间的差异。如果模型的预测值普遍远离均值（并趋近于真实观测值），说明模型捕捉到了数据中的显著结构，因此其解释能力强。

残差平方和 (Residual Sum of Squares, RSS)

RSS = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2

RSS，也常被称为误差平方和 (Sum of Squared Errors, SSE)，代表了模型无法解释的那部分变异。它是个体观测值 $y_i$ 与模型预测值 $\hat{y}_i$ 之间差（即残差）的平方和。RSS 越小，说明模型的预测越接近真实值，拟合得越好。

这三个平方和之间存在一个至关重要的恒等关系：

SST = SSR + RSS

总变异 = 已解释变异 + 未解释变异

基于此关系，可决系数 $R^2$ 的定义就非常直观了。它是已解释变异占总变异的比例：

R^2 = \frac{SSR}{SST} = \frac{\sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2}

或者，我们也可以通过未解释变异的比例来定义它，这种形式在计算上更常见：

R^2 = 1 - \frac{RSS}{SST} = 1 - \frac{\sum_{i=1}^{n} (y_i - \hat{y}_i)^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2}

如何解读 $R^2$

$R^2$ 的值总是在 0 和 1 之间（在某些特殊情况下可能为负，但这通常表示模型选择错误），并且通常被解读为一个百分比。

$R^2 = 0$ : 表明模型完全没有解释力。自变量无法解释因变量的任何变异。在这种情况下，模型的预测（ $\hat{y}_i$ ）并不比直接使用因变量的均值（ $\bar{y}$ ）进行预测更好。
$R^2 = 1$ : 表明模型完美地解释了因变量的变异。所有的数据点都精确地落在回归线上，残差平方和为零。这在处理现实世界的社会或经济数据时几乎不可能发生。
$R^2 = 0.65$ : 表明因变量总变异的 65\% 可以由模型中的自变量来解释。剩下的 35\% 则是由模型未包含的其他因素（随机性或未观测的变量）所引起的。

示例：假设一个分析师构建了一个模型，用公司的广告支出（自变量）来预测其销售额（因变量）。如果模型的 $R^2$ 为 0.72，这意味着销售额变动的 72\% 可以归因于广告支出的变动。其余 28\% 的销售额变动则可能受到市场竞争、消费者偏好、宏观经济状况等其他因素的影响。

重要限制与调整后可决系数

尽管 $R^2$ 是一个非常有用的指标，但它存在一个显著的缺陷：在模型中增加任何新的自变量，即使该变量与因变量毫无关系， $R^2$ 的值也几乎总会上升（或至少保持不变），绝不会下降。这可能导致研究者为了追求更高的 $R^2$ 而向模型中添加不相关的变量，造成过度拟合 (Overfitting)。此外， $R^2$ 的大小还受到数据本身的变异性、测量误差以及样本量的影响。在时间序列数据中，由于存在趋势和自相关， $R^2$ 往往容易偏高，因此解读时需要格外谨慎，不宜简单地将高 $R^2$ 等同于模型质量优秀。

为了解决上述问题，统计学家提出了调整后可决系数 (Adjusted R-squared)，记为 $R_{adj}^2$ 或 $\bar{R}^2$ 。

调整后可决系数 (Adjusted R-squared)

调整后可决系数在 $R^2$ 的基础上，考虑了模型中自变量的数量和样本量的大小，对加入无关变量的模型施加了"惩罚"。

其计算公式为：

R_{adj}^2 = 1 - \frac{(1-R^2)(n-1)}{n-k-1}

其中：

$n$ 是样本量 (Sample Size)。
$k$ 是模型中自变量的个数。

与 $R^2$ 不同，当向模型中添加一个对因变量解释力很小的新变量时， $R_{adj}^2$ 的值可能会下降。因此，在比较包含不同数量自变量的多个模型时，调整后可决系数是一个更公平、更可靠的评价指标。如果一个新加入的变量使得 $R_{adj}^2$ 提高，这说明该变量对模型的贡献超过了其增加模型复杂性所带来的"惩罚"。

与相关系数及 F 检验的关系

在简单线性回归 (Simple Linear Regression)（即只有一个自变量）的特殊情况下，可决系数 $R^2$ 等于皮尔逊相关系数 (Pearson Correlation Coefficient) $r$ 的平方。

R^2 = r^2

例如，如果变量 $X$ 和 $Y$ 之间的相关系数 $r = 0.8$ 或 $r = -0.8$ ，那么使用 $X$ 预测 $Y$ 的简单线性回归模型的 $R^2$ 将是 $0.8^2 = 0.64$ 。这清楚地表明， $R^2$ 只衡量解释力的强度，而不反映关系的方向（正相关或负相关），因为它是相关系数的平方，总是非负的。对于多元回归分析 (Multiple Regression Analysis)，这种直接的平方关系不再成立，但 $R^2$ 仍然可以被看作是因变量观测值 $y_i$ 与模型预测值 $\hat{y}_i$ 之间相关系数的平方。

此外， $R^2$ 与回归模型的F 检验有着紧密的联系。在多元线性回归中，用于检验模型整体显著性的 F 统计量可以表示为：

F = \frac{R^2 / k}{(1 - R^2) / (n - k - 1)}

其中 $k$ 为自变量个数。该公式揭示了 $R^2$ 越大，F 统计量也越大，模型整体的统计显著性就越强。因此， $R^2$ 不仅是描述拟合优度的指标，也与模型的统计推断直接挂钩。在实际应用中，研究者通常会同时报告 $R^2$ 和 F 检验结果，以全面评估模型的解释力和统计可靠性。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。