ARTICLE

判定系数

判定系数 (Coefficient of Determination) 判定系数(Coefficient of Determination),通常用 R^2(R-squared)表示,是回归分析中用于评估模型拟合优度的核心统计量之一。它衡量的是因变量的总变异中,能够被一个或多个自变量解释的比例。简而言之,R^2 回答了这样一个问题:"你的模型在多大程度上解释

浏览 59 更新 2025-10-23

判定系数 (Coefficient of Determination)

判定系数(Coefficient of Determination),通常用 R2R^2(R-squared)表示,是回归分析中用于评估模型拟合优度的核心统计量之一。它衡量的是因变量的总变异中,能够被一个或多个自变量解释的比例。简而言之,R2R^2 回答了这样一个问题:"你的模型在多大程度上解释了结果的变化?"

R2R^2 的取值范围通常在 0 到 1 之间。一个接近 1 的 R2R^2 值表明模型能够解释因变量大部分的变异,拟合效果较好;而一个接近 0 的 R2R^2 值则表明模型对因变量的变异几乎没有解释能力。

R2R^2 的计算与分解

要理解 R2R^2 的本质,我们首先需要理解方差分析(ANOVA)中的一个基本思想:总变异的分解。在回归模型中,因变量 yy 的总变异可以被分解为两部分:一部分是由回归模型解释的变异,另一部分是模型未能解释的残差变异。

我们定义以下三个核心概念:

  1. 总平方和(Total Sum of Squares, SStotSS_{tot} 它衡量了因变量观测值 yiy_i 与其均值 yˉ\bar{y} 之间的总离散程度,即数据的总变异。 \[ SS_{tot} = \sum_{i=1}^{n} (y_i - \bar{y})^2 \] 其中,yiy_i 是第 ii 个观测值,yˉ\bar{y} 是所有观测值的平均值,nn样本量
  2. 残差平方和(Residual Sum of Squares, SSresSS_{res} 它衡量了模型未能解释的变异部分,即观测值 yiy_i 与模型预测值 y^i\hat{y}_i 之间的差异(即残差)的平方和。这也被称为"误差平方和"。 \[ SS_{res} = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 \] 其中,y^i\hat{y}_i 是模型对第 ii 个观测值的预测值。
  3. 回归平方和(Regression Sum of Squares, SSregSS_{reg} 它衡量了模型能够解释的变异部分,即模型预测值 y^i\hat{y}_i 与因变量均值 yˉ\bar{y} 之间差异的平方和。 \[ SS_{reg} = \sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2 \]

在标准的普通最小二乘法(OLS)回归中,这三者之间存在一个重要的关系:

SStot=SSreg+SSresSS_{tot} = SS_{reg} + SS_{res}

基于这个分解,判定系数 R2R^2 有两种等价的定义方式:

定义一: R2R^2 是被模型解释的变异占总变异的比例。

R2=SSregSStotR^2 = \frac{SS_{reg}}{SS_{tot}}

这个定义非常直观,直接体现了"解释比例"的含义。

定义二: R2R^2 是 1 减去未被模型解释的变异占总变异的比例。

R2=1SSresSStotR^2 = 1 - \frac{SS_{res}}{SS_{tot}}

这是在统计软件和文献中最常见的计算公式。

R2R^2 的解释与特性

  • 解释: R2R^2 的值可以解释为百分比。例如,一个 R2=0.65R^2=0.65 的模型意味着,因变量总变异的 65\% 可以由模型中的自变量来解释,而剩下的 35\% 则是由模型未包含的其他因素(即残差)造成的。
  • 与相关系数的关系: 在仅包含一个自变量的简单线性回归中,R2R^2 等于因变量 yy 和自变量 xx 之间Pearson相关系数 rr 的平方。 \[ R^2 = r^2 \] 这揭示了 R2R^2 作为变量间线性关系强度度量的基础。对于多元线性回归R2R^2 是观测值 yiy_i 和模型预测值 y^i\hat{y}_i 之间相关系数的平方。
  • 非递减性: 在一个回归模型中,增加任何一个新的自变量,即使该变量与因变量完全无关,R2R^2 的值也绝不会下降,通常会略有上升。这是因为模型在拟合数据时,总能从新增的变量中找到一些纯粹由抽样机会带来的微弱关系,从而使 SSresSS_{res} 略微减小。这一特性是 R2R^2 的一个重要局限。

R2R^2 的局限性

虽然 R2R^2 是一个非常有用的指标,但过度依赖它来评判模型好坏是危险的。学习者必须了解其主要局限性:

  1. R2R^2 无法判断因果关系:R2R^2 值仅表明自变量与因变量之间存在强烈的相关性,但不能证明两者之间存在因果关系
  2. R2R^2 会因滥加变量而虚高: 如上所述,向模型中添加更多自变量(即使是无关变量)几乎总能提高 R2R^2,这可能导致过拟合(Overfitting)。一个过拟合的模型在用于训练的样本数据上表现优异,但在预测新数据时表现很差。
  3. R2R^2 无法判断模型是否恰当: 一个高 R2R^2 的模型也可能是错误的模型。例如,如果数据存在明显的非线性关系,但你使用了线性模型,即使 R2R^2 较高,该模型仍然是错误的。检查残差图模型诊断工具是判断模型恰当性的必要步骤。
  4. 不存在绝对的"好"或"坏"的 R2R^2 标准: 在物理学或工程学等精确科学中,人们期望 R2R^2 接近 0.95 或更高。但在社会科学、心理学或金融学等领域,由于人类行为的复杂性和内在的随机性,一个 R2R^2 为 0.3 的模型可能已经非常有价值。

调整后的判定系数(Adjusted R-squared)

为了解决 R2R^2 因增加自变量而只增不减的问题,统计学家提出了调整后的判定系数Adjusted R2\text{Adjusted } R^2)。它在 R2R^2 的基础上,对模型中自变量的数量和样本量进行了"惩罚"。

其计算公式为:

Adjusted R2=1(1R2)(n1)np1\text{Adjusted } R^2 = 1 - \frac{(1-R^2)(n-1)}{n-p-1}

其中:

  • nn样本量
  • pp 是模型中自变量的数量(不包括截距项)。
  • np1n-p-1 是残差的自由度

Adjusted R-squared 的特性:

  • 惩罚机制: 当向模型中添加一个对解释因变量没有显著贡献的新变量时,Adjusted R2R^2 通常会下降,因为它对增加的 pp 进行了惩罚。
  • 模型比较: 当比较含有不同数量自变量的多个模型时,Adjusted R2R^2 是一个比 R2R^2 更公平、更可靠的指标。我们通常倾向于选择具有更高 Adjusted R2R^2 的模型。
  • 取值: Adjusted R2R^2 总是小于或等于 R2R^2。它甚至可能为负值,这通常发生在模型拟合效果极差,比仅使用均值进行预测还要糟糕的情况下。

总结

判定系数(R2R^2是一个衡量模型解释力的基础工具,它告诉我们因变量的变异有多大比例可以被模型解释。然而,它并不是一个完美的指标。由于其"非递减性"的缺陷,它可能会误导研究者建立过于复杂的模型。

因此,在实践中,我们应当:

  1. 优先使用 Adjusted R2R^2 来比较不同复杂度的模型。
  2. R2R^2 或 Adjusted R2R^2 与其他模型诊断工具(如系数的p-value、F检验、残差图等)结合使用,进行全面的模型评估。
  3. 始终根据研究领域的背景和理论来解释 R2R^2 的大小,而不是依赖于某个固定的阈值。