# 判定系数 (Coefficient of Determination)
判定系数 (Coefficient of Determination),通常用 $R^2$ (R-squared) 表示,是{{{回归分析}}}中用于评估{{{模型}}}拟合优度的核心{{{统计量}}}之一。它衡量的是{{{因变量}}}的总变异中,能够被一个或多个{{{自变量}}}解释的比例。简而言之,$R^2$ 回答了这样一个问题:“你的模型在多大程度上解释了结果的变化?”
$R^2$ 的取值范围通常在 0 到 1 之间。一个接近 1 的 $R^2$ 值表明模型能够解释因变量大部分的变异,拟合效果较好;而一个接近 0 的 $R^2$ 值则表明模型对因变量的变异几乎没有解释能力。
## $R^2$ 的计算与分解
要理解 $R^2$ 的本质,我们首先需要理解{{{方差分析}}} (ANOVA) 中的一个基本思想:总变异的分解。在回归模型中,因变量 $y$ 的总变异可以被分解为两部分:一部分是由回归模型解释的变异,另一部分是模型未能解释的残差变异。
我们定义以下三个核心概念:
1. 总平方和 (Total Sum of Squares, $SS_{tot}$) 它衡量了因变量观测值 $y_i$ 与其均值 $\bar{y}$ 之间的总离散程度,即数据的总变异。 $$ SS_{tot} = \sum_{i=1}^{n} (y_i - \bar{y})^2 $$ 其中,$y_i$ 是第 $i$ 个观测值,$\bar{y}$是所有观测值的平均值,$n$ 是{{{样本量}}}。
2. 残差平方和 (Residual Sum of Squares, $SS_{res}$) 它衡量了模型未能解释的变异部分,即观测值 $y_i$ 与模型{{{预测值}}} $\hat{y}_i$ 之间的差异(即{{{残差}}})的平方和。这也被称为“误差平方和”。 $$ SS_{res} = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 $$ 其中,$\hat{y}_i$ 是模型对第 $i$ 个观测值的预测值。
3. 回归平方和 (Regression Sum of Squares, $SS_{reg}$) 它衡量了模型能够解释的变异部分,即模型预测值 $\hat{y}_i$ 与因变量均值 $\bar{y}$ 之间差异的平方和。 $$ SS_{reg} = \sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2 $$
在标准的{{{普通最小二乘法}}} (OLS) 回归中,这三者之间存在一个重要的关系: $$ SS_{tot} = SS_{reg} + SS_{res} $$
基于这个分解,判定系数 $R^2$ 有两种等价的定义方式:
定义一: $R^2$ 是被模型解释的变异占总变异的比例。 $$ R^2 = \frac{SS_{reg}}{SS_{tot}} $$ 这个定义非常直观,直接体现了“解释比例”的含义。
定义二: $R^2$ 是 1 减去未被模型解释的变异占总变异的比例。 $$ R^2 = 1 - \frac{SS_{res}}{SS_{tot}} $$ 这是在统计软件和文献中最常见的计算公式。
## $R^2$ 的解释与特性
* 解释: $R^2$ 的值可以解释为百分比。例如,一个 $R^2=0.65$ 的模型意味着,因变量总变异的 65% 可以由模型中的自变量来解释,而剩下的 35% 则是由模型未包含的其他因素(即{{{残差}}})造成的。
* 与相关系数的关系: 在仅包含一个自变量的{{{简单线性回归}}}中,$R^2$ 等于因变量 $y$ 和自变量 $x$ 之间{{{Pearson相关系数}}} $r$ 的平方。 $$ R^2 = r^2 $$ 这揭示了 $R^2$ 作为变量间线性关系强度度量的基础。对于{{{多元线性回归}}},$R^2$ 是观测值 $y_i$ 和模型预测值 $\hat{y}_i$ 之间相关系数的平方。
* 非递减性: 在一个回归模型中,增加任何一个新的自变量,即使该变量与因变量完全无关,$R^2$ 的值也绝不会下降,通常会略有上升。这是因为模型在拟合数据时,总能从新增的变量中找到一些纯粹由抽样机会带来的微弱关系,从而使 $SS_{res}$ 略微减小。这一特性是 $R^2$ 的一个重要局限。
## $R^2$ 的局限性
虽然 $R^2$ 是一个非常有用的指标,但过度依赖它来评判模型好坏是危险的。学习者必须了解其主要局限性:
1. $R^2$ 无法判断因果关系: 高 $R^2$ 值仅表明自变量与因变量之间存在强烈的{{{相关性}}},但不能证明两者之间存在{{{因果关系}}}。
2. $R^2$ 会因滥加变量而虚高: 如上所述,向模型中添加更多自变量(即使是无关变量)几乎总能提高 $R^2$,这可能导致{{{过拟合}}} (Overfitting)。一个过拟合的模型在用于训练的样本数据上表现优异,但在预测新数据时表现很差。
3. $R^2$ 无法判断模型是否恰当: 一个高 $R^2$ 的模型也可能是错误的模型。例如,如果数据存在明显的非线性关系,但你使用了线性模型,即使 $R^2$ 较高,该模型仍然是错误的。检查{{{残差图}}}等{{{模型诊断}}}工具是判断模型恰当性的必要步骤。
4. 不存在绝对的“好”或“坏”的 $R^2$ 标准: 在物理学或工程学等精确科学中,人们期望 $R^2$ 接近 0.95 或更高。但在社会科学、心理学或金融学等领域,由于人类行为的复杂性和内在的随机性,一个 $R^2$ 为 0.3 的模型可能已经非常有价值。
## 调整后的判定系数 (Adjusted R-squared)
为了解决 $R^2$ 因增加自变量而只增不减的问题,统计学家提出了调整后的判定系数 ($\text{Adjusted } R^2$)。它在 $R^2$ 的基础上,对模型中自变量的数量和样本量进行了“惩罚”。
其计算公式为: $$ \text{Adjusted } R^2 = 1 - \frac{(1-R^2)(n-1)}{n-p-1} $$ 其中: * $n$ 是{{{样本量}}}。 * $p$ 是模型中自变量的数量(不包括截距项)。 * $n-p-1$ 是残差的{{{自由度}}}。
Adjusted R-squared 的特性: * 惩罚机制: 当向模型中添加一个对解释因变量没有显著贡献的新变量时,Adjusted $R^2$ 通常会下降,因为它对增加的 $p$ 进行了惩罚。 * 模型比较: 当比较含有不同数量自变量的多个模型时,Adjusted $R^2$ 是一个比 $R^2$ 更公平、更可靠的指标。我们通常倾向于选择具有更高 Adjusted $R^2$ 的模型。 * 取值: Adjusted $R^2$ 总是小于或等于 $R^2$。它甚至可能为负值,这通常发生在模型拟合效果极差,比仅使用均值进行预测还要糟糕的情况下。
## 总结
判定系数 ($R^2$) 是一个衡量模型解释力的基础工具,它告诉我们因变量的变异有多大比例可以被模型解释。然而,它并不是一个完美的指标。由于其“非递减性”的缺陷,它可能会误导研究者建立过于复杂的模型。
因此,在实践中,我们应当: 1. 优先使用 Adjusted $R^2$ 来比较不同复杂度的模型。 2. 将 $R^2$ 或 Adjusted $R^2$ 与其他模型诊断工具(如系数的{{{p-value}}}、F检验、残差图等)结合使用,进行全面的模型评估。 3. 始终根据研究领域的背景和理论来解释 $R^2$ 的大小,而不是依赖于某个固定的阈值。