ARTICLE
判定系数
判定系数 (Coefficient of Determination) 判定系数(Coefficient of Determination),通常用 R^2(R-squared)表示,是回归分析中用于评估模型拟合优度的核心统计量之一。它衡量的是因变量的总变异中,能够被一个或多个自变量解释的比例。简而言之,R^2 回答了这样一个问题:"你的模型在多大程度上解释
判定系数 (Coefficient of Determination)
判定系数(Coefficient of Determination),通常用 (R-squared)表示,是回归分析中用于评估模型拟合优度的核心统计量之一。它衡量的是因变量的总变异中,能够被一个或多个自变量解释的比例。简而言之, 回答了这样一个问题:"你的模型在多大程度上解释了结果的变化?"
的取值范围通常在 0 到 1 之间。一个接近 1 的 值表明模型能够解释因变量大部分的变异,拟合效果较好;而一个接近 0 的 值则表明模型对因变量的变异几乎没有解释能力。
的计算与分解
要理解 的本质,我们首先需要理解方差分析(ANOVA)中的一个基本思想:总变异的分解。在回归模型中,因变量 的总变异可以被分解为两部分:一部分是由回归模型解释的变异,另一部分是模型未能解释的残差变异。
我们定义以下三个核心概念:
- 总平方和(Total Sum of Squares, ) 它衡量了因变量观测值 与其均值 之间的总离散程度,即数据的总变异。 \[ SS_{tot} = \sum_{i=1}^{n} (y_i - \bar{y})^2 \] 其中, 是第 个观测值, 是所有观测值的平均值, 是样本量。
- 残差平方和(Residual Sum of Squares, ) 它衡量了模型未能解释的变异部分,即观测值 与模型预测值 之间的差异(即残差)的平方和。这也被称为"误差平方和"。 \[ SS_{res} = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 \] 其中, 是模型对第 个观测值的预测值。
- 回归平方和(Regression Sum of Squares, ) 它衡量了模型能够解释的变异部分,即模型预测值 与因变量均值 之间差异的平方和。 \[ SS_{reg} = \sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2 \]
在标准的普通最小二乘法(OLS)回归中,这三者之间存在一个重要的关系:
基于这个分解,判定系数 有两种等价的定义方式:
定义一: 是被模型解释的变异占总变异的比例。
这个定义非常直观,直接体现了"解释比例"的含义。
定义二: 是 1 减去未被模型解释的变异占总变异的比例。
这是在统计软件和文献中最常见的计算公式。
的解释与特性
- 解释: 的值可以解释为百分比。例如,一个 的模型意味着,因变量总变异的 65\% 可以由模型中的自变量来解释,而剩下的 35\% 则是由模型未包含的其他因素(即残差)造成的。
- 与相关系数的关系: 在仅包含一个自变量的简单线性回归中, 等于因变量 和自变量 之间Pearson相关系数 的平方。 \[ R^2 = r^2 \] 这揭示了 作为变量间线性关系强度度量的基础。对于多元线性回归, 是观测值 和模型预测值 之间相关系数的平方。
- 非递减性: 在一个回归模型中,增加任何一个新的自变量,即使该变量与因变量完全无关, 的值也绝不会下降,通常会略有上升。这是因为模型在拟合数据时,总能从新增的变量中找到一些纯粹由抽样机会带来的微弱关系,从而使 略微减小。这一特性是 的一个重要局限。
的局限性
虽然 是一个非常有用的指标,但过度依赖它来评判模型好坏是危险的。学习者必须了解其主要局限性:
- 无法判断因果关系: 高 值仅表明自变量与因变量之间存在强烈的相关性,但不能证明两者之间存在因果关系。
- 会因滥加变量而虚高: 如上所述,向模型中添加更多自变量(即使是无关变量)几乎总能提高 ,这可能导致过拟合(Overfitting)。一个过拟合的模型在用于训练的样本数据上表现优异,但在预测新数据时表现很差。
- 无法判断模型是否恰当: 一个高 的模型也可能是错误的模型。例如,如果数据存在明显的非线性关系,但你使用了线性模型,即使 较高,该模型仍然是错误的。检查残差图等模型诊断工具是判断模型恰当性的必要步骤。
- 不存在绝对的"好"或"坏"的 标准: 在物理学或工程学等精确科学中,人们期望 接近 0.95 或更高。但在社会科学、心理学或金融学等领域,由于人类行为的复杂性和内在的随机性,一个 为 0.3 的模型可能已经非常有价值。
调整后的判定系数(Adjusted R-squared)
为了解决 因增加自变量而只增不减的问题,统计学家提出了调整后的判定系数()。它在 的基础上,对模型中自变量的数量和样本量进行了"惩罚"。
其计算公式为:
其中:
Adjusted R-squared 的特性:
- 惩罚机制: 当向模型中添加一个对解释因变量没有显著贡献的新变量时,Adjusted 通常会下降,因为它对增加的 进行了惩罚。
- 模型比较: 当比较含有不同数量自变量的多个模型时,Adjusted 是一个比 更公平、更可靠的指标。我们通常倾向于选择具有更高 Adjusted 的模型。
- 取值: Adjusted 总是小于或等于 。它甚至可能为负值,这通常发生在模型拟合效果极差,比仅使用均值进行预测还要糟糕的情况下。
总结
判定系数()是一个衡量模型解释力的基础工具,它告诉我们因变量的变异有多大比例可以被模型解释。然而,它并不是一个完美的指标。由于其"非递减性"的缺陷,它可能会误导研究者建立过于复杂的模型。
因此,在实践中,我们应当:
- 优先使用 Adjusted 来比较不同复杂度的模型。
- 将 或 Adjusted 与其他模型诊断工具(如系数的p-value、F检验、残差图等)结合使用,进行全面的模型评估。
- 始终根据研究领域的背景和理论来解释 的大小,而不是依赖于某个固定的阈值。