ARTICLE

可决系数

可决系数 (Coefficient of Determination) 可决系数 (Coefficient of Determination),在统计学中通常用 R^2 (R-squared) 表示,是回归分析中用于衡量模型"拟合优度" (Goodness of Fit) 的一个关键指标。它量化了因变量 (Dependent Variable) 的总变异中,

浏览 47 更新 2025-10-26

可决系数 (Coefficient of Determination)

可决系数 (Coefficient of Determination),在统计学中通常用 R2 R^2 (R-squared) 表示,是回归分析中用于衡量模型"拟合优度" (Goodness of Fit) 的一个关键指标。它量化了因变量 (Dependent Variable) 的总变异中,能够被模型中的自变量 (Independent Variable(s)) 所解释的部分所占的百分比。简而言之,R2 R^2 回答了这样一个问题:"你的模型在多大程度上解释了数据的变异性?"

可决系数的值域通常在 0 到 1 之间。一个接近 1 的 R2 R^2 值表明模型能够解释大部分因变量的变异,拟合效果较好。相反,一个接近 0 的 R2 R^2 值则表明模型对因变量的变异几乎没有解释力。

核心概念与计算

要深刻理解可决系数,必须首先掌握构成其计算基础的三个核心"平方和"概念。这些概念分解了因变量 y y 的总变异。

假设我们有一个数据集,包含 n n 个观测值 (xi,yi) (x_i, y_i) ,其中 yi y_i 是观测值,yˉ \bar{y} 是所有 yi y_i 样本均值,而 y^i \hat{y}_i 是由回归模型yi y_i 预测值

  1. 总平方和 (Total Sum of Squares, SST)
SST=i=1n(yiyˉ)2SST = \sum_{i=1}^{n} (y_i - \bar{y})^2

SST 代表了因变量 y y 的总变异量。它衡量的是各个观测值 yi y_i 与其均值 yˉ \bar{y} 之间的离散程度。在没有回归模型的情况下,对任何 yi y_i 最朴素的预测就是其均值 yˉ \bar{y} ,那么 SST 就代表了使用这种朴素预测方式所产生的总误差的平方和。

  1. 回归平方和 (Regression Sum of Squares, SSR)
SSR=i=1n(y^iyˉ)2SSR = \sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2

SSR,有时也称为已解释平方和 (Explained Sum of Squares, ESS),代表了能够被回归模型解释的那部分变异。它衡量的是模型的预测值 y^i \hat{y}_i 与因变量均值 yˉ \bar{y} 之间的差异。如果模型的预测值普遍远离均值(并趋近于真实观测值),说明模型捕捉到了数据中的显著结构,因此其解释能力强。

  1. 残差平方和 (Residual Sum of Squares, RSS)
RSS=i=1n(yiy^i)2RSS = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2

RSS,也常被称为误差平方和 (Sum of Squared Errors, SSE),代表了模型无法解释的那部分变异。它是个体观测值 yi y_i 与模型预测值 y^i \hat{y}_i 之间差(即残差)的平方和。RSS 越小,说明模型的预测越接近真实值,拟合得越好。

这三个平方和之间存在一个至关重要的恒等关系:

SST=SSR+RSSSST = SSR + RSS

总变异 = 已解释变异 + 未解释变异

基于此关系,可决系数 R2 R^2 的定义就非常直观了。它是已解释变异占总变异的比例:

R2=SSRSST=i=1n(y^iyˉ)2i=1n(yiyˉ)2R^2 = \frac{SSR}{SST} = \frac{\sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2}

或者,我们也可以通过未解释变异的比例来定义它,这种形式在计算上更常见:

R2=1RSSSST=1i=1n(yiy^i)2i=1n(yiyˉ)2R^2 = 1 - \frac{RSS}{SST} = 1 - \frac{\sum_{i=1}^{n} (y_i - \hat{y}_i)^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2}

如何解读 R2 R^2

R2 R^2 的值总是在 0 和 1 之间(在某些特殊情况下可能为负,但这通常表示模型选择错误),并且通常被解读为一个百分比。

  • R2=0 R^2 = 0 : 表明模型完全没有解释力。自变量无法解释因变量的任何变异。在这种情况下,模型的预测(y^i \hat{y}_i )并不比直接使用因变量的均值(yˉ \bar{y} )进行预测更好。
  • R2=1 R^2 = 1 : 表明模型完美地解释了因变量的变异。所有的数据点都精确地落在回归线上,残差平方和为零。这在处理现实世界的社会或经济数据时几乎不可能发生。
  • R2=0.65 R^2 = 0.65 : 表明因变量总变异的 65\% 可以由模型中的自变量来解释。剩下的 35\% 则是由模型未包含的其他因素(随机性或未观测的变量)所引起的。

示例:假设一个分析师构建了一个模型,用公司的广告支出(自变量)来预测其销售额(因变量)。如果模型的 R2 R^2 为 0.72,这意味着销售额变动的 72\% 可以归因于广告支出的变动。其余 28\% 的销售额变动则可能受到市场竞争、消费者偏好、宏观经济状况等其他因素的影响。

重要限制与调整后可决系数

尽管 R2 R^2 是一个非常有用的指标,但它存在一个显著的缺陷:在模型中增加任何新的自变量,即使该变量与因变量毫无关系,R2 R^2 的值也几乎总会上升(或至少保持不变),绝不会下降。这可能导致研究者为了追求更高的 R2 R^2 而向模型中添加不相关的变量,造成过度拟合 (Overfitting)。此外,R2 R^2 的大小还受到数据本身的变异性、测量误差以及样本量的影响。在时间序列数据中,由于存在趋势和自相关,R2 R^2 往往容易偏高,因此解读时需要格外谨慎,不宜简单地将高 R2 R^2 等同于模型质量优秀。

为了解决上述问题,统计学家提出了调整后可决系数 (Adjusted R-squared),记为 Radj2 R_{adj}^2 Rˉ2 \bar{R}^2

调整后可决系数 (Adjusted R-squared)

调整后可决系数在 R2 R^2 的基础上,考虑了模型中自变量的数量和样本量的大小,对加入无关变量的模型施加了"惩罚"。

其计算公式为:

Radj2=1(1R2)(n1)nk1R_{adj}^2 = 1 - \frac{(1-R^2)(n-1)}{n-k-1}

其中:

  • n n 样本量 (Sample Size)。
  • k k 是模型中自变量的个数。

R2 R^2 不同,当向模型中添加一个对因变量解释力很小的新变量时,Radj2 R_{adj}^2 的值可能会下降。因此,在比较包含不同数量自变量的多个模型时,调整后可决系数是一个更公平、更可靠的评价指标。如果一个新加入的变量使得 Radj2 R_{adj}^2 提高,这说明该变量对模型的贡献超过了其增加模型复杂性所带来的"惩罚"。

与相关系数及 F 检验的关系

简单线性回归 (Simple Linear Regression)(即只有一个自变量)的特殊情况下,可决系数 R2 R^2 等于皮尔逊相关系数 (Pearson Correlation Coefficient) r r 的平方。

R2=r2R^2 = r^2

例如,如果变量 X X Y Y 之间的相关系数 r=0.8 r = 0.8 r=0.8 r = -0.8 ,那么使用 X X 预测 Y Y 的简单线性回归模型的 R2 R^2 将是 0.82=0.64 0.8^2 = 0.64 。这清楚地表明,R2 R^2 只衡量解释力的强度,而不反映关系的方向(正相关或负相关),因为它是相关系数的平方,总是非负的。对于多元回归分析 (Multiple Regression Analysis),这种直接的平方关系不再成立,但 R2 R^2 仍然可以被看作是因变量观测值 yi y_i 与模型预测值 y^i \hat{y}_i 之间相关系数的平方。

此外,R2 R^2 与回归模型的F 检验有着紧密的联系。在多元线性回归中,用于检验模型整体显著性的 F 统计量可以表示为:

F=R2/k(1R2)/(nk1)F = \frac{R^2 / k}{(1 - R^2) / (n - k - 1)}

其中 k k 为自变量个数。该公式揭示了 R2 R^2 越大,F 统计量也越大,模型整体的统计显著性就越强。因此,R2 R^2 不仅是描述拟合优度的指标,也与模型的统计推断直接挂钩。在实际应用中,研究者通常会同时报告 R2 R^2 和 F 检验结果,以全面评估模型的解释力和统计可靠性。