ARTICLE
可决系数
可决系数 (Coefficient of Determination) 可决系数 (Coefficient of Determination),在统计学中通常用 R^2 (R-squared) 表示,是回归分析中用于衡量模型"拟合优度" (Goodness of Fit) 的一个关键指标。它量化了因变量 (Dependent Variable) 的总变异中,
可决系数 (Coefficient of Determination)
可决系数 (Coefficient of Determination),在统计学中通常用 (R-squared) 表示,是回归分析中用于衡量模型"拟合优度" (Goodness of Fit) 的一个关键指标。它量化了因变量 (Dependent Variable) 的总变异中,能够被模型中的自变量 (Independent Variable(s)) 所解释的部分所占的百分比。简而言之, 回答了这样一个问题:"你的模型在多大程度上解释了数据的变异性?"
可决系数的值域通常在 0 到 1 之间。一个接近 1 的 值表明模型能够解释大部分因变量的变异,拟合效果较好。相反,一个接近 0 的 值则表明模型对因变量的变异几乎没有解释力。
核心概念与计算
要深刻理解可决系数,必须首先掌握构成其计算基础的三个核心"平方和"概念。这些概念分解了因变量 的总变异。
假设我们有一个数据集,包含 个观测值 ,其中 是观测值, 是所有 的样本均值,而 是由回归模型对 的预测值。
- 总平方和 (Total Sum of Squares, SST)
SST 代表了因变量 的总变异量。它衡量的是各个观测值 与其均值 之间的离散程度。在没有回归模型的情况下,对任何 最朴素的预测就是其均值 ,那么 SST 就代表了使用这种朴素预测方式所产生的总误差的平方和。
- 回归平方和 (Regression Sum of Squares, SSR)
SSR,有时也称为已解释平方和 (Explained Sum of Squares, ESS),代表了能够被回归模型解释的那部分变异。它衡量的是模型的预测值 与因变量均值 之间的差异。如果模型的预测值普遍远离均值(并趋近于真实观测值),说明模型捕捉到了数据中的显著结构,因此其解释能力强。
- 残差平方和 (Residual Sum of Squares, RSS)
RSS,也常被称为误差平方和 (Sum of Squared Errors, SSE),代表了模型无法解释的那部分变异。它是个体观测值 与模型预测值 之间差(即残差)的平方和。RSS 越小,说明模型的预测越接近真实值,拟合得越好。
这三个平方和之间存在一个至关重要的恒等关系:
总变异 = 已解释变异 + 未解释变异
基于此关系,可决系数 的定义就非常直观了。它是已解释变异占总变异的比例:
或者,我们也可以通过未解释变异的比例来定义它,这种形式在计算上更常见:
如何解读
的值总是在 0 和 1 之间(在某些特殊情况下可能为负,但这通常表示模型选择错误),并且通常被解读为一个百分比。
- : 表明模型完全没有解释力。自变量无法解释因变量的任何变异。在这种情况下,模型的预测()并不比直接使用因变量的均值()进行预测更好。
- : 表明模型完美地解释了因变量的变异。所有的数据点都精确地落在回归线上,残差平方和为零。这在处理现实世界的社会或经济数据时几乎不可能发生。
- : 表明因变量总变异的 65\% 可以由模型中的自变量来解释。剩下的 35\% 则是由模型未包含的其他因素(随机性或未观测的变量)所引起的。
示例:假设一个分析师构建了一个模型,用公司的广告支出(自变量)来预测其销售额(因变量)。如果模型的 为 0.72,这意味着销售额变动的 72\% 可以归因于广告支出的变动。其余 28\% 的销售额变动则可能受到市场竞争、消费者偏好、宏观经济状况等其他因素的影响。
重要限制与调整后可决系数
尽管 是一个非常有用的指标,但它存在一个显著的缺陷:在模型中增加任何新的自变量,即使该变量与因变量毫无关系, 的值也几乎总会上升(或至少保持不变),绝不会下降。这可能导致研究者为了追求更高的 而向模型中添加不相关的变量,造成过度拟合 (Overfitting)。此外, 的大小还受到数据本身的变异性、测量误差以及样本量的影响。在时间序列数据中,由于存在趋势和自相关, 往往容易偏高,因此解读时需要格外谨慎,不宜简单地将高 等同于模型质量优秀。
为了解决上述问题,统计学家提出了调整后可决系数 (Adjusted R-squared),记为 或 。
调整后可决系数 (Adjusted R-squared)
调整后可决系数在 的基础上,考虑了模型中自变量的数量和样本量的大小,对加入无关变量的模型施加了"惩罚"。
其计算公式为:
其中:
- 是样本量 (Sample Size)。
- 是模型中自变量的个数。
与 不同,当向模型中添加一个对因变量解释力很小的新变量时, 的值可能会下降。因此,在比较包含不同数量自变量的多个模型时,调整后可决系数是一个更公平、更可靠的评价指标。如果一个新加入的变量使得 提高,这说明该变量对模型的贡献超过了其增加模型复杂性所带来的"惩罚"。
与相关系数及 F 检验的关系
在简单线性回归 (Simple Linear Regression)(即只有一个自变量)的特殊情况下,可决系数 等于皮尔逊相关系数 (Pearson Correlation Coefficient) 的平方。
例如,如果变量 和 之间的相关系数 或 ,那么使用 预测 的简单线性回归模型的 将是 。这清楚地表明, 只衡量解释力的强度,而不反映关系的方向(正相关或负相关),因为它是相关系数的平方,总是非负的。对于多元回归分析 (Multiple Regression Analysis),这种直接的平方关系不再成立,但 仍然可以被看作是因变量观测值 与模型预测值 之间相关系数的平方。
此外, 与回归模型的F 检验有着紧密的联系。在多元线性回归中,用于检验模型整体显著性的 F 统计量可以表示为:
其中 为自变量个数。该公式揭示了 越大,F 统计量也越大,模型整体的统计显著性就越强。因此, 不仅是描述拟合优度的指标,也与模型的统计推断直接挂钩。在实际应用中,研究者通常会同时报告 和 F 检验结果,以全面评估模型的解释力和统计可靠性。