知经 KNOWECON · 卓越的经济金融统计数学学习平台

R-squared

# R-squared (决定系数)

R-squared,也称为决定系数 (Coefficient of Determination),是{{{回归分析}}}中最常用的统计指标之一,用于衡量一个或多个{{{自变量}}}(解释变量)在多大程度上可以解释{{{因变量}}}(响应变量)的变异。简而言之,它表示模型“拟合”数据的优良程度。

R-squared的值介于0和1之间(即0%到100%),其数值大小表示因变量的{{{方差}}}中,能够被模型中自变量解释的百分比。一个较高的R-squared值通常意味着模型能更好地解释数据的变异。

## R-squared的计算与原理

要理解R-squared,首先需要了解回归分析中的三种“平方和”(Sum of Squares)。假设我们有一个数据集,包含 $n$ 个观测值,其中 $y_i$ 是第 $i$ 个因变量的实际观测值,$\bar{y}$ 是所有 $y_i$ 的平均值,而 $\hat{y}_i$ 是回归模型对第 $i$ 个因变量的预测值。

1. 总平方和 (Total Sum of Squares, SST):这是因变量本身的总变异量。它衡量的是数据点 $y_i$ 相对于其均值 $\bar{y}$ 的离散程度。如果没有任何模型,这便是我们需要解释的全部方差。 $$ SST = \sum_{i=1}^{n} (y_i - \bar{y})^2 $$

2. 残差平方和 (Sum of Squared Errors, SSE):这也称为剩余平方和 (Residual Sum of Squares, RSS)。它代表了模型未能解释的变异部分,即实际值 $y_i$ 与模型预测值 $\hat{y}_i$ 之间的差异(即{{{残差}}}) 的平方和。这是模型的“误差”部分。一个好的模型应该使SSE尽可能小。 $$ SSE = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 $$

3. 回归平方和 (Sum of Squares due to Regression, SSR):这也称为解释平方和 (Explained Sum of Squares, ESS)。它代表了模型能够解释的变异部分,即模型预测值 $\hat{y}_i$ 相对于因变量均值 $\bar{y}$ 的离散程度。 $$ SSR = \sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2 $$

这三者之间存在一个基本关系:总变异可以被分解为模型解释的变异和模型未解释的变异。 $$ SST = SSR + SSE $$

基于这个关系,R-squared被定义为模型解释的变异占总变异的比例: $$ R^2 = \frac{SSR}{SST} $$ 或者,等价地,R-squared也可以通过从1中减去未解释变异的比例来计算: $$ R^2 = 1 - \frac{SSE}{SST} $$ 这个公式更直观地显示了R-squared的含义:如果模型的误差(SSE)为零,则 $R^2 = 1$,表示模型完美解释了所有变异;如果模型完全没有解释能力(SSR=0,因此SSE=SST),则 $R^2 = 0$。

注意:在不同的教科书或软件中,SSR和SSE的缩写可能会互换(即SSR表示残差平方和,SSE表示解释平方和)。学习者应注意其定义,而非仅仅依赖缩写。本文采用SSR代表回归平方和,SSE代表残差平方和的惯例。

## 如何解读R-squared

R-squared的解读非常直观: * $R^2 = 0$: 模型无法解释因变量的任何变异。这意味着自变量与因变量之间没有线性关系。 * $R^2 = 0.75$: 模型可以解释因变量75%的变异。剩下的25%是由模型未包含的其他因素(即残差)引起的。 * $R^2 = 1$: 模型完美地解释了因变量的所有变异。所有数据点都精确地落在{{{回归线}}}上。

在{{{简单线性回归}}}中,即只有一个自变量的情况下,R-squared等于因变量 $y$ 和自变量 $x$ 之间{{{皮尔逊相关系数}}} (Pearson correlation coefficient, $r$) 的平方。 $$ R^2 = r^2 $$

## R-squared的局限性

虽然R-squared是一个非常有用的{{{拟合优度}}} (Goodness-of-fit) 指标,但它有几个重要的局限性,如果不加以注意,可能会导致错误的结论。

1. R-squared会随着自变量数量的增加而增加:在一个{{{多元线性回归}}}模型中,每增加一个新的自变量,即使这个变量与因变量毫无关系,R-squared的值也几乎总是会增加,绝不会减少。这是因为增加一个变量为模型提供了额外的“自由度”来拟合数据,从而可能减少残差平方和SSE,即使这种减少是由于随机机会。这会导致研究者为了追求更高的R-squared而盲目增加无关变量,造成{{{过拟合}}} (Overfitting)。

2. 高R-squared不等于模型就是好的: * 因果关系:R-squared衡量的是相关性,而非{{{因果关系}}} (Causality)。一个很高的R-squared值可能仅仅反映了两个变量之间的伪关系。 * 模型设定偏误:即使R-squared很高,模型也可能存在严重的设定问题,如{{{遗漏变量偏误}}} (Omitted Variable Bias) 或错误的函数形式(例如,真实关系是非线性的,但模型使用了线性关系)。 * 数据特性:在某些领域(如物理学、化学),$R^2$ 值通常非常高(>0.95),因为测量误差小且关系明确。而在社会科学、金融学等领域,由于人类行为的复杂性和随机性,一个“好”的$R^2$值可能只有0.3或更低。因此,R-squared的“好坏”必须在特定学科背景下进行评估。

## 调整后的R-squared (Adjusted R-squared)

为了解决R-squared随自变量增加而增加的问题,统计学家提出了调整后的R-squared (Adjusted R-squared, $R^2_{adj}$)。Adjusted R-squared在计算中引入了对模型中自变量数量的“惩罚”。

其计算公式为: $$ R^2_{adj} = 1 - \frac{(1-R^2)(n-1)}{n-k-1} $$ 其中: * $n$ 是样本容量(观测值的数量)。 * $k$ 是模型中自变量的数量。 * $R^2$ 是原始的R-squared值。

分母中的 $n-k-1$ 是残差的{{{自由度}}}。当向模型中添加一个新的自变量时,$k$会增加,导致分母 $n-k-1$ 减小,从而对整个分数项 $(1-R^2)(n-1)/(n-k-1)$ 产生放大的效果,进而使得Adjusted R-squared变小。只有当新增的变量对模型的解释能力足够强(即它使 $1-R^2$ 的减小幅度超过了由 $k$ 增加带来的惩罚)时,Adjusted R-squared才会增加。

### Adjusted R-squared的特性:

* 值域:Adjusted R-squared总是小于或等于R-squared。它甚至可能为负数,这通常发生在模型极其糟糕,其拟合效果比仅使用均值进行预测还要差的情况下。 * 模型比较:Adjusted R-squared是在比较包含不同数量自变量的回归模型时一个更可靠的指标。在进行{{{模型选择}}}时,研究者通常倾向于选择具有更高Adjusted R-squared的模型,因为它在解释力和模型简约性之间取得了平衡。

## 总结:R-squared vs. Adjusted R-squared

| 特性 | R-squared | Adjusted R-squared | | --- | --- | --- | | 定义 | 模型解释的方差占总方差的比例。 | 对模型中自变量数量进行惩罚后,修正的R-squared。 | | 添加变量的影响| 只要添加新变量,它几乎总会增加,绝不会减少。 | 只有当新变量对模型的贡献足够大时才会增加。 | | 值域 | 0 到 1 | 小于或等于 R-squared,可能为负。 | | 主要用途 | 衡量单一模型的拟合优度。 | 在多个具有不同数量自变量的模型之间进行比较和选择。 |

在现代计量经济学和统计实践中,报告回归结果时通常会同时提供R-squared和Adjusted R-squared,后者在评估模型优劣时被认为更具参考价值。