ARTICLE

R-squared

R-squared (决定系数) R-squared,也称为决定系数(Coefficient of Determination),是回归分析中最常用的统计指标之一,用于衡量自变量在多大程度上可以解释因变量的变异。其值介于0和1之间,直观表示因变量的方差中能被模型解释的百分比。 计算原理 理解R-squared需掌握三种平方和。设 y_i 为实际观测值, y

浏览 67 更新 2025-10-26

R-squared (决定系数)

R-squared,也称为决定系数(Coefficient of Determination),是回归分析中最常用的统计指标之一,用于衡量自变量在多大程度上可以解释因变量的变异。其值介于0和1之间,直观表示因变量的方差中能被模型解释的百分比。

计算原理

理解R-squared需掌握三种平方和。设 yi y_i 为实际观测值,yˉ \bar{y} 为其均值,y^i \hat{y}_i 为模型预测值:

总平方和(SST):SST=i=1n(yiyˉ)2 SST = \sum_{i=1}^{n} (y_i - \bar{y})^2 ,即因变量的总变异。

残差平方和(SSE):SSE=i=1n(yiy^i)2 SSE = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 ,模型未能解释的变异,即残差平方和。

回归平方和(SSR):SSR=i=1n(y^iyˉ)2 SSR = \sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2 ,模型能够解释的变异。

三者满足恒等式 SST=SSR+SSE SST = SSR + SSE 。基于此,R-squared定义为解释变异占总变异的比例:

R2=SSRSST=1SSESSTR^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST}

若SSE为零,R2=1 R^2=1 ,模型完美拟合;若SSR为零,R2=0 R^2=0 ,模型无解释力。注意:不同教材中SSR和SSE的缩写可能互换,应关注其定义而非缩写。

简单线性回归中,R-squared等于因变量与自变量之间皮尔逊相关系数 r r 的平方:R2=r2 R^2 = r^2

解读与局限性

解读直观:R2=0.75 R^2=0.75 表示模型解释了75\%的变异,剩余25\%归因于残差。但R-squared有重要局限:

随变量数量单调递增:在多元线性回归中,每增加一个自变量,即使该变量与因变量无关,R-squared也几乎必然增加、绝不减少。这诱使研究者盲目堆砌变量,导致过拟合

R2 R^2 不等于好模型:R-squared衡量的是相关性而非因果关系;高R2 R^2 下仍可能存在遗漏变量偏误或错误函数形式(如真实关系非线性却用线性拟合)。此外,不同学科对"好"R2 R^2 的标准迥异——物理学中常超0.95,社会科学中0.3已可视为良好。

调整后的R-squared

为解决上述问题,统计学家提出调整后的R-squaredRadj2 R^2_{adj} ),对自变量数量施加惩罚:

Radj2=1(1R2)(n1)nk1R^2_{adj} = 1 - \frac{(1-R^2)(n-1)}{n-k-1}

其中 n n 为样本容量,k k 为自变量数量。分母 nk1 n-k-1 是残差的自由度。新增变量时k k 增大、分母减小,惩罚项放大;仅当新变量对模型的贡献足够大时Radj2 R^2_{adj} 才会上升。

Radj2 R^2_{adj} 总小于等于 R2 R^2 ,甚至可为负(模型极差时)。在模型选择中,Radj2 R^2_{adj} 比原始 R2 R^2 更可靠——它在解释力与模型简约性之间取得平衡,是研究者比较不同变量数模型的首选指标。

实践建议

现代计量经济学实践中,报告回归结果时通常同时提供 R2 R^2 Radj2 R^2_{adj} 。评估单一模型的拟合优度可参考 R2 R^2 ,但比较多个模型时 Radj2 R^2_{adj} 更具参考价值。关键在于:不要孤立地看 R2 R^2 数值,而应结合学科惯例、残差诊断和理论合理性综合判断。