ARTICLE

R-squared

R-squared (决定系数) R-squared，也称为决定系数（Coefficient of Determination），是回归分析中最常用的统计指标之一，用于衡量自变量在多大程度上可以解释因变量的变异。其值介于0和1之间，直观表示因变量的方差中能被模型解释的百分比。计算原理理解R-squared需掌握三种平方和。设 y_i 为实际观测值， y

浏览 67 更新 2025-10-26

R-squared (决定系数)

R-squared，也称为决定系数（Coefficient of Determination），是回归分析中最常用的统计指标之一，用于衡量自变量在多大程度上可以解释因变量的变异。其值介于0和1之间，直观表示因变量的方差中能被模型解释的百分比。

计算原理

理解R-squared需掌握三种平方和。设 $y_i$ 为实际观测值， $\bar{y}$ 为其均值， $\hat{y}_i$ 为模型预测值：

总平方和（SST）： $SST = \sum_{i=1}^{n} (y_i - \bar{y})^2$ ，即因变量的总变异。

残差平方和（SSE）： $SSE = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2$ ，模型未能解释的变异，即残差平方和。

回归平方和（SSR）： $SSR = \sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2$ ，模型能够解释的变异。

三者满足恒等式 $SST = SSR + SSE$ 。基于此，R-squared定义为解释变异占总变异的比例：

R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST}

若SSE为零， $R^2=1$ ，模型完美拟合；若SSR为零， $R^2=0$ ，模型无解释力。注意：不同教材中SSR和SSE的缩写可能互换，应关注其定义而非缩写。

在简单线性回归中，R-squared等于因变量与自变量之间皮尔逊相关系数 $r$ 的平方： $R^2 = r^2$ 。

解读与局限性

解读直观： $R^2=0.75$ 表示模型解释了75\%的变异，剩余25\%归因于残差。但R-squared有重要局限：

随变量数量单调递增：在多元线性回归中，每增加一个自变量，即使该变量与因变量无关，R-squared也几乎必然增加、绝不减少。这诱使研究者盲目堆砌变量，导致过拟合。

高 $R^2$ 不等于好模型：R-squared衡量的是相关性而非因果关系；高 $R^2$ 下仍可能存在遗漏变量偏误或错误函数形式（如真实关系非线性却用线性拟合）。此外，不同学科对"好" $R^2$ 的标准迥异——物理学中常超0.95，社会科学中0.3已可视为良好。

调整后的R-squared

为解决上述问题，统计学家提出调整后的R-squared（ $R^2_{adj}$ ），对自变量数量施加惩罚：

R^2_{adj} = 1 - \frac{(1-R^2)(n-1)}{n-k-1}

其中 $n$ 为样本容量， $k$ 为自变量数量。分母 $n-k-1$ 是残差的自由度。新增变量时 $k$ 增大、分母减小，惩罚项放大；仅当新变量对模型的贡献足够大时 $R^2_{adj}$ 才会上升。

$R^2_{adj}$ 总小于等于 $R^2$ ，甚至可为负（模型极差时）。在模型选择中， $R^2_{adj}$ 比原始 $R^2$ 更可靠——它在解释力与模型简约性之间取得平衡，是研究者比较不同变量数模型的首选指标。

实践建议

现代计量经济学实践中，报告回归结果时通常同时提供 $R^2$ 和 $R^2_{adj}$ 。评估单一模型的拟合优度可参考 $R^2$ ，但比较多个模型时 $R^2_{adj}$ 更具参考价值。关键在于：不要孤立地看 $R^2$ 数值，而应结合学科惯例、残差诊断和理论合理性综合判断。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。