ARTICLE
R-squared
R-squared (决定系数) R-squared,也称为决定系数(Coefficient of Determination),是回归分析中最常用的统计指标之一,用于衡量自变量在多大程度上可以解释因变量的变异。其值介于0和1之间,直观表示因变量的方差中能被模型解释的百分比。 计算原理 理解R-squared需掌握三种平方和。设 y_i 为实际观测值, y
R-squared (决定系数)
R-squared,也称为决定系数(Coefficient of Determination),是回归分析中最常用的统计指标之一,用于衡量自变量在多大程度上可以解释因变量的变异。其值介于0和1之间,直观表示因变量的方差中能被模型解释的百分比。
计算原理
理解R-squared需掌握三种平方和。设 为实际观测值, 为其均值, 为模型预测值:
总平方和(SST):,即因变量的总变异。
残差平方和(SSE):,模型未能解释的变异,即残差平方和。
回归平方和(SSR):,模型能够解释的变异。
三者满足恒等式 。基于此,R-squared定义为解释变异占总变异的比例:
若SSE为零,,模型完美拟合;若SSR为零,,模型无解释力。注意:不同教材中SSR和SSE的缩写可能互换,应关注其定义而非缩写。
在简单线性回归中,R-squared等于因变量与自变量之间皮尔逊相关系数 的平方:。
解读与局限性
解读直观: 表示模型解释了75\%的变异,剩余25\%归因于残差。但R-squared有重要局限:
随变量数量单调递增:在多元线性回归中,每增加一个自变量,即使该变量与因变量无关,R-squared也几乎必然增加、绝不减少。这诱使研究者盲目堆砌变量,导致过拟合。
高不等于好模型:R-squared衡量的是相关性而非因果关系;高下仍可能存在遗漏变量偏误或错误函数形式(如真实关系非线性却用线性拟合)。此外,不同学科对"好"的标准迥异——物理学中常超0.95,社会科学中0.3已可视为良好。
调整后的R-squared
为解决上述问题,统计学家提出调整后的R-squared(),对自变量数量施加惩罚:
其中 为样本容量, 为自变量数量。分母 是残差的自由度。新增变量时增大、分母减小,惩罚项放大;仅当新变量对模型的贡献足够大时才会上升。
总小于等于 ,甚至可为负(模型极差时)。在模型选择中, 比原始 更可靠——它在解释力与模型简约性之间取得平衡,是研究者比较不同变量数模型的首选指标。
实践建议
现代计量经济学实践中,报告回归结果时通常同时提供 和 。评估单一模型的拟合优度可参考 ,但比较多个模型时 更具参考价值。关键在于:不要孤立地看 数值,而应结合学科惯例、残差诊断和理论合理性综合判断。