ARTICLE
决定系数 ($R^2$)
决定系数 (Coefficient of Determination, R^2) 决定系数 (Coefficient of Determination),记作 R^2,是回归分析中衡量模型拟合优度的核心统计量。它表示因变量的总变异中由回归模型中的自变量所解释的比例,取值范围在 [0, 1] 之间。R^2 = 1 表示模型完美拟合全部观测值,R^2 = 0 表
决定系数 (Coefficient of Determination, )
决定系数 (Coefficient of Determination),记作 ,是回归分析中衡量模型拟合优度的核心统计量。它表示因变量的总变异中由回归模型中的自变量所解释的比例,取值范围在 之间。 表示模型完美拟合全部观测值, 表示模型未能解释因变量的任何变异。在普通最小二乘法 (OLS) 框架下,决定系数是评价线性回归模型解释力的最常用指标。
数学定义与分解
对于含有截距项的线性回归模型 ,OLS拟合产生三个平方和的恒等分解:
其中 为总平方和(total sum of squares),度量因变量围绕均值的总变异; 为回归平方和(explained sum of squares),度量回归模型捕捉的结构性变异; 为残差平方和(residual sum of squares),度量模型未能解释的随机变异。
决定系数定义为被解释变异占总变异的比例:
该定义在OLS估计下保证 。此外, 等于因变量观测值 与拟合值 之间皮尔逊相关系数的平方:。
调整决定系数
的一个关键缺陷是随自变量数量增加而单调递增——即使新增的变量毫无解释力, 也永不下降。因为OLS通过添加变量总能使残差平方和略微减小,从而虚增模型的表面拟合度。
为解决这一问题,调整决定系数 (adjusted ) 引入了对参数个数的惩罚:
其中 为样本量, 为自变量的个数(不含截距)。调整 仅在新增变量带来的拟合改善足以补偿自由度损失时才上升;若变量毫无解释力,调整 可能下降甚至为负。在模型选择中,调整 与赤池信息准则 (AIC) 和贝叶斯信息准则 (BIC) 共同构成常用的模型比较标准。
解释适用性与局限
决定系数在经济学实证研究中广泛使用,但其解释需审慎。首先, 的高低并不直接反映模型的因果有效性:一个高 的回归可能由于遗漏变量、测量误差或同时性偏误而给出有偏不一致的估计;反之,低 并非模型"失败"的标志,许多微观经济数据(如个人工资或消费)因个体异质性极大, 在 0.1 至 0.3 之间是常见且可接受的水平。其次, 对异常值敏感,少数极端观测即可显著改变其数值。在时间序列分析中,若因变量存在单位根, 倾向于虚假地接近 1,此时应避免将其作为模型质量的指标。
在比较不同模型时, 仅适用于因变量相同的模型。对于不同函数形式的模型(如线性对对数线性),或广义线性模型中因变量的变换, 的定义和可比性丧失。伪R平方 (pseudo ) 类指标在逻辑回归等非线性模型中虽被广泛报告,但这些指标并不具备方差分解的直观解释,各指标间的数值不可直接比较。