ARTICLE

决定系数 ($R^2$)

决定系数 (Coefficient of Determination, R^2) 决定系数 (Coefficient of Determination),记作 R^2,是回归分析中衡量模型拟合优度的核心统计量。它表示因变量的总变异中由回归模型中的自变量所解释的比例,取值范围在 [0, 1] 之间。R^2 = 1 表示模型完美拟合全部观测值,R^2 = 0 表

浏览 0 更新 2026-05-27

决定系数 (Coefficient of Determination, R2R^2)

决定系数 (Coefficient of Determination),记作 R2R^2,是回归分析中衡量模型拟合优度的核心统计量。它表示因变量的总变异中由回归模型中的自变量所解释的比例,取值范围在 [0,1][0, 1] 之间。R2=1R^2 = 1 表示模型完美拟合全部观测值,R2=0R^2 = 0 表示模型未能解释因变量的任何变异。在普通最小二乘法 (OLS) 框架下,决定系数是评价线性回归模型解释力的最常用指标。

数学定义与分解

对于含有截距项的线性回归模型 yi=β0+xiβ+ϵiy_i = \beta_0 + \mathbf{x}_i'\boldsymbol{\beta} + \epsilon_i,OLS拟合产生三个平方和的恒等分解:

TSS=ESS+RSS\text{TSS} = \text{ESS} + \text{RSS}

其中 TSS=(yiyˉ)2\text{TSS} = \sum (y_i - \bar{y})^2总平方和(total sum of squares),度量因变量围绕均值的总变异;ESS=(y^iyˉ)2\text{ESS} = \sum (\hat{y}_i - \bar{y})^2回归平方和(explained sum of squares),度量回归模型捕捉的结构性变异;RSS=(yiy^i)2\text{RSS} = \sum (y_i - \hat{y}_i)^2残差平方和(residual sum of squares),度量模型未能解释的随机变异。

决定系数定义为被解释变异占总变异的比例:

R2=ESSTSS=1RSSTSSR^2 = \frac{\text{ESS}}{\text{TSS}} = 1 - \frac{\text{RSS}}{\text{TSS}}

该定义在OLS估计下保证 0R210 \leq R^2 \leq 1。此外,R2R^2 等于因变量观测值 yiy_i 与拟合值 y^i\hat{y}_i 之间皮尔逊相关系数的平方:R2=[Corr(y,y^)]2R^2 = [\text{Corr}(y, \hat{y})]^2

调整决定系数

R2R^2 的一个关键缺陷是随自变量数量增加而单调递增——即使新增的变量毫无解释力,R2R^2 也永不下降。因为OLS通过添加变量总能使残差平方和略微减小,从而虚增模型的表面拟合度。

为解决这一问题,调整决定系数 (adjusted R2R^2) 引入了对参数个数的惩罚:

Rˉ2=1RSS/(nk1)TSS/(n1)=1(1R2)n1nk1\bar{R}^2 = 1 - \frac{\text{RSS} / (n - k - 1)}{\text{TSS} / (n - 1)} = 1 - (1 - R^2) \cdot \frac{n - 1}{n - k - 1}

其中 nn 为样本量,kk 为自变量的个数(不含截距)。调整 R2R^2 仅在新增变量带来的拟合改善足以补偿自由度损失时才上升;若变量毫无解释力,调整 R2R^2 可能下降甚至为负。在模型选择中,调整 R2R^2赤池信息准则 (AIC) 和贝叶斯信息准则 (BIC) 共同构成常用的模型比较标准。

解释适用性与局限

决定系数在经济学实证研究中广泛使用,但其解释需审慎。首先,R2R^2 的高低并不直接反映模型的因果有效性:一个高 R2R^2 的回归可能由于遗漏变量、测量误差或同时性偏误而给出有偏不一致的估计;反之,低 R2R^2 并非模型"失败"的标志,许多微观经济数据(如个人工资或消费)因个体异质性极大,R2R^2 在 0.1 至 0.3 之间是常见且可接受的水平。其次,R2R^2异常值敏感,少数极端观测即可显著改变其数值。在时间序列分析中,若因变量存在单位根R2R^2 倾向于虚假地接近 1,此时应避免将其作为模型质量的指标。

在比较不同模型时,R2R^2 仅适用于因变量相同的模型。对于不同函数形式的模型(如线性对对数线性),或广义线性模型中因变量的变换,R2R^2 的定义和可比性丧失。伪R平方 (pseudo R2R^2) 类指标在逻辑回归等非线性模型中虽被广泛报告,但这些指标并不具备方差分解的直观解释,各指标间的数值不可直接比较。