ARTICLE
偏 $R^2$
偏 R^2 (Partial R^2 ) 定义 偏 R^2 (Partial R^2 )是回归分析中衡量单个变量(或一组变量)对模型解释力度的增量贡献的指标。它度量的是:在控制了模型中其他所有变量之后,某个特定变量所能解释的因变量变异的比例。 正式地,考虑线性回归模型: 其中 X_1 是关注的变量集合, X_2 是控制变量集合。偏 R^2 定义为: 其中 S
偏 (Partial )
定义
偏 (Partial )是回归分析中衡量单个变量(或一组变量)对模型解释力度的增量贡献的指标。它度量的是:在控制了模型中其他所有变量之后,某个特定变量所能解释的因变量变异的比例。
正式地,考虑线性回归模型:
其中 是关注的变量集合, 是控制变量集合。偏 定义为:
其中 是仅包含 (约束模型)的残差平方和, 是包含所有变量(无约束模型)的残差平方和。
等价地,偏 也可以通过 统计量表达:
其中 是该系数的 统计量, 是残差自由度。
与普通 的区别
普通 衡量的是整个模型对因变量总变异的解释比例,而偏 则剥离了其他变量的影响,专注于特定变量的边际贡献。二者的关键区别在于:
- 普通 :,度量模型整体拟合优度。
- 偏 :度量在已有控制变量的基础上,加入新变量后残差变异减少的比例。
偏 的值域为 。值为 0 表示该变量在控制其他变量后对因变量毫无解释力;值为 1 表示该变量能解释所有剩余变异。
偏 的计算
偏 有两种等价的递推定义方式。
方式一:基于两个回归
- 将 对控制变量 回归,得到残差 ;
- 将关注的变量 对控制变量 回归,得到残差 ;
- 将 对 回归,该回归的 即为偏 。
这一过程直观地体现了偏 的"偏"之含义——它是在剔除了 的影响后, 与 之间"纯"相关关系的度量。
方式二:基于 统计量
在只有一个待检验变量(即 为单变量)时:
其中 为检验该变量是否显著的 统计量。这一关系揭示了偏 与统计显著性之间的内在联系:偏 越大,该变量的 统计量越大,统计显著性越强。
偏 与相关系数的关系
在简单线性回归(只有一个自变量)中,偏 退化为普通 ,且等于 Pearson 相关系数的平方。
在多元回归中,偏 的平方根称为偏相关系数(Partial Correlation Coefficient),记作 ,它度量了在控制 后 与 之间的线性相关程度。
偏相关系数与偏回归系数 的关系为:
其中 和 分别为 和 的标准差, 是 对 回归的 , 是 对 回归的 。
偏 在模型选择中的作用
偏 是变量筛选和模型比较的重要工具:
- 变量重要性排序:通过比较不同变量的偏 ,可以判断哪些变量对模型的边际贡献最大。在存在多重共线性时,偏 比普通回归系数的绝对值更能反映变量的真实贡献。
- 逐步回归:在前向逐步回归中,每一步选择偏 最大的变量加入模型;在后向淘汰中,每一步剔除偏 最小的变量。
- 方差分解分析:在 ANOVA 框架下,偏 对应于每个效应(主效应或交互效应)的 (偏 Eta 平方),是衡量效应量的标准指标。
- 部分 与全模型 的关系:若模型包含 个变量,各变量的偏 与整体 之间满足以下关系:
这意味着整体 是由各变量的偏 累积构成的。
注意事项与局限性
- 偏 与回归系数符号无关:偏 是平方量,不反映变量影响的方向。正效应和负效应可能具有相同的偏 。因此,在报告偏 的同时,必须配合回归系数的符号一起解读,才能全面理解变量与因变量之间的关系方向。
- 对模型设定敏感:偏 的值依赖于模型中包含哪些控制变量。遗漏重要变量或包含无关变量都会影响偏 的估计。不同研究者因采用不同的控制变量集而得到截然不同的偏 值,这是一种常见的现象。
- 非线性关系:偏 仅度量线性关系。若变量间存在非线性关系,偏 可能低估其真实贡献。此时可考虑使用偏 、半偏相关系数或引入多项式项、样条函数等非线性变换来改进度量。
- 不能替代经济显著性:偏 大不一定意味着经济意义重要;偏 小也不意味着变量不重要,尤其是在样本量大的情况下,即使偏 很小,变量仍可能具有统计显著性和实际重要性。研究者应当结合效应量(如标准化回归系数)和经济理论进行综合判断。
- 多重共线性的影响:在高度共线性的情况下,各变量的偏 可能都很小,即使整体 很大。这是共线性导致系数估计不稳定的一种表现。此时偏 无法有效区分各个共线变量的独立贡献,需要借助岭回归、主成分回归或 LASSO 等方法加以处理。
- 样本量依赖性:在小样本下,偏 可能高估变量的真实贡献,存在过拟合偏向。调整偏 (Adjusted Partial )可部分缓解这一问题,其计算公式为:
其中 为样本量, 为全模型自变量个数, 为约束模型自变量个数。
应用举例
劳动经济学
在研究教育回报率时,若模型包含工作经验、行业、地区等控制变量,教育年限的偏 反映了在控制这些因素后,教育所能解释的工资差异的比例。若该偏 为 0.05,意味着教育在控制其他变量后仍能解释工资残差变异的 5\%,这在微观个体数据中通常被视为较大的效应量。
临床试验
偏 可用于评估新治疗方法在控制基线特征后的增量效果。若偏 较小,说明治疗方案的独立贡献有限;反之则说明治疗方案具有实质性的附加价值。此外,在协方差分析(ANCOVA)中,偏 常用于报告处理效应的效应量。
市场营销
在消费者购买意愿的研究中,偏 可以帮助营销人员识别哪些因素(如价格折扣、品牌忠诚度、广告曝光次数)在控制人口统计变量后对购买决策的增量解释力最大,从而优化营销资源配置。
环境经济学
在评估某项环境政策对污染物排放的影响时,偏 能够衡量在控制经济发展水平、产业结构、人口密度等宏观因素后,该政策变量的独立贡献,为政策有效性评估提供量化依据。
小结
偏 是回归分析中不可或缺的诊断工具,它超越了整体拟合优度的表面信息,揭示了每个变量在模型中的独特贡献。与普通 的全局视角不同,偏 提供的是局部、增量的视角,使研究者能够更加精确地评估变量的相对重要性。在模型比较、变量选择和效应量报告等场景中,偏 都发挥着核心作用。