ARTICLE
被解释变量
被解释变量 (Explained Variable) 被解释变量 (Explained Variable),在计量经济学和回归分析的语境中,是指在模型设定中处于"被解释"地位的变量,通常记为 Y。它与因变量 (Dependent Variable) 指代同一个对象,但侧重点截然不同:"因变量"强调因果链条中的"果",而"被解释变量"强调的是模型对该变量变异的
被解释变量 (Explained Variable)
被解释变量 (Explained Variable),在计量经济学和回归分析的语境中,是指在模型设定中处于"被解释"地位的变量,通常记为 。它与因变量 (Dependent Variable) 指代同一个对象,但侧重点截然不同:"因变量"强调因果链条中的"果",而"被解释变量"强调的是模型对该变量变异的解释程度——即解释变量能够在多大程度上说明被解释变量的变化。这一术语选择本身就隐含了计量经济学的核心关切:变异的分解与归因。
定义与基本设定
考虑一个典型的线性回归模型:
其中 为被解释变量, 为解释变量, 为随机扰动项。这一设定将 的总变异分解为两个部分:
系统部分是所有解释变量通过参数结构对 的联合贡献,代表模型"捕获"的信息;随机部分是模型无法解释的残差变异。被解释变量之所以"被解释",正是因为它被置于模型的左侧,接受右侧解释变量的系统性说明。
被解释变量与因变量:术语辨析
尽管在大多数教材中二者混用,但从方法论角度区分是有益的:
- 因变量 (Dependent Variable):更贴近实验科学传统,强调 对 的因果依赖关系。这一术语暗含了研究者对因果方向的假设。
- 被解释变量 (Explained Variable):更贴近计量经济学传统,强调的是模型对 变异的统计解释力,而非因果效力。即使在纯粹描述性回归中——研究者无意赋予因果解释——"被解释变量"这一称呼依然成立。
因此,"被解释变量"是一个比"因变量"更中性的术语:它不预设因果关系的存在,只关注模型在统计上能否成功解释 的变化。这一区分在观测研究中尤为重要——回归分析永远只能证明相关性,而不能自动确立因果关系。
被解释变量在模型评估中的核心地位
被解释变量的变异分解直接决定了模型的评估指标。令 为样本均值,TSS (Total Sum of Squares)(总平方和)衡量被解释变量的总变异:
TSS 可分解为ESS (Explained Sum of Squares)(回归平方和,也称模型平方和)与RSS (Residual Sum of Squares)(残差平方和)之和:
其中 反映被解释变量的变异中被模型解释的部分, 反映未被解释的部分。基于这一分解,决定系数 定义为:
度量了被解释变量的总变异中可由解释变量联合解释的比例。这是计量经济学中最直观的模型拟合优度指标—— 意味着被解释变量 75\% 的变异被模型解释,剩余 25\% 归因于扰动项。然而, 不能反映模型的因果有效性、预测能力或变量显著性,其局限性在实践中常被低估。
被解释变量的测量尺度与模型选择
被解释变量的测量属性决定了适用的计量方法,这是模型选择的第一步:
- 连续被解释变量:最经典的情形。工资、GDP、价格等连续变量通常使用OLS或广义最小二乘法 (GLS)。若被解释变量严格为正且呈偏态分布(如收入、持续时间),对数变换 常被用作被解释变量以改善正态性和降低异方差。
- 二元被解释变量:,如就业/失业、违约/未违约。需使用Logit 模型或Probit 模型——因为线性概率模型存在预测值超出 区间和异方差问题。
- 计数被解释变量:,如专利数量、就诊次数、犯罪事件数。通常采用泊松回归或负二项回归,后者在存在过度分散(方差显著大于均值)时更适用。
- 截断与截堵被解释变量:当 只在特定范围内可观测时——例如工资仅对有工作的人可观测(样本选择问题),或消费支出调查中的零支出上报——需使用Tobit 模型或Heckman 两步法。
- 多元选择被解释变量: 无自然排序(如职业选择、交通方式),使用多项 Logit 或 多项 Probit;若有自然排序(如满意度评级 1–5 分),则使用有序 Logit 或 有序 Probit。
- 时间序列被解释变量:当数据具有时间维度时,被解释变量可能存在自相关、单位根等动态特征,需引入滞后被解释变量 作为解释变量,形成自回归分布滞后模型 (ARDL)或向量自回归 (VAR),同时须警惕伪回归问题。
被解释变量与内生性问题
当被解释变量与解释变量之间存在双向因果关系时——典型的如供需模型中价格与数量相互决定——OLS估计量将同时丧失无偏性与一致性。此时,被解释变量本身影响了右侧的解释变量,违反了外生性假设。处理这一问题的标准路径是寻找工具变量 (IV)——一个与内生解释变量相关、但仅通过该解释变量间接影响被解释变量的外生变量——然后使用两阶段最小二乘法 (2SLS)。
另一种重要的情形是被解释变量的滞后项出现在方程右侧:
这是动态面板数据模型的标准形式。由于 与个体固定效应 相关,组内估计量(Within Estimator)是不一致的。Arellano-Bond 估计量(差分 GMM)和Blundell-Bond 估计量(系统 GMM)通过使用滞后水平或滞后差分作为工具变量来解决这一问题。
总结
被解释变量是计量经济模型的起点与归宿。它与因变量指代同一对象,但"被解释变量"这一术语更准确地传达了计量经济学的学科精神:用可观测的解释变量去说明一个变量的变异,将混乱的数据转化为可理解的结构。正确认识被解释变量的测量属性、变异分解及其与解释变量的统计关系,是构建有效计量模型的前提,也是避免将统计描述误认为因果推断的第一道防线。