ARTICLE

被解释变量

被解释变量 (Explained Variable) 被解释变量 (Explained Variable)，在计量经济学和回归分析的语境中，是指在模型设定中处于"被解释"地位的变量，通常记为 Y。它与因变量 (Dependent Variable) 指代同一个对象，但侧重点截然不同："因变量"强调因果链条中的"果"，而"被解释变量"强调的是模型对该变量变异的

浏览 4 更新 2025-10-26

被解释变量 (Explained Variable)

被解释变量 (Explained Variable)，在计量经济学和回归分析的语境中，是指在模型设定中处于"被解释"地位的变量，通常记为 $Y$ 。它与因变量 (Dependent Variable) 指代同一个对象，但侧重点截然不同："因变量"强调因果链条中的"果"，而"被解释变量"强调的是模型对该变量变异的解释程度——即解释变量能够在多大程度上说明被解释变量的变化。这一术语选择本身就隐含了计量经济学的核心关切：变异的分解与归因。

定义与基本设定

考虑一个典型的线性回归模型：

Y_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + \cdots + \beta_k X_{ki} + u_i

其中 $Y_i$ 为被解释变量， $X_{1i}, \ldots, X_{ki}$ 为解释变量， $u_i$ 为随机扰动项。这一设定将 $Y_i$ 的总变异分解为两个部分：

Y_i = \underbrace{\beta_0 + \beta_1 X_{1i} + \cdots + \beta_k X_{ki}}_{\text{系统部分（可解释）}} + \underbrace{u_i}_{\text{随机部分（不可解释）}}

系统部分是所有解释变量通过参数结构对 $Y$ 的联合贡献，代表模型"捕获"的信息；随机部分是模型无法解释的残差变异。被解释变量之所以"被解释"，正是因为它被置于模型的左侧，接受右侧解释变量的系统性说明。

被解释变量与因变量：术语辨析

尽管在大多数教材中二者混用，但从方法论角度区分是有益的：

因变量 (Dependent Variable)：更贴近实验科学传统，强调 $Y$ 对 $X$ 的因果依赖关系。这一术语暗含了研究者对因果方向的假设。
被解释变量 (Explained Variable)：更贴近计量经济学传统，强调的是模型对 $Y$ 变异的统计解释力，而非因果效力。即使在纯粹描述性回归中——研究者无意赋予因果解释——"被解释变量"这一称呼依然成立。

因此，"被解释变量"是一个比"因变量"更中性的术语：它不预设因果关系的存在，只关注模型在统计上能否成功解释 $Y$ 的变化。这一区分在观测研究中尤为重要——回归分析永远只能证明相关性，而不能自动确立因果关系。

被解释变量在模型评估中的核心地位

被解释变量的变异分解直接决定了模型的评估指标。令 $\bar{Y} = \frac{1}{n}\sum Y_i$ 为样本均值，TSS (Total Sum of Squares)（总平方和）衡量被解释变量的总变异：

\text{TSS} = \sum_{i=1}^{n} (Y_i - \bar{Y})^2

TSS 可分解为ESS (Explained Sum of Squares)（回归平方和，也称模型平方和）与RSS (Residual Sum of Squares)（残差平方和）之和：

\text{TSS} = \text{ESS} + \text{RSS}

其中 $\text{ESS} = \sum (\hat{Y}_i - \bar{Y})^2$ 反映被解释变量的变异中被模型解释的部分， $\text{RSS} = \sum (Y_i - \hat{Y}_i)^2$ 反映未被解释的部分。基于这一分解，决定系数 $R^2$ 定义为：

R^2 = \frac{\text{ESS}}{\text{TSS}} = 1 - \frac{\text{RSS}}{\text{TSS}}

$R^2$ 度量了被解释变量的总变异中可由解释变量联合解释的比例。这是计量经济学中最直观的模型拟合优度指标—— $R^2 = 0.75$ 意味着被解释变量 75\% 的变异被模型解释，剩余 25\% 归因于扰动项。然而， $R^2$ 不能反映模型的因果有效性、预测能力或变量显著性，其局限性在实践中常被低估。

被解释变量的测量尺度与模型选择

被解释变量的测量属性决定了适用的计量方法，这是模型选择的第一步：

连续被解释变量：最经典的情形。工资、GDP、价格等连续变量通常使用OLS或广义最小二乘法 (GLS)。若被解释变量严格为正且呈偏态分布（如收入、持续时间），对数变换 $\ln(Y)$ 常被用作被解释变量以改善正态性和降低异方差。
二元被解释变量： $Y \in \{0, 1\}$ ，如就业/失业、违约/未违约。需使用Logit 模型或Probit 模型——因为线性概率模型存在预测值超出 $[0,1]$ 区间和异方差问题。
计数被解释变量： $Y \in \{0, 1, 2, \ldots\}$ ，如专利数量、就诊次数、犯罪事件数。通常采用泊松回归或负二项回归，后者在存在过度分散（方差显著大于均值）时更适用。
截断与截堵被解释变量：当 $Y$ 只在特定范围内可观测时——例如工资仅对有工作的人可观测（样本选择问题），或消费支出调查中的零支出上报——需使用Tobit 模型或Heckman 两步法。
多元选择被解释变量： $Y \in \{1, 2, \ldots, J\}$ 无自然排序（如职业选择、交通方式），使用多项 Logit 或多项 Probit；若有自然排序（如满意度评级 1–5 分），则使用有序 Logit 或有序 Probit。
时间序列被解释变量：当数据具有时间维度时，被解释变量可能存在自相关、单位根等动态特征，需引入滞后被解释变量 $Y_{t-1}, Y_{t-2}$ 作为解释变量，形成自回归分布滞后模型 (ARDL)或向量自回归 (VAR)，同时须警惕伪回归问题。

被解释变量与内生性问题

当被解释变量与解释变量之间存在双向因果关系时——典型的如供需模型中价格与数量相互决定——OLS估计量将同时丧失无偏性与一致性。此时，被解释变量本身影响了右侧的解释变量，违反了外生性假设。处理这一问题的标准路径是寻找工具变量 (IV)——一个与内生解释变量相关、但仅通过该解释变量间接影响被解释变量的外生变量——然后使用两阶段最小二乘法 (2SLS)。

另一种重要的情形是被解释变量的滞后项出现在方程右侧：

Y_{it} = \beta Y_{i,t-1} + X_{it}'\gamma + \alpha_i + u_{it}

这是动态面板数据模型的标准形式。由于 $Y_{i,t-1}$ 与个体固定效应 $\alpha_i$ 相关，组内估计量（Within Estimator）是不一致的。Arellano-Bond 估计量（差分 GMM）和Blundell-Bond 估计量（系统 GMM）通过使用滞后水平或滞后差分作为工具变量来解决这一问题。

总结

被解释变量是计量经济模型的起点与归宿。它与因变量指代同一对象，但"被解释变量"这一术语更准确地传达了计量经济学的学科精神：用可观测的解释变量去说明一个变量的变异，将混乱的数据转化为可理解的结构。正确认识被解释变量的测量属性、变异分解及其与解释变量的统计关系，是构建有效计量模型的前提，也是避免将统计描述误认为因果推断的第一道防线。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。