ARTICLE

离散选择模型

离散选择模型离散选择模型（Discrete Choice Model, DCM）是微观计量经济学的核心分析框架，用于研究经济主体在有限且互斥的备选方案中做出的选择行为。与连续因变量模型（如线性回归）不同，DCM 的因变量 y_i \1, 2, , J\ 为类别变量，编码了个体 i 从 J 个选项中所做的抉择。该领域的开创性工作由 McFadden（1974

浏览 7 更新 2025-11-08

离散选择模型

离散选择模型（Discrete Choice Model, DCM）是微观计量经济学的核心分析框架，用于研究经济主体在有限且互斥的备选方案中做出的选择行为。与连续因变量模型（如线性回归）不同，DCM 的因变量 $y_i \in \{1, 2, \dots, J\}$ 为类别变量，编码了个体 $i$ 从 $J$ 个选项中所做的抉择。该领域的开创性工作由 McFadden（1974）完成，他因将随机效用理论转化为可估计的计量模型而获得 2000 年诺贝尔经济学奖。

理论基础：随机效用最大化

DCM 的微观基础是 随机效用最大化（Random Utility Maximization, RUM）假说：个体 $i$ 面对选项 $j$ 时，其效用由确定性部分与随机部分构成：

\begin{equation} \[ U_{ij} = V_{ij} + \varepsilon_{ij} = \mathbf{x}_{ij}'\boldsymbol{\beta} + \varepsilon_{ij} \] \end{equation}

其中 $V_{ij}$ 为代表性效用（representative utility），通常是可观测属性 $\mathbf{x}_{ij}$ （选项特征与个体特征）的线性函数； $\varepsilon_{ij}$ 为效用中的不可观测成分，捕捉测量误差、遗漏变量与个体异质性。理性选择意味着个体选择效用最大的选项：

\begin{equation} \[ y_i = j \iff U_{ij} > U_{ik}, \quad \forall k \neq j \] \end{equation}

因此，个体 $i$ 选择方案 $j$ 的概率为：

\begin{equation} \[ P(y_i = j) = P(\varepsilon_{ik} - \varepsilon_{ij} < V_{ij} - V_{ik}, \; \forall k \neq j) \] \end{equation}

该概率的具体函数形式完全取决于随机项 $\boldsymbol{\varepsilon}_i = (\varepsilon_{i1}, \dots, \varepsilon_{iJ})'$ 的联合分布假设——不同的分布设定导出不同的 DCM 子类。

Logit 模型

当 $\varepsilon_{ij}$ 独立同分布于标准 I 型极值分布（Type I Extreme Value, Gumbel），即 $F(\varepsilon) = \exp(-e^{-\varepsilon})$ 时，选择概率具有简洁的闭合形式：

\begin{equation} \[ P(y_i = j) = \frac{\exp(V_{ij})}{\sum_{k=1}^{J} \exp(V_{ik})} \] \[ = \frac{\exp(\mathbf{x}_{ij}'\boldsymbol{\beta})}{\sum_{k=1}^{J} \exp(\mathbf{x}_{ik}'\boldsymbol{\beta})} \] \end{equation}

此即 多项 Logit 模型（Multinomial Logit, MNL）。其分母为所有选项指数效用的总和，保证了概率非负且和为 1。MNL 的对数似然函数为全局凹函数，极大似然估计（MLE）的数值计算极为稳健，这是其在实证研究中占据支配性地位的关键原因。

Logit 模型的关键性质——也是其核心局限——是 无关选项独立性（Independence of Irrelevant Alternatives, IIA）：任意两个选项的选择概率之比 $P(y=j)/P(y=k) = \exp(V_{ij} - V_{ik})$ 仅取决于这两个选项的效用差异，与选择集中其他选项的存在与否无关。IIA 在"红巴士/蓝巴士"悖论中暴露得最为直观：若决策者在"自驾"与"红色巴士"之间各选 50\%，引入除颜色外完全相同的"蓝色巴士"后，Logit 模型预测三者概率各为 $1/3$ ，而非直觉上自驾 50\%、红巴士 25\%、蓝巴士 25\%——因为 Logit 无法捕捉红蓝巴士之间的替代模式。IIA 的成立可由 Hausman--McFadden 检验进行统计验证：剔除某个选项后，剩余选项的参数估计不应发生系统性变化。

条件 Logit 模型（Conditional Logit）将 $V_{ij}$ 设定为选项属性（而非个体特征）的函数，允许选项特征随个体变化；混合 Logit 则进一步放松 IIA 约束。

Probit 模型

多项 Probit 模型（Multinomial Probit, MNP）假设 $\boldsymbol{\varepsilon}_i \sim \mathcal{N}(\mathbf{0}, \boldsymbol{\Sigma})$ ，其中协方差矩阵 $\boldsymbol{\Sigma}$ 的非对角元素允许任意替代模式——因此 Probit 天然不受 IIA 约束。然而代价是沉重的： $J$ 元正态分布的累积分布函数没有闭合形式，选择概率涉及 $(J-1)$ 维积分：

\begin{equation} \[ P(y_i = j) = \int_{\{\boldsymbol{\varepsilon}:\, \varepsilon_k - \varepsilon_j < V_{ij} - V_{ik}, \; \forall k \neq j\}} \phi(\boldsymbol{\varepsilon}; \mathbf{0}, \boldsymbol{\Sigma}) \, d\boldsymbol{\varepsilon} \] \end{equation}

该积分在 $J \geq 4$ 时传统数值积分已不可行，需依赖 Geweke--Hajivassiliou--Keane (GHK) 模拟器或基于贝叶斯方法的 MCMC 抽样。自由度 $\boldsymbol{\Sigma}$ 的识别性问题（仅有 $(J(J-1)/2 - 1)$ 个自由参数可识别）使 MNP 的设定与估计均需额外注意。

IIA 问题与扩展模型

为克服 IIA 限制，研究者发展了一系列放松误差独立性的扩展框架：

嵌套 Logit（Nested Logit）将选项划分为 $M$ 个互斥的"巢"（nests），巢内选项共享一个相关性参数 $\lambda_m \in (0, 1]$ 。选择概率分解为边缘概率与条件概率的乘积：

\begin{equation} \[ P(y_i = j) = P(y_i \in \text{nest}_m) \cdot P(y_i = j \mid y_i \in \text{nest}_m) \] \end{equation}

$\lambda_m$ 越接近 0，巢内替代性越强； $\lambda_m = 1$ 退化为标准 Logit。嵌套结构需由经济理论（如商品分类层级、地理区域等）先验给定，其设定是实证中的关键建模选择。

混合 Logit（Mixed Logit, Random Parameters Logit）将系数 $\boldsymbol{\beta}_i$ 视为随机变量，以连续混合分布捕捉个体偏好的异质性：

\begin{equation} \[ P(y_i = j) = \int \frac{\exp(\mathbf{x}_{ij}'\boldsymbol{\beta})}{\sum_k \exp(\mathbf{x}_{ik}'\boldsymbol{\beta})} f(\boldsymbol{\beta} \mid \boldsymbol{\theta}) \, d\boldsymbol{\beta} \] \end{equation}

该积分无闭合形式，依赖最大模拟似然（MSL）估计。混合 Logit 极其灵活：在温和正则条件下，任何 RUM 模型的选择概率均可被混合 Logit 以任意精度逼近（McFadden \& Train, 2000）。实践中常见的设定包括对数正态分布（约束符号）与三角分布。

广义极值模型（Generalized Extreme Value, GEV）是 Logit 的另一推广，通过更一般的极值分布生成函数容纳非零误差相关性，嵌套 Logit 与多项 Probit 均可纳入此框架。

估计与推断

DCM 的主流估计方法是 极大似然估计（MLE）。对于标准 Logit，对数似然的一阶条件具有矩估计的解释：实际选择频率与模型预测概率的加权残差之和为零。最大模拟似然（Maximum Simulated Likelihood, MSL）在混合 Logit 等涉及高维积分的模型中不可或缺：以 Monte Carlo 抽取 $\boldsymbol{\beta}^{(r)} \sim f(\boldsymbol{\beta}\mid\boldsymbol{\theta})$ ，用模拟均值 $\frac{1}{R}\sum_r P(y_i=j \mid \boldsymbol{\beta}^{(r)})$ 近似积分。MSL 估计量在 $R$ 随样本量增长快于 $\sqrt{N}$ 时具有渐近等价性。

另一重要估计策略是 Berry--Levinsohn--Pakes (BLP) 方法，专为加总数据（市场份额）下的需求估计设计。BLP 通过收缩映射（contraction mapping）反解出产品层面的平均效用 $\delta_j$ ，再以工具变量处理价格内生性，广泛用于产业组织与反垄断分析中的需求系统估计。

经济学应用

DCM 在经济学中的应用极为广泛。在交通经济学中，通勤模式选择（自驾/公交/地铁/骑行）是 DCM 的经典实证场景，时间成本与舒适度等属性的边际支付意愿（willingness-to-pay）可直接由系数比 $-\beta_{\text{time}}/\beta_{\text{cost}}$ 导出。在劳动经济学中，职业选择与移民目的地选择涉及离散选项池，Heckman 选择模型与 DCM 共同构成了选择偏差修正的双支柱。在产业组织中，消费者品牌选择与新产品进入的福利效应评估依赖 BLP 需求系统。在环境经济学中，条件价值评估与选择实验（Choice Experiment）利用 DCM 估计非市场物品（空气质量、濒危物种保护）的支付意愿。在教育经济学中，学校与专业选择分析为教育券与择校政策评估提供了微观行为证据。

局限与前沿

DCM 面临的核心挑战包括：(1) 价格与属性的内生性——未观测的产品质量同时影响需求与定价，BLP 方法以工具变量策略部分解决了这一问题，但有效工具（如成本冲击、竞争对手产品特征）的可得性是实证瓶颈；(2) 选择集的形成——实际决策者通常并非在所有可能选项中做全比较，而是先通过简化的"考虑集"（consideration set）筛选，两步模型的估计比完整 DCM 更为复杂；(3) 高维与大规模选择集——当 $J$ 极大（如在线零售平台中的数百万 SKU），Logit 的分母需穷举所有选项，计算不可行，负采样与近似方法成为活跃的前沿领域；(4) 机器学习与 DCM 的融合——神经网络、梯度提升树等方法被纳入 $V_{ij}$ 的设定中以捕捉非线性与交互效应，但可解释性与经济推断（如边际效应与弹性）的权衡是方法论争议的焦点。深度学习方法（如 TasteNet）将嵌入表示与效用函数联合学习，代表了 DCM 与 AI 融合的前沿方向。

知识网络

离散选择模型处于微观计量经济学与决策科学的核心交汇点：随机效用理论为 DCM 提供了行为公理基础；Logit 回归是 DCM 最常用的具体形式，也是广义线性模型（GLM）中二项/Bernoulli 族的自然推广；Probit 模型与 Logit 并列为二元选择的基础二元模型；Tobit 模型与Heckman 选择模型将离散选择逻辑延伸至删失与样本选择问题；结构估计将 DCM 嵌入一般均衡或动态规划框架，实现反事实政策模拟；贝叶斯方法（尤其 MCMC）为 Probit 与混合 Logit 的高维积分提供了替代性推断范式；BLP 需求估计连接了 DCM 与产业组织实证；选择实验与条件价值评估将 DCM 拓展至非市场估值领域。在计算层面，EM 算法在混合 Logit 的潜类别设定中服务于最大似然，而自动微分框架（TensorFlow Probability, Pyro）正使复杂 DCM 的贝叶斯推断门槛大幅降低。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。