ARTICLE

离散选择模型

离散选择模型 离散选择模型(Discrete Choice Model, DCM)是微观计量经济学的核心分析框架,用于研究经济主体在有限且互斥的备选方案中做出的选择行为。与连续因变量模型(如线性回归)不同,DCM 的因变量 y_i \1, 2, , J\ 为类别变量,编码了个体 i 从 J 个选项中所做的抉择。该领域的开创性工作由 McFadden(1974

浏览 7 更新 2025-11-08

离散选择模型

离散选择模型(Discrete Choice Model, DCM)是微观计量经济学的核心分析框架,用于研究经济主体在有限且互斥的备选方案中做出的选择行为。与连续因变量模型(如线性回归)不同,DCM 的因变量 yi{1,2,,J} y_i \in \{1, 2, \dots, J\} 为类别变量,编码了个体 i i J J 个选项中所做的抉择。该领域的开创性工作由 McFadden(1974)完成,他因将随机效用理论转化为可估计的计量模型而获得 2000 年诺贝尔经济学奖。

理论基础:随机效用最大化

DCM 的微观基础是 随机效用最大化(Random Utility Maximization, RUM)假说:个体 i i 面对选项 j j 时,其效用由确定性部分与随机部分构成:

\begin{equation} \[ U_{ij} = V_{ij} + \varepsilon_{ij} = \mathbf{x}_{ij}'\boldsymbol{\beta} + \varepsilon_{ij} \] \end{equation}

其中 Vij V_{ij} 为代表性效用(representative utility),通常是可观测属性 xij \mathbf{x}_{ij} (选项特征与个体特征)的线性函数;εij \varepsilon_{ij} 为效用中的不可观测成分,捕捉测量误差、遗漏变量与个体异质性。理性选择意味着个体选择效用最大的选项:

\begin{equation} \[ y_i = j \iff U_{ij} > U_{ik}, \quad \forall k \neq j \] \end{equation}

因此,个体 i i 选择方案 j j 的概率为:

\begin{equation} \[ P(y_i = j) = P(\varepsilon_{ik} - \varepsilon_{ij} < V_{ij} - V_{ik}, \; \forall k \neq j) \] \end{equation}

该概率的具体函数形式完全取决于随机项 εi=(εi1,,εiJ) \boldsymbol{\varepsilon}_i = (\varepsilon_{i1}, \dots, \varepsilon_{iJ})' 的联合分布假设——不同的分布设定导出不同的 DCM 子类。

Logit 模型

εij \varepsilon_{ij} 独立同分布于标准 I 型极值分布(Type I Extreme Value, Gumbel),即 F(ε)=exp(eε) F(\varepsilon) = \exp(-e^{-\varepsilon}) 时,选择概率具有简洁的闭合形式:

\begin{equation} \[ P(y_i = j) = \frac{\exp(V_{ij})}{\sum_{k=1}^{J} \exp(V_{ik})} \] \[ = \frac{\exp(\mathbf{x}_{ij}'\boldsymbol{\beta})}{\sum_{k=1}^{J} \exp(\mathbf{x}_{ik}'\boldsymbol{\beta})} \] \end{equation}

此即 多项 Logit 模型(Multinomial Logit, MNL)。其分母为所有选项指数效用的总和,保证了概率非负且和为 1。MNL 的对数似然函数为全局凹函数,极大似然估计(MLE)的数值计算极为稳健,这是其在实证研究中占据支配性地位的关键原因。

Logit 模型的关键性质——也是其核心局限——是 无关选项独立性(Independence of Irrelevant Alternatives, IIA):任意两个选项的选择概率之比 P(y=j)/P(y=k)=exp(VijVik) P(y=j)/P(y=k) = \exp(V_{ij} - V_{ik}) 仅取决于这两个选项的效用差异,与选择集中其他选项的存在与否无关。IIA 在"红巴士/蓝巴士"悖论中暴露得最为直观:若决策者在"自驾"与"红色巴士"之间各选 50\%,引入除颜色外完全相同的"蓝色巴士"后,Logit 模型预测三者概率各为 1/3 1/3 ,而非直觉上自驾 50\%、红巴士 25\%、蓝巴士 25\%——因为 Logit 无法捕捉红蓝巴士之间的替代模式。IIA 的成立可由 Hausman--McFadden 检验进行统计验证:剔除某个选项后,剩余选项的参数估计不应发生系统性变化。

条件 Logit 模型(Conditional Logit)将 Vij V_{ij} 设定为选项属性(而非个体特征)的函数,允许选项特征随个体变化;混合 Logit 则进一步放松 IIA 约束。

Probit 模型

多项 Probit 模型(Multinomial Probit, MNP)假设 εiN(0,Σ) \boldsymbol{\varepsilon}_i \sim \mathcal{N}(\mathbf{0}, \boldsymbol{\Sigma}) ,其中协方差矩阵 Σ \boldsymbol{\Sigma} 的非对角元素允许任意替代模式——因此 Probit 天然不受 IIA 约束。然而代价是沉重的:J J 元正态分布的累积分布函数没有闭合形式,选择概率涉及 (J1) (J-1) 维积分:

\begin{equation} \[ P(y_i = j) = \int_{\{\boldsymbol{\varepsilon}:\, \varepsilon_k - \varepsilon_j < V_{ij} - V_{ik}, \; \forall k \neq j\}} \phi(\boldsymbol{\varepsilon}; \mathbf{0}, \boldsymbol{\Sigma}) \, d\boldsymbol{\varepsilon} \] \end{equation}

该积分在 J4 J \geq 4 时传统数值积分已不可行,需依赖 Geweke--Hajivassiliou--Keane (GHK) 模拟器或基于 贝叶斯方法的 MCMC 抽样。自由度 Σ \boldsymbol{\Sigma} 的识别性问题(仅有 (J(J1)/21) (J(J-1)/2 - 1) 个自由参数可识别)使 MNP 的设定与估计均需额外注意。

IIA 问题与扩展模型

为克服 IIA 限制,研究者发展了一系列放松误差独立性的扩展框架:

嵌套 Logit(Nested Logit)将选项划分为 M M 个互斥的"巢"(nests),巢内选项共享一个相关性参数 λm(0,1] \lambda_m \in (0, 1] 。选择概率分解为边缘概率与条件概率的乘积:

\begin{equation} \[ P(y_i = j) = P(y_i \in \text{nest}_m) \cdot P(y_i = j \mid y_i \in \text{nest}_m) \] \end{equation}

λm \lambda_m 越接近 0,巢内替代性越强;λm=1 \lambda_m = 1 退化为标准 Logit。嵌套结构需由经济理论(如商品分类层级、地理区域等)先验给定,其设定是实证中的关键建模选择。

混合 Logit(Mixed Logit, Random Parameters Logit)将系数 βi \boldsymbol{\beta}_i 视为随机变量,以连续混合分布捕捉个体偏好的异质性:

\begin{equation} \[ P(y_i = j) = \int \frac{\exp(\mathbf{x}_{ij}'\boldsymbol{\beta})}{\sum_k \exp(\mathbf{x}_{ik}'\boldsymbol{\beta})} f(\boldsymbol{\beta} \mid \boldsymbol{\theta}) \, d\boldsymbol{\beta} \] \end{equation}

该积分无闭合形式,依赖最大模拟似然(MSL)估计。混合 Logit 极其灵活:在温和正则条件下,任何 RUM 模型的选择概率均可被混合 Logit 以任意精度逼近(McFadden \& Train, 2000)。实践中常见的设定包括对数正态分布(约束符号)与三角分布。

广义极值模型(Generalized Extreme Value, GEV)是 Logit 的另一推广,通过更一般的极值分布生成函数容纳非零误差相关性,嵌套 Logit 与多项 Probit 均可纳入此框架。

估计与推断

DCM 的主流估计方法是 极大似然估计(MLE)。对于标准 Logit,对数似然的一阶条件具有矩估计的解释:实际选择频率与模型预测概率的加权残差之和为零。最大模拟似然(Maximum Simulated Likelihood, MSL)在混合 Logit 等涉及高维积分的模型中不可或缺:以 Monte Carlo 抽取 β(r)f(βθ) \boldsymbol{\beta}^{(r)} \sim f(\boldsymbol{\beta}\mid\boldsymbol{\theta}) ,用模拟均值 1RrP(yi=jβ(r)) \frac{1}{R}\sum_r P(y_i=j \mid \boldsymbol{\beta}^{(r)}) 近似积分。MSL 估计量在 R R 随样本量增长快于 N \sqrt{N} 时具有渐近等价性。

另一重要估计策略是 Berry--Levinsohn--Pakes (BLP) 方法,专为加总数据(市场份额)下的需求估计设计。BLP 通过收缩映射(contraction mapping)反解出产品层面的平均效用 δj \delta_j ,再以工具变量处理价格内生性,广泛用于产业组织与反垄断分析中的需求系统估计。

经济学应用

DCM 在经济学中的应用极为广泛。在交通经济学中,通勤模式选择(自驾/公交/地铁/骑行)是 DCM 的经典实证场景,时间成本与舒适度等属性的边际支付意愿(willingness-to-pay)可直接由系数比 βtime/βcost -\beta_{\text{time}}/\beta_{\text{cost}} 导出。在劳动经济学中,职业选择与移民目的地选择涉及离散选项池,Heckman 选择模型与 DCM 共同构成了选择偏差修正的双支柱。在产业组织中,消费者品牌选择与新产品进入的福利效应评估依赖 BLP 需求系统。在环境经济学中,条件价值评估与选择实验(Choice Experiment)利用 DCM 估计非市场物品(空气质量、濒危物种保护)的支付意愿。在教育经济学中,学校与专业选择分析为教育券与择校政策评估提供了微观行为证据。

局限与前沿

DCM 面临的核心挑战包括:(1) 价格与属性的内生性——未观测的产品质量同时影响需求与定价,BLP 方法以工具变量策略部分解决了这一问题,但有效工具(如成本冲击、竞争对手产品特征)的可得性是实证瓶颈;(2) 选择集的形成——实际决策者通常并非在所有可能选项中做全比较,而是先通过简化的"考虑集"(consideration set)筛选,两步模型的估计比完整 DCM 更为复杂;(3) 高维与大规模选择集——当 J J 极大(如在线零售平台中的数百万 SKU),Logit 的分母需穷举所有选项,计算不可行,负采样与近似方法成为活跃的前沿领域;(4) 机器学习与 DCM 的融合——神经网络、梯度提升树等方法被纳入 Vij V_{ij} 的设定中以捕捉非线性与交互效应,但可解释性与经济推断(如边际效应与弹性)的权衡是方法论争议的焦点。深度学习方法(如 TasteNet)将嵌入表示与效用函数联合学习,代表了 DCM 与 AI 融合的前沿方向。

知识网络

离散选择模型处于微观计量经济学与决策科学的核心交汇点:随机效用理论为 DCM 提供了行为公理基础;Logit 回归是 DCM 最常用的具体形式,也是广义线性模型(GLM)中二项/Bernoulli 族的自然推广;Probit 模型与 Logit 并列为二元选择的基础二元模型;Tobit 模型Heckman 选择模型将离散选择逻辑延伸至删失与样本选择问题;结构估计将 DCM 嵌入一般均衡或动态规划框架,实现反事实政策模拟;贝叶斯方法(尤其 MCMC)为 Probit 与混合 Logit 的高维积分提供了替代性推断范式;BLP 需求估计连接了 DCM 与产业组织实证;选择实验条件价值评估将 DCM 拓展至非市场估值领域。在计算层面,EM 算法在混合 Logit 的潜类别设定中服务于最大似然,而自动微分框架(TensorFlow Probability, Pyro)正使复杂 DCM 的贝叶斯推断门槛大幅降低。