ARTICLE

minimax

Minimax (极小化极大) Minimax(极小化极大)是博弈论和决策理论中最基础且深远的概念之一。其核心思想是:在一个最坏情况(worst-case)导向的决策框架下,决策者选择那个使其最大可能损失最小化的策略——即"最小化最大损失" (minimize the maximum loss)。这一原则既是二人零和博弈的求解方法,也是不确定性下理性决策的保

浏览 0 更新 2025-11-09

Minimax (极小化极大)

Minimax(极小化极大)是博弈论决策理论中最基础且深远的概念之一。其核心思想是:在一个最坏情况(worst-case)导向的决策框架下,决策者选择那个使其最大可能损失最小化的策略——即"最小化最大损失" (minimize the maximum loss)。这一原则既是二人零和博弈的求解方法,也是不确定性下理性决策的保守准则。

Minimax 定理由冯·诺依曼 (John von Neumann) 于 1928 年证明,标志着现代博弈论的诞生。该定理断言:在有限二人零和博弈中,双方均存在最优混合策略,使得一方的最大最小期望收益等于另一方的最小最大期望损失,这个共同值称为博弈的 (value of the game)。1944 年,von Neumann 与摩根斯特恩在《博弈论与经济行为》中将该定理作为整个博弈论大厦的基石。

Minimax 定理的数学表述

考虑一个有限二人零和博弈:局中人 1(行方)从纯策略集 S1={s1,,sm}S_1 = \{s_1, \ldots, s_m\} 中选择,局中人 2(列方)从 S2={t1,,tn}S_2 = \{t_1, \ldots, t_n\} 中选择。当局中人 1 选 sis_i 且局中人 2 选 tjt_j 时,局中人 1 获得支付 u1(si,tj)u_1(s_i, t_j),局中人 2 获得 u2(si,tj)=u1(si,tj)u_2(s_i, t_j) = -u_1(s_i, t_j)。支付矩阵记为 A=(aij)A = (a_{ij}),其中 aij=u1(si,tj)a_{ij} = u_1(s_i, t_j)

允许双方使用混合策略:局中人 1 在 Δ(S1)\Delta(S_1) 上选择概率分布 p\mathbf{p},局中人 2 在 Δ(S2)\Delta(S_2) 上选择 q\mathbf{q}。期望支付为:

v(p,q)=pTAq=i=1mj=1npiaijqjv(\mathbf{p}, \mathbf{q}) = \mathbf{p}^T A \mathbf{q} = \sum_{i=1}^m \sum_{j=1}^n p_i a_{ij} q_j

Minimax 定理 (von Neumann, 1928):对于任意有限零和博弈,

maxpΔ(S1)minqΔ(S2)pTAq=minqΔ(S2)maxpΔ(S1)pTAq=v\max_{\mathbf{p} \in \Delta(S_1)} \min_{\mathbf{q} \in \Delta(S_2)} \mathbf{p}^T A \mathbf{q} = \min_{\mathbf{q} \in \Delta(S_2)} \max_{\mathbf{p} \in \Delta(S_1)} \mathbf{p}^T A \mathbf{q} = v^*

即最大化最小收益恒等于最小化最大损失。这个共同的 vv^* 就是博弈的值。满足该等式的策略对 (p,q)(\mathbf{p}^*, \mathbf{q}^*) 构成博弈的纳什均衡——在零和博弈的特殊情形下,亦称为鞍点 (saddle point)。

Minimax 定理等价于:存在混合策略对 (p,q)(\mathbf{p}^*, \mathbf{q}^*),使得对所有 (p,q)(\mathbf{p}, \mathbf{q}) 成立:

pTAqpTAqpTAq\mathbf{p}^T A \mathbf{q}^* \leq \mathbf{p}^{*T} A \mathbf{q}^* \leq \mathbf{p}^{*T} A \mathbf{q}

该定理的证明可用凸分析中的分离超平面定理或线性规划的对偶定理完成——两者数学等价,均体现了凸性与均衡之间的深层联系。值得指出的是,minimax 定理是 Nash (1950) 更一般均衡存在性定理的特殊情形:当博弈为零和时,Nash 均衡等价于鞍点,均衡策略对互为对方的最优反应,且所有均衡给出相同的值。

决策理论:Maximin 与 Minimax Regret

在决策理论和不确定性经济学中,minimax 原则有两条关键的发展路径。

\paragraph{Wald 的 Maximin 准则} Wald (1945) 将 minimax 逻辑推广到"与自然博弈" (game against nature) 的框架——决策者面对的不是理性对手,而是客观不确定性状态。Maximin 准则要求选择在最坏状态下带来最大收益的行动:maxaminsu(a,s)\max_a \min_s u(a, s)。它反映了极端不确定性下的审慎保守主义,也是 Gilboa 和 Schmeidler (1989) 最大最小期望效用 (maxmin expected utility) 模型的先驱——后者为ambiguity aversion(模糊厌恶)提供了公理化基础。

\paragraph{Savage 的 Minimax Regret} Savage (1951) 提出最小化最大遗憾 (regret)。遗憾定义为实际结果与同一状态下最佳可行结果之差:r(a,s)=maxau(a,s)u(a,s)r(a, s) = \max_{a'} u(a', s) - u(a, s)。Minimax regret 准则选择 minamaxsr(a,s)\min_a \max_s r(a, s),其吸引力在于无需对不确定状态赋予先验概率,体现了"事后看来不该犯大错"的直觉。Manski (2007) 系统阐述了 minimax regret 在政策分析中的实用性,尤其在局部平均处理效应等部分识别问题中效果显著。

Minimax 在经济学中的核心应用

\paragraph{稳健控制与宏观政策} Hansen 和 Sargent (2001, 2008) 将 minimax 思维发展为稳健控制 (robust control) 方法,应用于宏观经济学。政策制定者面临模型不确定性——真实数据生成过程可能偏离基准模型。稳健决策者求解一个 minimax 问题:在最坏可能的模型误设(由"恶意自然"选择)下最大化社会福利。这种 worst-case 方法为货币政策财政政策的前瞻性指引提供了严格的稳健性微观基础。

\paragraph{拍卖与机制设计} 在拍卖理论中,minimax 原则对应着"无先验" (prior-free) 最优机制设计。传统最优拍卖(Myerson, 1981)依赖估价分布的贝叶斯先验;当设计者对分布不确定时,minimax 最优机制——最大化最坏分布下的期望收益——提供了更稳健的方案。这引出了 Bergemann 和 Schlag (2011) 关于 minimax 定价以及稳健机制设计的一系列研究,在数字经济的定价算法设计中影响日益增加。

\paragraph{投资组合与风险管理} 在金融经济学中,minimax 思想体现为最坏情形下的投资组合优化:投资者在资产收益的最坏可能实现下最大化组合收益。这构成了风险价值 (VaR) 和条件风险价值 (CVaR) 等极端风险度量方法的基础逻辑,在危机管理和系统性风险压力测试中具有核心政策意义。

计算与现代发展

Minimax 算法是人工智能和机器学习早期发展的关键。在二人零和博弈(如国际象棋、围棋)中,minimax 搜索结合 α\alpha-β\beta 剪枝构成计算机博弈的基础。深度强化学习中的对抗生成网络 (GANs, Goodfellow et al., 2014) 将生成器与判别器的训练表述为一个 minimax 博弈:minGmaxDV(D,G)\min_G \max_D V(D, G),与 von Neumann 框架一脉相承。

从经济理论角度,当代进展包括:minimax 与纳什均衡精炼概念(如 proper equilibrium)的深层联系——Myerson (1978) 的 proper 均衡要求在 tremble 概率上满足 minimax 层级;与演化博弈论中随机稳定性的关系;以及在算法博弈论中,minimax 对偶性与在线学习算法的 regret 最小化之间的等价性——Freund 和 Schapire (1999) 的 Hedge 算法在零和博弈框架下实现了无 regret 学习,收敛于 minimax 值。Cesa-Bianchi 和 Lugosi (2006) 展示了 minimax 框架如何统一预测理论中的多种方法,从专家建议的聚合到在线凸优化。

Minimax 不仅是零和博弈的技术解,更代表了一套贯穿经济学、统计决策论和计算机科学的深层方法论——在面对根本不确定性时,以"最坏情况"为锚,寻找稳健的行动方案。这条始于 1928 年的思想线索,至今仍在塑造我们理解和应对风险与策略互动的理论工具。