ARTICLE

标准型博弈

标准型博弈 (Normal-Form Game) 标准型博弈（normal-form game），亦称策略型博弈（strategic-form game）或标准式博弈，是博弈论中描述策略互动的两种基本表示框架之一（另一种为展开型博弈）。它通过将博弈抽象为参与者、策略与支付三者的数学对应关系，为分析同时决策情境提供了最简洁的形式化工具。标准型博弈由冯·诺依曼与

浏览 0 更新 2025-12-15

标准型博弈 (Normal-Form Game)

标准型博弈（normal-form game），亦称策略型博弈（strategic-form game）或标准式博弈，是博弈论中描述策略互动的两种基本表示框架之一（另一种为展开型博弈）。它通过将博弈抽象为参与者、策略与支付三者的数学对应关系，为分析同时决策情境提供了最简洁的形式化工具。标准型博弈由冯·诺依曼与奥斯卡·摩根斯坦在《博弈论与经济行为》（1944）中首次系统化，随后经约翰·纳什（1950—1951）引入纳什均衡而成为博弈论的逻辑基石。

形式定义

一个标准型博弈定义为三元组：

\Gamma = \langle N, (S_i)_{i \in N}, (u_i)_{i \in N} \rangle

其中：

$N = \{1, 2, \ldots, n\}$ 为有限参与者集合。
$S_i$ 为参与者 $i$ 的纯策略空间。在有限博弈中 $S_i$ 为有限集；在连续博弈中 $S_i$ 可为区间（如 $S_i = [0, \infty)$ ，对应古诺竞争中的产量选择）。
$u_i : S \to \mathbb{R}$ 为参与者 $i$ 的支付函数，其中 $S = \prod_{i \in N} S_i$ 为所有策略组合（strategy profile）构成的空间。 $u_i(s)$ 表示策略组合 $s = (s_1, \ldots, s_n)$ 下参与者 $i$ 获得的冯·诺依曼-摩根斯坦效用。

策略组合是标准型博弈的核心分析单元： $s_{-i}$ 表示除 $i$ 外所有参与者的策略，故 $s = (s_i, s_{-i})$ 。支付函数将策略组合空间完整映射到实数——博弈的所有战略信息均压缩于这一映射中。

支付矩阵表示

对于二人有限博弈，标准型最直观的呈现方式是支付矩阵（payoff matrix），也称双矩阵（bimatrix）。设参与者 1（行玩家）有 $m$ 个纯策略，参与者 2（列玩家）有 $k$ 个纯策略，则支付由一对 $m \times k$ 矩阵 $(A, B)$ 给出：

a_{ij} = u_1(\text{行策略}_i, \text{列策略}_j), \quad b_{ij} = u_2(\text{行策略}_i, \text{列策略}_j)

经典示例为囚徒困境（Prisoner's Dilemma），其中 $S_1 = S_2 = \{\text{坦白}, \text{沉默}\}$ ，支付矩阵直观展示个体理性与集体理性的冲突。三人及以上博弈则需借助多维数组（tensors）或分层表格表示，维度随参与者数量指数增长——这构成标准型在复杂博弈中的表达瓶颈。

混合策略与期望支付

当参与者在纯策略上随机化时，引入混合策略 $\sigma_i \in \Delta(S_i)$ ，即定义在 $S_i$ 上的概率分布（单纯形）。混合策略组合 $\sigma = (\sigma_1, \ldots, \sigma_n)$ 下的期望支付为：

u_i(\sigma) = \sum_{s \in S} u_i(s) \cdot \prod_{j \in N} \sigma_j(s_j)

混合策略扩展将标准型博弈的策略空间从离散的 $S_i$ 扩充为连续的 $\Delta(S_i)$ ，使纳什存在定理的证明成为可能。混合策略的群体解释（population interpretation）将随机化理解为大规模同质群体中不同纯策略的分布比例，这一视角构成演化博弈论（evolutionary game theory）的微观基础。

纳什均衡与最优反应

在标准型博弈中，策略组合 $\sigma^*$ 为纳什均衡当且仅当：

\forall i \in N, \forall \sigma_i \in \Delta(S_i): \quad u_i(\sigma_i^*, \sigma_{-i}^*) \geq u_i(\sigma_i, \sigma_{-i}^*)

等价地，定义参与者 $i$ 的最优反应对应（best response correspondence）：

b_i(\sigma_{-i}) = \arg\max_{\sigma_i \in \Delta(S_i)} u_i(\sigma_i, \sigma_{-i})

则 $\sigma^*$ 为纳什均衡当且仅当 $\sigma_i^* \in b_i(\sigma_{-i}^*)$ 对所有 $i$ 成立——即纳什均衡是最优反应对应的不动点。纳什存在定理（Nash, 1950）运用角谷不动点定理证明了任何有限标准型博弈均存在至少一个（可能混合策略）纳什均衡。

占优与迭代剔除

标准型博弈提供了比纳什均衡更基本的解概念：严格占优策略 $s_i^*$ 满足对所有 $s_{-i}$ 及所有 $s_i' \neq s_i^*$ 有 $u_i(s_i^*, s_{-i}) > u_i(s_i', s_{-i})$ 。迭代剔除严格劣策略（IESDS）通过逐轮删除永不成为最优反应的策略来缩小均衡候选集——该过程不依赖剔除顺序，且所有纳什均衡均 survives IESDS。当 IESDS 得到唯一策略组合时，该组合即为博弈的唯一纳什均衡。

标准型与展开型的转化

任一展开型博弈（extensive-form game）均可转化为等价的标准型：将展开型中每个参与者在各信息集上的完整相机计划（contingent plan）映射为标准型中的一个纯策略。然而此转化存在维度爆炸：若某参与者在 $m$ 个信息集上各有 $k$ 个可选行动，则其标准型纯策略数可达 $k^m$ 。此外，标准型"压平"博弈树会丢失时序与信息结构——同一标准型可对应多个不同的展开型，这促使了子博弈完美均衡等动态精炼概念的发展。

二人零和博弈与极小极大定理

标准型博弈的重要特殊类为二人零和博弈：对所有 $s$ 有 $u_1(s) + u_2(s) = 0$ 。冯·诺依曼极小极大定理（1928）证明：在混合策略下存在值 $v$ 使行玩家可保证期望支付不低于 $v$ ，列玩家可将行玩家支付压制于不超过 $v$ ；双方的最优混合策略构成纳什均衡。这一结果为博弈论奠定了首个严格的数学定理，并在网络安全、军事资源配置等领域有广泛应用。

贝叶斯博弈作为标准型的扩展

哈桑尼（1967—1968）通过引入"自然"抽取参与者的类型（type），将不完全信息博弈转化为标准型框架下的贝叶斯博弈：每个参与者的策略为类型依存的行动计划 $s_i : \Theta_i \to S_i$ ，支付为对他人类型取期望后的值。贝叶斯纳什均衡即为该扩展标准型博弈的纳什均衡。此扩展保持了标准型的数学结构，同时将信息不对称纳入分析。

标准型与机制设计

标准型博弈是机制设计(mechanism design)理论的基础语言。一个机制可视为设计者构造的标准型博弈：参与者集合为 $N$ ，策略空间 $S_i$ 对应各参与者的消息空间(message space)，支付函数由设计者通过结果函数(outcome function) $g: S \to X$ 与各参与者在结果 $X$ 上的偏好共同决定。显示原理(revelation principle)的核心洞察——任何均衡可实现的社会选择函数均可由一个直接机制(direct mechanism)以诚实均衡实现——正是在标准型博弈的框架内陈述并证明的。这一联系使标准型博弈超越了描述性工具的角色，成为规范性制度设计的数学基座。

局限与意义

标准型博弈的根本局限在于：①抽象掉时序，无法刻画承诺、威胁与报复等动态机制；②参与者数或策略数增长时，支付矩阵维度指数爆炸；③假设同时独立选择策略，排除了关联均衡等协调可能（引入奥曼的关联均衡可部分缓解）。尽管如此，标准型博弈凭借其数学简洁性、纳什均衡理论的完备性以及作为贝叶斯博弈与演化博弈扩展基底的灵活性，始终是博弈论教学、建模与理论推演的出发点——掌握标准型即掌握博弈论的"语法"。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。