ARTICLE

扩展式表示

扩展式表示 (Extensive-Form Representation) 扩展式表示是博弈论中描述博弈结构的两种基本方式之一，与策略式表示（标准式）并列。扩展式表示通过博弈树（game tree）刻画博弈的时序结构，明确展示参与者在什么时点行动、拥有什么可选行动、知道什么信息，以及每种行动序列下的最终收益。当博弈涉及序贯行动（sequential move

浏览 0 更新 2025-11-08

扩展式表示 (Extensive-Form Representation)

扩展式表示是博弈论中描述博弈结构的两种基本方式之一，与策略式表示（标准式）并列。扩展式表示通过博弈树（game tree）刻画博弈的时序结构，明确展示参与者在什么时点行动、拥有什么可选行动、知道什么信息，以及每种行动序列下的最终收益。当博弈涉及序贯行动（sequential moves）或不完全信息时，扩展式表示是不可替代的分析工具。

博弈树的构成要素

一个扩展式博弈由以下要素构成：

节点 (Nodes)：博弈树上的决策点。包括决策节点（参与者在此时行动）和终节点（对应一个完整行动序列，标注各参与者的收益）。
分支 (Branches / Edges)：每个决策节点发出的有向边，代表可供该参与者选择的行动。
参与者标签 (Player Labels)：每个决策节点标注当前行动的参与者。若为"自然"（Nature），表示在该节点进行的是按给定概率分布的随机选择。
信息集 (Information Sets)：将某个参与者无法区分的多个决策节点划入同一信息集，表示轮到该参与者行动时他不知道自己在信息集中的哪一个具体节点上。这是建模不完全信息或同时行动的关键工具。
收益 (Payoffs)：每个终节点附有各参与者的效用值。

完美信息与不完全信息

如果每一个信息集都是单点集（即仅含一个决策节点），则称该博弈具有完美信息（perfect information）：每位参与者在行动时完全知晓之前所有的行动历史。象棋、围棋属于此类。

若存在包含两个及以上决策节点的信息集，则称该博弈具有不完全信息（imperfect information）。不完全信息可能源于：

参与者同时行动（如剪刀石头布），表现为后行动者的信息集包含多个节点；
参与者无法完美观察到对手之前的选择（如囚徒困境中双方不知对方选择）。

注意区分博弈论的"不完全信息"与信息经济学中的不对称信息：完美信息是关于行动历史的可知性，不对称信息是关于参与者类型或特征的可知性。

与策略式表示的对比

扩展式：显式地建模行动时序和信息结构，直观但可能因博弈树规模而难以处理。
策略式：将每位参与者的策略定义为从信息集到行动的完整映射函数，压缩为收益矩阵，便于使用纳什均衡等解概念，但丢失了时序信息。

任意有限扩展式博弈均可等价的策略式表示，但反之不然：策略式博弈有多种扩展式表示。

子博弈与子博弈完美均衡

扩展式表示的独特优势在于可以定义子博弈（subgame）：从某个单点信息集的决策节点开始，包含该节点所有后继节点及相应收益形成的博弈子树。基于子博弈概念，子博弈完美均衡（Selten, 1965）要求均衡策略不仅在原博弈上构成纳什均衡，在每一个子博弈上也构成纳什均衡。这一精炼排除了不可信威胁，是序贯理性思想的形式化。

应用与扩展

扩展式表示广泛用于分析：

进入威慑博弈：在位者是否通过产能投资可信地威胁打击进入者（斯坦克伯格模型的扩展式表达）；
讨价还价博弈：鲁宾斯坦交替出价模型以无限扩展式博弈刻画双方轮流出价、折现因子决定均衡分配；
信号博弈：发送者选择信号→接收者观察信号后行动，信息集用于刻画不完全信息下的信念更新，是完美贝叶斯均衡的分析框架。

此外，将扩展式博弈转化为策略式后，可通过行为策略（behavior strategies）——在每个信息集上独立随机化的策略——替代混合策略，而库恩定理保证了在完美回忆条件下两者等价。现代应用中，扩展式表示是博弈树搜索（如扑克AI Libratus、Pluribus）及反事实后悔最小化（CFR）算法的理论基石。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。