知经 KNOWECON · 卓越的经济金融统计数学学习平台

动态博弈

# 动态博弈 (Dynamic Game)

动态博弈 (Dynamic Game) 是{{{博弈论}}}的一个核心分支,它研究的是参与人在不同时间点、按照一定顺序做出决策的战略互动情景。与所有参与人同时决策的{{{静态博弈}}} (Static Game) 不同,动态博弈的核心特征在于 行动的序列性 (Sequentiality)信息的传递性 (Information Transmission)。在一个动态博弈中,后行动的参与人可以观察到(至少部分)先行动的参与人所采取的行动,并以此为依据来制定自己的最优策略。

这种时间维度上的先后顺序使得威胁、承诺、声誉等因素在博弈中扮演了至关重要的角色。因此,动态博弈为分析现实世界中更为复杂的战略互动(如企业间的市场进入与反击、国际关系中的谈判、以及法律程序中的诉讼与和解等)提供了更贴切的分析框架。

## 动态博弈的表述:扩展式博弈

为了清晰地描述动态博弈的结构,经济学家通常使用 扩展式表述 (Extensive Form Representation),也就是我们常说的 博弈树 (Game Tree)。一个博弈树由以下几个基本要素构成:

1. 节点 (Nodes):博弈树中的点。 * 初始节点 (Initial Node):博弈的起点,代表第一个决策的发生。 * 决策节点 (Decision Nodes):博弈进程中,轮到某个参与人做出行动选择的点。每个决策节点都明确指定了该由哪位参与人行动。 * 终点节点 (Terminal Nodes):博弈的终点,代表所有决策已经完成,博弈结束。每个终点节点都对应一组特定收益。

2. 枝 (Branches):连接节点的线段,代表在某个决策节点上可以采取的 行动 (Action)

3. 信息集 (Information Sets):这是理解动态博弈的关键概念。一个信息集是某个参与人的一个或多个决策节点的集合。如果多个决策节点同属于一个信息集,意味着当轮到这位参与人行动时,他/她无法区分自己究竟处于这个集合中的哪一个具体节点上。 * 当一个博弈中所有的信息集都只包含一个决策节点时,我们称之为 {{{完美信息博弈}}} (Game of Perfect Information)。这意味着每个参与人在做决策时,都确切地知道博弈进行到哪一步,以及之前所有参与人采取了什么行动。例如,{{{象棋}}}和围棋。 * 当博弈中至少存在一个信息集包含多个决策节点时,我们称之为 {{{不完美信息博弈}}} (Game of Imperfect Information)。这意味着至少有一位参与人在决策时,不完全清楚博弈的历史进程。

4. 收益 (Payoffs):在每一个终点节点上,都会明确标示出博弈结束后,各个参与人获得的效用或回报。这通常用一个向量表示,例如 $(u_1, u_2, \ldots, u_n)$,其中 $u_i$ 是参与人 $i$ 的收益。

## 动态博弈的解概念

虽然{{{纳什均衡}}} (Nash Equilibrium) 的概念同样适用于动态博弈,但它在动态环境下存在严重缺陷。某些纳什均衡可能依赖于 不可信威胁 (Non-credible Threat)——即某个参与人声称要采取某种行动,但当博弈真的进行到那个决策点时,采取该行动实际上对其自身是不利的。理性的参与人不会执行这种对自己有害的威胁。

为了剔除这些不合理的均衡,{{{博弈论}}}发展出了更具说服力的解概念,其中最核心的是{{{子博弈精炼纳什均衡}}}。

### 子博弈精炼纳什均衡 (Subgame Perfect Nash Equilibrium, SPNE)

{{{子博弈}}} (Subgame) 是原始博弈的一部分,它本身也构成一个完整的博弈。一个子博弈必须满足: 1. 它始于一个只包含单个决策节点的信息集。 2. 它包含该决策节点之后的所有节点和分支。 3. 它不分割任何信息集。

{{{子博弈精炼纳什均衡}}} (SPNE) 的定义是:一个策略组合,该策略组合在整个博弈的每一个子博弈中都构成一个{{{纳什均衡}}}。

这个概念的精妙之处在于,它要求参与人的策略在博弈的任何一个可能阶段都是最优的,即使这个阶段在均衡路径上并不会真的出现。这自然而然地排除了所有不可信威胁,因为一个不可信威胁在其对应的子博弈中并不是最优选择,因此也就不可能构成该子博弈的纳什均衡。

### 求解方法:逆向归纳法 (Backward Induction)

对于有限期的完美信息动态博弈,寻找SPNE的标准方法是 逆向归纳法 (Backward Induction)。其步骤如下:

1. 从博弈的最后一个阶段开始分析:找到博弈树中最接近终点节点的那些决策节点。 2. 确定最后阶段的最优行动:在每一个最后的决策节点上,确定轮到行动的参与人为了最大化自身收益会选择哪个行动。 3. “剪枝”并向上回溯:将最后阶段的最优行动所带来的收益作为该决策节点的收益,并将其视为一个新的、简化的终点。然后,移动到倒数第二个阶段的决策节点,重复上述分析过程。 4. 持续回溯直至初始节点:不断重复此过程,一步步向博弈的初始节点回溯,直到确定了初始节点的参与人的最优行动。

所有在回溯过程中确定的最优行动路径组合起来,就构成了该博弈的子博弈精炼纳什均衡。

#### 示例:市场进入博弈

假设一个潜在的 进入者 (Entrant) 考虑是否进入一个由 在位者 (Incumbent) 垄断的市场。 * 阶段一:进入者选择 进入 (Enter)不进入 (Stay Out)。 * 如果不进入,博弈结束。收益为:进入者 $0,在位者 $2(维持垄断利润)。 * 阶段二:如果进入者选择进入,则轮到在位者决策。在位者可以选择 斗争 (Fight)(例如发动价格战)或 默许 (Accommodate)(接受市场被瓜分)。 * 如果斗争,两败俱伤。收益为:进入者 $-1,在位者 $-1。 * 如果默许,双方瓜分市场。收益为:进入者 $1,在位者 $1。

我们使用逆向归纳法来求解SPNE: 1. 分析阶段二(在位者的决策):在位者面临进入者已经进入的局面(这是一个子博弈)。他比较选择“斗争”的收益($-1)和选择“默许”的收益($1)。作为{{{理性人}}},他会选择“默免”,因为 $1 > -1$。 2. 回溯到阶段一(进入者的决策):进入者在决策时,能够预见到如果自己进入,理性的在位者将会选择“默许”,从而自己将获得 $1 的收益。他将这个预期的收益与“不进入”的收益($0)进行比较。因为 $1 > 0$,进入者会选择“进入”。

因此,这个博弈的 子博弈精炼纳什均衡 是:(进入者选择 进入;在位者选择 默许)。均衡结果是进入者进入市场,在位者默许,双方收益为 ($1, $1)。

注意,(不进入, 斗争) 也是一个{{{纳什均衡}}},因为它依赖于在位者“你敢进来我就斗争”的威胁。但这个威胁是不可信的,因此它不是一个SPNE。

## 动态博弈的扩展

### 重复博弈 (Repeated Games)

{{{重复博弈}}}是动态博弈的一种重要特例,其中同一个{{{静态博弈}}}(称为 阶段博弈, Stage Game)被重复进行多期。 * 在 {{{有限重复博弈}}} (Finitely Repeated Games) 中,如果阶段博弈有唯一的纳什均衡,那么根据逆向归纳法,每一期的唯一SPNE就是重复进行该纳什均衡。 * 在 {{{无限重复博弈}}} (Infinitely Repeated Games)(或结束概率不为1的博弈)中,情况则大为不同。由于没有明确的“最后一期”,参与人需要考虑其当前行为对未来合作关系的影响。这使得合作成为可能。{{{无名氏定理}}} (Folk Theorem) 指出,如果参与人足够有耐心(即未来的收益足够重要,{{{贴现因子}}} 足够高),那么任何比纳什均衡结果对所有人都好的收益组合,都可以通过某种策略(如“冷酷触发策略”)作为SPNE来实现。

### 不完美信息动态博弈

当博弈存在不完美信息时,逆向归纳法不再适用。此时需要更复杂的解概念,如 {{{精炼贝叶斯均衡}}} (Perfect Bayesian Equilibrium, PBE)。PBE不仅要求策略是最优的,还引入了 {{{信念}}} (Beliefs) 的概念,即参与人对于自己处于信息集中哪个节点的主观概率判断,并要求这些信念需要通过{{{贝叶斯法则}}} (Bayes' Rule) 进行理性更新。