ARTICLE

阶段博弈

阶段博弈（Stage Game）是指在重复博弈（Repeated Game）中每次重复进行的基本单期博弈。它是重复博弈分析的基础构件：重复博弈的整体结构和均衡结果，完全由阶段博弈的策略空间、支付函数以及参与人的贴现因子共同决定。阶段博弈可以是任意形式的博弈——完全信息或不完全信息、同时行动或序贯行动、零和或非零和——但通常假定在每一阶段中所有参与人同时选择行

浏览 0 更新 2026-05-26

阶段博弈（Stage Game）是指在重复博弈（Repeated Game）中每次重复进行的基本单期博弈。它是重复博弈分析的基础构件：重复博弈的整体结构和均衡结果，完全由阶段博弈的策略空间、支付函数以及参与人的贴现因子共同决定。阶段博弈可以是任意形式的博弈——完全信息或不完全信息、同时行动或序贯行动、零和或非零和——但通常假定在每一阶段中所有参与人同时选择行动，并在阶段结束时获得支付。理解阶段博弈的结构是分析合作、惩罚与声誉机制在动态交互中如何形成的逻辑起点。

定义与基本要素

阶段博弈由三个基本要素构成：参与人集合、策略空间和支付函数。参与人集合（ $I = \{1, 2, \dots, n\}$ ）规定哪些主体参与每次博弈；每个参与人 $i$ 的策略空间 $S_i$ 给出其在每一阶段可选行动集合；支付函数 $u_i: S_1 \times \cdots \times S_n \to \mathbb{R}$ 将每次行动组合映射为该参与人的阶段收益。在重复博弈中，同一阶段博弈被重复进行多次（有限次或无限次），参与人的总支付通常是各阶段支付的贴现和。阶段博弈的纳什均衡构成重复博弈中可能维持的"单期行为模式"，而子博弈完美均衡（Subgame Perfect Equilibrium）则进一步要求参与人在每一个可能的子博弈中采取最优行动。

阶段博弈与重复博弈的关系

阶段博弈是理解重复博弈的切入点。无名氏定理（Folk Theorem）是这一关系中最核心的结论：当参与人足够耐心（贴现因子趋近于1）时，无限重复博弈可以支撑阶段博弈的任何一个可行的个体理性支付向量作为子博弈完美均衡结果。这意味着重复博弈可以产生阶段博弈中不存在的合作性结果——典型的例子是囚徒困境（Prisoner's Dilemma）在单次阶段博弈中唯一的纳什均衡是双方背叛，而在无限重复博弈中，"以牙还牙"策略可以支撑双方合作。阶段博弈的均衡支付集决定了重复博弈中可行支付的下界——任何参与人在重复博弈中的长期平均支付不可能低于其在阶段博弈中的最小最大支付（Minmax Payoff），因为在最不利的情况下对手可以永远选择惩罚该参与人的行动。

常见类型

阶段博弈的类型决定重复博弈的分析框架：

完全信息阶段博弈中，所有参与人知道彼此的支付函数和策略空间，如标准囚徒困境、古诺寡头博弈和公共品博弈。此类博弈的均衡分析相对简洁，是重复博弈理论中最经典的研究对象。

不完全信息阶段博弈中，参与人对其他参与人的类型（如成本函数、贴现因子或偏好）缺乏完全了解，但可能拥有关于类型的先验信念。海萨尼转换（Harsanyi Transformation）将此类博弈转化为不完全信息博弈的标准形式。克雷普斯等人（Kreps et al., 1982）证明，即使仅有微小概率存在"合作型"参与人，有限重复囚徒困境中也可能出现早期合作的现象，这一结论解释了声誉机制的理论基础。

随机阶段博弈（Stochastic Game）中，阶段博弈的支付和可行行动集取决于一个随时间演化的状态变量。每次博弈的结果不仅影响参与人的当期支付，还影响下一阶段博弈所处的状态。随机阶段博弈将重复博弈的逻辑推广至更丰富的动态环境，广泛应用于产业组织（如动态寡头竞争）、劳动经济学（如工资与就业的动态决定）和国际关系（如军备竞赛）等领域。

阶段博弈的求解方法

阶段博弈的均衡求解是重复博弈分析的前提。对于有限策略空间的同时行动阶段博弈，可以通过支付矩阵分析寻找纯策略纳什均衡，或使用混合策略纳什均衡的等支付条件求解。对于连续策略空间的博弈（如古诺产量竞争），使用一阶条件方法求解最优反应函数并求交点。当阶段博弈存在多个纳什均衡时，重复博弈中即可利用均衡切换设计惩罚和奖励策略——这正是无名氏定理能够成立的关键技术原因。最小最大支付（Minmax Payoff）的计算对理解重复博弈的约束条件至关重要：它是其他参与人联合惩罚某个参与人时，该参与人所能获得的最高支付。这个支付值决定了该参与人在重复博弈中能够被强制"接受"的最低长期平均收益。

应用

阶段博弈框架广泛应用于经济学的多个领域。在产业组织理论中，古诺或伯川德阶段博弈的重复互动被用来分析合谋的可持续性——当企业数量较少且市场进入障碍较高时，阶段博弈中的合谋结果可以通过"触发策略"或"胡萝卜加大棒"策略在重复博弈中维持。在宏观经济学中，货币政策博弈通常将中央银行与私人部门之间的单期交互设定为阶段博弈，分析通胀偏差（Inflation Bias）和承诺问题的持久影响。在劳动经济学中，效率工资理论将企业与工人之间的单期博弈关系扩展至重复博弈，解释了高于市场出清水平的工资为何可以持续存在。在国际政治经济学中，贸易自由化被建模为阶段博弈的重复——单期博弈中的保护主义倾向在重复互动中可能被互惠关税削减所取代。

局限与扩展

阶段博弈作为分析工具存在若干局限。首先，标准阶段博弈假定博弈结构在每一期中不变，这忽略了经济环境可能因技术创新、制度变迁或外部冲击而发生结构性变化。随机博弈和演化博弈论对此提供了扩展——前者引入状态转移，后者允许策略频率随适应度变化而动态调整。其次，阶段博弈通常假定参与人的贴现因子固定且外生给定，而实际经济行为中，贴现因子可能受市场利率、政策环境和参与人自身财务状况的影响。最后，有限重复博弈中的"逆向归纳悖论"（通过逆向归纳得出——在最后一次博弈中参与人必然背叛，从而前一次也必然背叛，以此类推至首次博弈）在实践中并不总是成立，因为在经验层面的个体并非完全理性自利的假设下的经济人——认知局限、社会偏好和互惠动机都可能偏离阶段博弈标准解的预测。对这些局限的探讨催生了行为博弈论（Behavioral Game Theory）和有限理性博弈分析等研究方向，丰富了阶段博弈的理论应用图景。

参考文献

Fudenberg, D., \& Tirole, J. (1991). *Game Theory*. MIT Press.
Kreps, D. M., Milgrom, P., Roberts, J., \& Wilson, R. (1982). Rational cooperation in the finitely repeated prisoners' dilemma. *Journal of Economic Theory*, 27(2), 245–252.
Friedman, J. W. (1971). A non-cooperative equilibrium for supergames. *Review of Economic Studies*, 38(1), 1–12.
Abreu, D. (1988). On the theory of infinitely repeated games with discounting. *Econometrica*, 56(2), 383–396.
Maskin, E., \& Tirole, J. (1988). A theory of dynamic oligopoly, I and II. *Econometrica*, 56(3), 549–599.
Harsanyi, J. C. (1967–68). Games with incomplete information played by Bayesian players. *Management Science*, 14(3–5), 159–182, 320–334, 486–502.
Mailath, G. J., \& Samuelson, L. (2006). *Repeated Games and Reputations: Long-Run Relationships*. Oxford University Press.

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。