ARTICLE

有限重复博弈

有限重复博弈（Finitely Repeated Game）是指同一阶段博弈（stage game）重复进行有限次数的博弈结构。每个参与者在每次重复中同时选择行动，并观察到历史行动后进入下一阶段博弈。所有参与者均知晓博弈将在固定且有限的期数后终止。有限重复博弈是重复博弈理论的核心研究对象之一，其基本结论——即唯一纳什均衡的有限重复无法摆脱合作困境的"连锁店悖

浏览 5 更新 2026-05-26

有限重复博弈（Finitely Repeated Game）是指同一阶段博弈（stage game）重复进行有限次数的博弈结构。每个参与者在每次重复中同时选择行动，并观察到历史行动后进入下一阶段博弈。所有参与者均知晓博弈将在固定且有限的期数后终止。有限重复博弈是重复博弈理论的核心研究对象之一，其基本结论——即唯一纳什均衡的有限重复无法摆脱合作困境的"连锁店悖论"——与直觉上人们在实际互动中观察到的合作行为形成尖锐对比，从而推动了不完全信息和声誉理论的重大发展。

模型设定与基本结论

有限重复博弈的形式化定义建立在阶段博弈的基础上。设阶段博弈 $G = \{ N, (S_i), (u_i) \}$ 为一个同时行动博弈，其中 $N$ 是参与者集合， $S_i$ 是参与者 $i$ 的行动集， $u_i$ 是其收益函数。有限重复博弈 $\Gamma(T)$ 将 $G$ 重复 $T$ 次，其中 $T$ 是有限正整数且为共同知识。参与者在第 $t$ 期的行动可依赖于此前所有期的历史 $h^t = (a^1, a^2, \dots, a^{t-1})$ 。参与者的总收益通常取各期贴现收益之和或平均收益。逆向归纳法（Backward Induction）是分析有限重复博弈的核心方法：从最后一期 $T$ 开始分析，由于之后不再有未来互动，参与者在最后一期只会选择阶段博弈的纳什均衡策略；倒推到第 $T-1$ 期时，参与者知道最后一期的结果已被锁定，因而仍然没有偏离纳什均衡的激励，依此类推。由此得到著名的"连锁店悖论"（Chain Store Paradox, Selten, 1978）：如果阶段博弈存在唯一的纳什均衡，那么有限重复博弈的唯一子博弈完美均衡就是在每一期都重复这一纳什均衡——合作无法通过有限重复本身来达成。

多重均衡与民间定理

当阶段博弈存在多个纳什均衡时，有限重复博弈的情况更为丰富。有限重复博弈的民间定理（Folk Theorem for Finitely Repeated Games）指出：对于任意满足个体理性约束的收益向量，只要阶段博弈存在两个在不同均衡下收益不同的参与者，且博弈重复足够多次，就可以通过"奖惩切换"策略构造子博弈完美均衡，使得平均收益逼近该向量。具体而言，在有限重复博弈中，如果存在两个纯策略纳什均衡 $a^*$ 和 $a^{**}$ ，使得至少一名参与者在这两个均衡下的收益不同，则可以利用"先合作、偏离则切换至较差的纳什均衡进行惩罚"的威慑结构来支撑合作。由于博弈期数有限且惩罚可以在剩余期数内持续，偏离合作所获得的短期收益不足以弥补后续惩罚造成的损失——只要剩余期数足够长。这一结论区别于无限重复博弈中通过"永久惩罚威胁"来支撑合作的机制，说明有限期限本身并不必然排除合作：关键前提是阶段博弈必须具备多重均衡，且不同均衡为各参与者提供的收益存在差异。

不完全信息与KMRW声誉模型

有限重复博弈与直觉间的最深刻张力来自于囚徒困境。在阶段博弈为囚徒困境且唯一纳什均衡为"背叛"的情况下，逆向归纳法的逻辑预测：即使在有限重复囚徒困境中，理性参与者也永远无法达成合作。然而，实验经济学的大量证据表明，在实验室环境中，参与者通常在有限重复囚徒困境的前期阶段显著合作，仅在末期才出现合作瓦解。这一理论与现实的断裂由克雷普斯-米尔格龙-罗伯茨-威尔逊声誉模型（Kreps, Milgrom, Roberts \& Wilson, 1982, 简称KMRW模型）加以弥合。KMRW模型证明：在有限重复囚徒困境中，只要存在关于参与者类型的微小不完全信息——即存在一个小概率 $\varepsilon$ 使得对方可能是"合作型"（即始终选择合作的非理性类型）——理性参与者就会为维持声誉而在前期选择合作。该模型的核心机制是：理性参与者以概率 $\varepsilon$ 面临一个确实会实施"以牙还牙"策略的非理性对手，即使在有限期限内，模仿合作行为所建立的声音效应也足以使合作在绝大部分博弈期得以维持。KMRW模型深刻揭示了有限重复博弈中合作的制度基础——不完全信息下的声誉关切——并成为组织理论、国际政治经济学和产业组织理论中分析合作问题的基础框架。

应用与拓展

有限重复博弈的结构在经济学各领域有着广泛应用。在产业组织中，寡头企业在有限期内进行价格竞争时，可通过默契配合来维持高于边际成本的价格水平，只要参与企业之间存在关于竞争对手成本类型或市场需求的不确定性。在国际贸易中，两国在有限次关税谈判中的合作行为受制于对对方报复意愿的不确定性。在宏观经济学中，政策制定者与公众之间的有限期动态博弈——如货币政策的时间不一致性问题——可以通过声誉机制来部分缓解。在公共品供给中，有限重复博弈模型被用于分析自愿捐款机制的效率特征，研究表明当参与者预期互动即将结束时，捐款水平显著下降，这与逆向归纳逻辑基本一致。实验经济学对有限重复博弈进行了大量检验：总体而言，参与者在有限重复博弈中的合作显著高于标准逆向归纳的预测值，但合作行为随博弈期数增加和参与者经验积累而逐步收敛于理论预测，说明逆向归纳逻辑在经验充分的主体中具有较强的解释力。有限重复博弈的理论与实验研究共同揭示了理性假设与真实行为之间的深度张力，为行为博弈论和创新制度设计提供了丰富的理论资源和政策启示。

参考文献

Selten, R. (1978). The chain store paradox. *Theory and Decision*, 9(2), 127–159.
Kreps, D. M., Milgrom, P., Roberts, J., \& Wilson, R. (1982). Rational cooperation in the finitely repeated prisoners' dilemma. *Journal of Economic Theory*, 27(2), 245–252.
Benoit, J.-P., \& Krishna, V. (1985). Finitely repeated games. *Econometrica*, 53(4), 905–922.
Fudenberg, D., \& Maskin, E. (1986). The folk theorem in repeated games with discounting or with incomplete information. *Econometrica*, 54(3), 533–554.
Axelrod, R. (1984). *The Evolution of Cooperation*. Basic Books.
Osborne, M. J., \& Rubinstein, A. (1994). *A Course in Game Theory*. MIT Press.

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。