ARTICLE

无限重复博弈

无限重复博弈 (Infinitely Repeated Games) 无限重复博弈是博弈论中研究长期互动关系的核心框架，指同一个阶段博弈（Stage Game）在无限个时期 t = 1, 2, 中重复进行，且参与者在每一期开始前都能观察到此前所有博弈的历史。其关键特征在于博弈没有预设的终止期限——或者等价地，每一期结束后博弈继续的概率为正。正是这种"永无止境

浏览 4 更新 2026-07-18

无限重复博弈 (Infinitely Repeated Games)

无限重复博弈是博弈论中研究长期互动关系的核心框架，指同一个阶段博弈（Stage Game）在无限个时期 $t = 1, 2, \ldots$ 中重复进行，且参与者在每一期开始前都能观察到此前所有博弈的历史。其关键特征在于博弈没有预设的终止期限——或者等价地，每一期结束后博弈继续的概率为正。正是这种"永无止境"的预期，从根本上改变了参与者的策略激励：在有限重复博弈中由逆向归纳导致的合作崩溃（如连锁店悖论），在无限时间视野下得以修复，使得合作、惩罚与声誉机制成为均衡的一部分。

基本框架与折现因子

设 $G$ 为一个 $n$ 人阶段博弈，每个参与者 $i$ 在选择行动 $a_i \in A_i$ 后获得当期收益 $u_i(a_1, \ldots, a_n)$ 。在无限重复博弈 $G^\infty$ 中，参与者 $i$ 的总收益为各期收益的折现和：

U_i = \sum_{t=1}^{\infty} \delta^{t-1} u_i(a^t)

其中 $\delta \in (0, 1)$ 为折现因子（Discount Factor），它既是时间偏好的度量，也可解释为博弈在每一期结束后继续的概率。 $\delta$ 的大小至关重要： $\delta$ 越接近 1，参与者对未来的重视程度越高，合作越容易维持； $\delta$ 接近 0 时，参与者几乎只关心当期收益，无限重复博弈退化为一次性博弈。在宏观解释上， $\delta$ 也可由 $1/(1+r)$ 表达，其中 $r$ 为利率。

触发策略与无名氏定理

无限重复博弈中，支撑合作的核心策略机制是触发策略（Trigger Strategy）。最经典的形态是冷酷触发策略（Grim Trigger Strategy）：参与者在第一期选择合作；只要历史上所有参与者都始终合作，就继续合作；一旦任何人在任何一期偏离，从下一期开始永久性地选择阶段博弈的纳什均衡作为惩罚。

以囚徒困境为例：阶段博弈中双方都有占优策略"背叛"（Defect），唯一的纳什均衡是（背叛，背叛），收益为 $(d, d)$ ，而合作收益为 $(c, c)$ 满足 $c > d$ 。在冷酷触发策略下，参与者 $i$ 维持合作的条件为：

c + \delta c + \delta^2 c + \cdots \geq c_{\text{dev}} + \delta d + \delta^2 d + \cdots

化简得 $\delta \geq \frac{c_{\text{dev}} - c}{c_{\text{dev}} - d}$ 。只要折现因子足够大，合作就能作为子博弈精炼均衡出现。

这一结论被无名氏定理（Folk Theorem）一般化：在无限重复博弈中，只要折现因子足够接近 1，任何满足个体理性条件（即每个参与者的收益不低于其最小最大收益）的可行收益向量都可以作为某个子博弈精炼均衡的收益结果。无名氏定理揭示了无限重复博弈中均衡的"多重性"——从完全合作到各种惩罚路径，无数种行为模式都可以被均衡化。

惩罚策略的演进：从冷酷到针锋相对

冷酷触发策略虽有理论上的简洁性，但其"永不原谅"的性质在现实中既不可信也非最优。更稳健的惩罚策略包括：

针锋相对（Tit-for-Tat）：每一期重复对手上一期的行动。由阿克塞罗德（Axelrod）在重复囚徒困境的计算机竞赛中证明为最成功的策略之一，其优势在于善意性（先合作）、报复性（对背叛立即反击）和宽容性（对手恢复合作后立即恢复合作）。
纳什回复策略（Nash Reversion）：偏离发生后，双方永久回到阶段博弈纳什均衡。冷酷触发策略是纳什回复策略的特例。
胡萝卜加大棒（Carrot-and-Stick）：惩罚是严厉但短暂的，惩罚期满后自动恢复合作，避免了永久惩罚的效率损失。

子博弈精炼与重新谈判证明

无限重复博弈存在多重均衡，这既是其优势（可解释各种社会规范的涌现），也带来重新谈判证明（Renegotiation Proofness）的问题：如果合作偏离后，理性的参与者能否"重新谈判"回到合作路径而非执行事前约定的低效惩罚？若重新谈判是可能的，触发策略的均衡可能崩溃。弱重新谈判证明均衡（Weak Renegotiation-Proof Equilibrium）等精炼概念对此进行了探讨。

从子博弈精炼的角度，无限重复博弈区别于有限重复博弈的关键在于：在任何一期之后的子博弈中，剩余结构仍是一个无限重复博弈，因此惩罚的威胁在每一个子博弈中都是可信的。逆向归纳法在无限时间框架下失效，这使得合作均衡能够被精炼。

经济学应用

无限重复博弈在经济学中有广泛的应用：

合谋与卡特尔稳定性：寡头企业间的价格合谋本质上是无限重复博弈。每一期企业选择是否遵守合谋价格，偏离者将面临价格战的惩罚。折现因子（受利率和行业增长速度影响）决定了合谋的可持续性。
声誉机制：在无限重复的委托代理关系中，代理人履行承诺的动力来自未来合作的租金。克雷普斯（Kreps）、米尔格罗姆（Milgrom）、罗伯茨（Roberts）和威尔逊（Wilson）的声誉模型（KMRW模型）证明，即使参与者有不完全信息，有限重复博弈中也能维持合作行为。
主权债务与国际关系：国家间履约、国际条约的执行以及主权债务偿还都可纳入无限重复博弈框架分析——违约国将面临被排除在未来国际资本市场之外的惩罚。
货币政策的时间不一致性：中央银行在每一期面临是否通货膨胀的权衡，无限重复互动下"通胀倾向"可通过声誉机制得到约束。

无限重复博弈为理解"在没有外部强制执行的情况下，自利的个体如何实现合作"提供了严谨的理论基础，是现代微观经济学和政治经济学不可或缺的分析工具。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。