ARTICLE

无限重复博弈

无限重复博弈 (Infinitely Repeated Games) 无限重复博弈是博弈论中研究长期互动关系的核心框架,指同一个阶段博弈(Stage Game)在无限个时期 t = 1, 2, 中重复进行,且参与者在每一期开始前都能观察到此前所有博弈的历史。其关键特征在于博弈没有预设的终止期限——或者等价地,每一期结束后博弈继续的概率为正。正是这种"永无止境

浏览 4 更新 2026-07-18

无限重复博弈 (Infinitely Repeated Games)

无限重复博弈博弈论中研究长期互动关系的核心框架,指同一个阶段博弈(Stage Game)在无限个时期 t=1,2,t = 1, 2, \ldots 中重复进行,且参与者在每一期开始前都能观察到此前所有博弈的历史。其关键特征在于博弈没有预设的终止期限——或者等价地,每一期结束后博弈继续的概率为正。正是这种"永无止境"的预期,从根本上改变了参与者的策略激励:在有限重复博弈中由逆向归纳导致的合作崩溃(如连锁店悖论),在无限时间视野下得以修复,使得合作、惩罚与声誉机制成为均衡的一部分。

基本框架与折现因子

GG 为一个 nn 人阶段博弈,每个参与者 ii 在选择行动 aiAia_i \in A_i 后获得当期收益 ui(a1,,an)u_i(a_1, \ldots, a_n)。在无限重复博弈 GG^\infty 中,参与者 ii 的总收益为各期收益的折现和:

Ui=t=1δt1ui(at)U_i = \sum_{t=1}^{\infty} \delta^{t-1} u_i(a^t)

其中 δ(0,1)\delta \in (0, 1)折现因子(Discount Factor),它既是时间偏好的度量,也可解释为博弈在每一期结束后继续的概率。δ\delta 的大小至关重要:δ\delta 越接近 1,参与者对未来的重视程度越高,合作越容易维持;δ\delta 接近 0 时,参与者几乎只关心当期收益,无限重复博弈退化为一次性博弈。在宏观解释上,δ\delta 也可由 1/(1+r)1/(1+r) 表达,其中 rr 为利率。

触发策略与无名氏定理

无限重复博弈中,支撑合作的核心策略机制是触发策略(Trigger Strategy)。最经典的形态是冷酷触发策略(Grim Trigger Strategy):参与者在第一期选择合作;只要历史上所有参与者都始终合作,就继续合作;一旦任何人在任何一期偏离,从下一期开始永久性地选择阶段博弈的纳什均衡作为惩罚。

囚徒困境为例:阶段博弈中双方都有占优策略"背叛"(Defect),唯一的纳什均衡是(背叛,背叛),收益为 (d,d)(d, d),而合作收益为 (c,c)(c, c) 满足 c>dc > d。在冷酷触发策略下,参与者 ii 维持合作的条件为:

c+δc+δ2c+cdev+δd+δ2d+c + \delta c + \delta^2 c + \cdots \geq c_{\text{dev}} + \delta d + \delta^2 d + \cdots

化简得 δcdevccdevd\delta \geq \frac{c_{\text{dev}} - c}{c_{\text{dev}} - d}。只要折现因子足够大,合作就能作为子博弈精炼均衡出现。

这一结论被无名氏定理(Folk Theorem)一般化:在无限重复博弈中,只要折现因子足够接近 1,任何满足个体理性条件(即每个参与者的收益不低于其最小最大收益)的可行收益向量都可以作为某个子博弈精炼均衡的收益结果。无名氏定理揭示了无限重复博弈中均衡的"多重性"——从完全合作到各种惩罚路径,无数种行为模式都可以被均衡化。

惩罚策略的演进:从冷酷到针锋相对

冷酷触发策略虽有理论上的简洁性,但其"永不原谅"的性质在现实中既不可信也非最优。更稳健的惩罚策略包括:

  1. 针锋相对(Tit-for-Tat):每一期重复对手上一期的行动。由阿克塞罗德(Axelrod)在重复囚徒困境的计算机竞赛中证明为最成功的策略之一,其优势在于善意性(先合作)、报复性(对背叛立即反击)和宽容性(对手恢复合作后立即恢复合作)。
  2. 纳什回复策略(Nash Reversion):偏离发生后,双方永久回到阶段博弈纳什均衡。冷酷触发策略是纳什回复策略的特例。
  3. 胡萝卜加大棒(Carrot-and-Stick):惩罚是严厉但短暂的,惩罚期满后自动恢复合作,避免了永久惩罚的效率损失。

子博弈精炼与重新谈判证明

无限重复博弈存在多重均衡,这既是其优势(可解释各种社会规范的涌现),也带来重新谈判证明(Renegotiation Proofness)的问题:如果合作偏离后,理性的参与者能否"重新谈判"回到合作路径而非执行事前约定的低效惩罚?若重新谈判是可能的,触发策略的均衡可能崩溃。弱重新谈判证明均衡(Weak Renegotiation-Proof Equilibrium)等精炼概念对此进行了探讨。

从子博弈精炼的角度,无限重复博弈区别于有限重复博弈的关键在于:在任何一期之后的子博弈中,剩余结构仍是一个无限重复博弈,因此惩罚的威胁在每一个子博弈中都是可信的。逆向归纳法在无限时间框架下失效,这使得合作均衡能够被精炼。

经济学应用

无限重复博弈在经济学中有广泛的应用:

  1. 合谋与卡特尔稳定性:寡头企业间的价格合谋本质上是无限重复博弈。每一期企业选择是否遵守合谋价格,偏离者将面临价格战的惩罚。折现因子(受利率和行业增长速度影响)决定了合谋的可持续性。
  2. 声誉机制:在无限重复的委托代理关系中,代理人履行承诺的动力来自未来合作的租金。克雷普斯(Kreps)、米尔格罗姆(Milgrom)、罗伯茨(Roberts)和威尔逊(Wilson)的声誉模型(KMRW模型)证明,即使参与者有不完全信息,有限重复博弈中也能维持合作行为。
  3. 主权债务与国际关系:国家间履约、国际条约的执行以及主权债务偿还都可纳入无限重复博弈框架分析——违约国将面临被排除在未来国际资本市场之外的惩罚。
  4. 货币政策的时间不一致性:中央银行在每一期面临是否通货膨胀的权衡,无限重复互动下"通胀倾向"可通过声誉机制得到约束。

无限重复博弈为理解"在没有外部强制执行的情况下,自利的个体如何实现合作"提供了严谨的理论基础,是现代微观经济学和政治经济学不可或缺的分析工具。