ARTICLE
无限重复博弈
无限重复博弈 (Infinitely Repeated Games) 无限重复博弈是博弈论中研究长期互动关系的核心框架,指同一个阶段博弈(Stage Game)在无限个时期 t = 1, 2, 中重复进行,且参与者在每一期开始前都能观察到此前所有博弈的历史。其关键特征在于博弈没有预设的终止期限——或者等价地,每一期结束后博弈继续的概率为正。正是这种"永无止境
无限重复博弈 (Infinitely Repeated Games)
无限重复博弈是博弈论中研究长期互动关系的核心框架,指同一个阶段博弈(Stage Game)在无限个时期 中重复进行,且参与者在每一期开始前都能观察到此前所有博弈的历史。其关键特征在于博弈没有预设的终止期限——或者等价地,每一期结束后博弈继续的概率为正。正是这种"永无止境"的预期,从根本上改变了参与者的策略激励:在有限重复博弈中由逆向归纳导致的合作崩溃(如连锁店悖论),在无限时间视野下得以修复,使得合作、惩罚与声誉机制成为均衡的一部分。
基本框架与折现因子
设 为一个 人阶段博弈,每个参与者 在选择行动 后获得当期收益 。在无限重复博弈 中,参与者 的总收益为各期收益的折现和:
其中 为折现因子(Discount Factor),它既是时间偏好的度量,也可解释为博弈在每一期结束后继续的概率。 的大小至关重要: 越接近 1,参与者对未来的重视程度越高,合作越容易维持; 接近 0 时,参与者几乎只关心当期收益,无限重复博弈退化为一次性博弈。在宏观解释上, 也可由 表达,其中 为利率。
触发策略与无名氏定理
无限重复博弈中,支撑合作的核心策略机制是触发策略(Trigger Strategy)。最经典的形态是冷酷触发策略(Grim Trigger Strategy):参与者在第一期选择合作;只要历史上所有参与者都始终合作,就继续合作;一旦任何人在任何一期偏离,从下一期开始永久性地选择阶段博弈的纳什均衡作为惩罚。
以囚徒困境为例:阶段博弈中双方都有占优策略"背叛"(Defect),唯一的纳什均衡是(背叛,背叛),收益为 ,而合作收益为 满足 。在冷酷触发策略下,参与者 维持合作的条件为:
化简得 。只要折现因子足够大,合作就能作为子博弈精炼均衡出现。
这一结论被无名氏定理(Folk Theorem)一般化:在无限重复博弈中,只要折现因子足够接近 1,任何满足个体理性条件(即每个参与者的收益不低于其最小最大收益)的可行收益向量都可以作为某个子博弈精炼均衡的收益结果。无名氏定理揭示了无限重复博弈中均衡的"多重性"——从完全合作到各种惩罚路径,无数种行为模式都可以被均衡化。
惩罚策略的演进:从冷酷到针锋相对
冷酷触发策略虽有理论上的简洁性,但其"永不原谅"的性质在现实中既不可信也非最优。更稳健的惩罚策略包括:
- 针锋相对(Tit-for-Tat):每一期重复对手上一期的行动。由阿克塞罗德(Axelrod)在重复囚徒困境的计算机竞赛中证明为最成功的策略之一,其优势在于善意性(先合作)、报复性(对背叛立即反击)和宽容性(对手恢复合作后立即恢复合作)。
- 纳什回复策略(Nash Reversion):偏离发生后,双方永久回到阶段博弈纳什均衡。冷酷触发策略是纳什回复策略的特例。
- 胡萝卜加大棒(Carrot-and-Stick):惩罚是严厉但短暂的,惩罚期满后自动恢复合作,避免了永久惩罚的效率损失。
子博弈精炼与重新谈判证明
无限重复博弈存在多重均衡,这既是其优势(可解释各种社会规范的涌现),也带来重新谈判证明(Renegotiation Proofness)的问题:如果合作偏离后,理性的参与者能否"重新谈判"回到合作路径而非执行事前约定的低效惩罚?若重新谈判是可能的,触发策略的均衡可能崩溃。弱重新谈判证明均衡(Weak Renegotiation-Proof Equilibrium)等精炼概念对此进行了探讨。
从子博弈精炼的角度,无限重复博弈区别于有限重复博弈的关键在于:在任何一期之后的子博弈中,剩余结构仍是一个无限重复博弈,因此惩罚的威胁在每一个子博弈中都是可信的。逆向归纳法在无限时间框架下失效,这使得合作均衡能够被精炼。
经济学应用
无限重复博弈在经济学中有广泛的应用:
- 合谋与卡特尔稳定性:寡头企业间的价格合谋本质上是无限重复博弈。每一期企业选择是否遵守合谋价格,偏离者将面临价格战的惩罚。折现因子(受利率和行业增长速度影响)决定了合谋的可持续性。
- 声誉机制:在无限重复的委托代理关系中,代理人履行承诺的动力来自未来合作的租金。克雷普斯(Kreps)、米尔格罗姆(Milgrom)、罗伯茨(Roberts)和威尔逊(Wilson)的声誉模型(KMRW模型)证明,即使参与者有不完全信息,有限重复博弈中也能维持合作行为。
- 主权债务与国际关系:国家间履约、国际条约的执行以及主权债务偿还都可纳入无限重复博弈框架分析——违约国将面临被排除在未来国际资本市场之外的惩罚。
- 货币政策的时间不一致性:中央银行在每一期面临是否通货膨胀的权衡,无限重复互动下"通胀倾向"可通过声誉机制得到约束。
无限重复博弈为理解"在没有外部强制执行的情况下,自利的个体如何实现合作"提供了严谨的理论基础,是现代微观经济学和政治经济学不可或缺的分析工具。