ARTICLE

重复博弈

重复博弈 (Repeated Game) 重复博弈（Repeated Game）是博弈论的关键分支，研究同一策略式博弈（称为阶段博弈，Stage Game）在多个时期重复进行时参与者的策略互动及其均衡结果。重复博弈的核心洞见是：当互动具有长期性时，短期背叛的收益可能被未来的惩罚所抵消，从而使合作（Cooperation）在原本无法合作的囚徒困境等一次性博弈中

浏览 4 更新 2026-07-18

重复博弈 (Repeated Game)

重复博弈（Repeated Game）是博弈论的关键分支，研究同一策略式博弈（称为阶段博弈，Stage Game）在多个时期重复进行时参与者的策略互动及其均衡结果。重复博弈的核心洞见是：当互动具有长期性时，短期背叛的收益可能被未来的惩罚所抵消，从而使合作（Cooperation）在原本无法合作的囚徒困境等一次性博弈中成为理性选择。这一结论为经济学中的默契合谋（Tacit Collusion）、声誉（Reputation）机制和社会规范的形成提供了坚实的微观基础。重复博弈的理论奠基工作由詹姆斯·弗里德曼（James Friedman, 1971）和罗伯特·奥曼（Robert Aumann, 1981）等完成，奥曼更因包括重复博弈在内的博弈论基础研究获得2005年诺贝尔经济学奖。

基本分类：有限重复博弈与无限重复博弈

重复博弈依据阶段博弈的重复次数分为有限重复博弈（Finitely Repeated Game）和无限重复博弈（Infinitely Repeated Game）两大类型。

有限重复博弈中，参与者事先知道博弈将在恰好 $T$ 期后结束。通过逆向归纳法（Backward Induction）分析：在最后一期 $T$ ，参与者没有未来约束，任何合作承诺均不可信，因此阶段博弈的唯一纳什均衡即当期结果。将最后一期的行为视为给定，倒数第二期的参与者同样预测到最后一期的非合作结果而选择背叛，这一逻辑逐期倒推至第一期。该推理的严谨表述即连锁店悖论（Chain-store Paradox，Selten, 1978）：在已知的有限期重复囚徒困境中，唯一的子博弈完美均衡（Subgame Perfect Equilibrium, SPE）是每期都选择背叛——合作不可能出现。然而，若阶段博弈存在多个纳什均衡，或信息不完全，有限重复博弈中仍可能出现合作（声誉效应，Kreps-Milgrom-Roberts-Wilson, 1982）。

无限重复博弈（或博弈结束概率未知的博弈）则具有根本不同的逻辑。参与者将未来收益折现，折现因子（Discount Factor） $\delta \in [0,1)$ 反映了参与者对未来的耐心程度或博弈继续的概率。当 $\delta$ 足够大时，参与者有足够长期激励维持合作，因为当期背叛的瞬时增益不及未来合作收益现值的损失。无限重复博弈的分析工具有触发策略（Trigger Strategy）——例如冷酷触发策略（Grim Trigger）：在任何一期若对手背叛，则从此永远选择背叛；以及以牙还牙（Tit-for-Tat, Axelrod, 1984）：当期模仿对手上一期的行动——后者因简单而有效的特性在重复囚徒困境计算机竞赛中取得最佳平均成绩。

无名氏定理 (Folk Theorem)

重复博弈最著名的理论成果是无名氏定理（Folk Theorem），因在学术界流传已久无人声称原创而得名。纳什均衡版本的无名氏定理（Aumann, 1959）指出：在无限重复博弈中，若折现因子 $\delta$ 足够接近于1，则任何在阶段博弈中满足个体理性（Individual Rationality，即不低于参与者的最小最大收益 Minimax Payoff）且可行（Feasible，即属于阶段博弈收益集的凸包）的收益向量，都可由某个纳什均衡实现。

子博弈完美版本的无名氏定理（Friedman, 1971）进一步强化了这一结论：只要 $\delta$ 足够大，任何严格优于最小最大收益的可行收益向量都可由某个子博弈完美均衡（SPE）实现。这意味着在耐心足够的前提下，几乎任何合作结果都可以作为均衡出现——理论上存在多个均衡（Multiplicity of Equilibria）。均衡选择取决于参与者对惩罚路径的预期、社会规范以及焦点（Focal Point）等因素。无名氏定理因此既展示了重复博弈对合作的促进作用，也暴露了其预测力不足的局限性。后续研究通过引入均衡精炼——如重谈判-proof 均衡（Renegotiation-proof Equilibrium, Farrell-Maskin, 1989）——来缩小均衡预测集。

合作条件与折现因子阈值

在经典的无限制重复囚徒困境中，合作可通过冷酷触发策略维持。设阶段博弈收益（背叛= $D$ ，合作= $C$ ）为：

\begin{array}{c|cc} & C & D \\ \hline C & (R, R) & (S, T) \\ D & (T, S) & (P, P) \end{array}

其中 $T > R > P > S$ 且 $2R > T + S$ 。若双方均采用冷酷触发：从合作开始，一旦对方背叛则永远背叛。给定对手合作，参与者的合作收益现值 $V_C = R/(1-\delta)$ ；一次背叛的瞬时增益为 $T$ ，但此后进入永远背叛，收益现值 $V_D = T + \delta P/(1-\delta)$ 。合作保持当且仅当 $V_C \ge V_D$ ，即：

\frac{R}{1-\delta} \ge T + \frac{\delta P}{1-\delta} \quad\Longrightarrow\quad \delta \ge \frac{T - R}{T - P}

该阈值即维持合作所需的最低耐心水平。在标准取值 $T=5, R=3, P=1, S=0$ 下， $\delta \ge (5-3)/(5-1)=0.5$ 。若 $\delta$ 低于此临界，任何合作承诺均不可信，均衡退回每期背叛。

应用与扩展

重复博弈在经济学中应用极其广泛。默契合谋（Tacit Collusion）是产业组织中的经典应用：寡头企业在多期竞争中通过维持高价获得长期利润，一旦发现对手降价即发动价格战惩罚，形成无需显性协议的隐性共谋。竞争政策（Antitrust）因而通过监测平行定价行为来识别非法的默契合谋；欧盟竞争法和美国反垄断法均对促成合谋的通讯和信号行为加以严格限制。

在国际经济学中，重复博弈解释了关税战中的合作与报复：两国在贸易协定下可通过触发策略维持低关税，一旦一方单方面加征关税，对手随即报复。不完全契约理论利用重复博弈框架分析长期商业关系中信任的自我实施机制（Self-enforcing Agreement）：当法律执行成本过高时，关系性契约（Relational Contract）依靠未来合作收益的折现来约束当期机会主义行为。劳动经济学中，效率工资理论（Shapiro-Stiglitz, 1984）的偷懒模型本质上是雇主-雇员间的无限重复博弈：雇主以解雇威胁遏制偷懒，雇员则权衡偷懒的瞬时效用与失业后的未来损失。此外，演化博弈论中的重复互动研究（如空间囚徒困境）将重复博弈的长期动态拓展到种群选择和群体规范的演化分析。

总之，重复博弈揭示了长期利益对短期机会主义的约束机制，将看似非理性的合作行为纳入到理性选择的统一框架之中，极大地拓展了博弈论对现实世界中制度、规范和组织的解释力。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。