ARTICLE

囚徒困境

囚徒困境 (Prisoner's Dilemma) 囚徒困境是博弈论中最著名的基础模型，由兰德公司科学家梅里尔·弗勒德和梅尔文·德雷希尔于1950年提出，后由普林斯顿大学数学家艾伯特·塔克赋予经典的"囚徒"故事。它属于非零和博弈，展示了为什么两个完全理性的个体可能不会选择合作，即使合作对双方都更有利。该模型深刻揭示了个体理性与集体理性之间的根本冲突，是分析合

浏览 50 更新 2025-10-26

囚徒困境 (Prisoner's Dilemma)

囚徒困境是博弈论中最著名的基础模型，由兰德公司科学家梅里尔·弗勒德和梅尔文·德雷希尔于1950年提出，后由普林斯顿大学数学家艾伯特·塔克赋予经典的"囚徒"故事。它属于非零和博弈，展示了为什么两个完全理性的个体可能不会选择合作，即使合作对双方都更有利。该模型深刻揭示了个体理性与集体理性之间的根本冲突，是分析合作行为的重要理论框架。

经典场景与支付结构

两名涉嫌共同犯罪的囚徒被分开关押，无法沟通。警方证据不足以指控重罪，只能以轻罪起诉，因此向每人提出相同的交易方案：(1) 若一人坦白而另一人保持沉默，坦白者立即获释（0年监禁），沉默者判10年；(2) 若两人均坦白，各判5年；(3) 若两人均保持沉默，各判1年。

从囚徒A的视角进行理性分析：假设B保持沉默，A若坦白可获释（0年）优于沉默（1年）；假设B坦白，A若坦白判5年仍优于沉默（10年）。可见无论B如何选择，A的最优策略都是"坦白"。在博弈论中，当一个策略无论对手选择什么都带来更好结果时，该策略被称为占优策略。由于博弈完全对称，"坦白"同样是囚徒B的占优策略。因此（坦白，坦白）构成该博弈的纳什均衡——在给定对方策略的前提下，没有任何参与者能通过单方面改变策略获得更好结果。

困境的本质

困境的核心悖论在于：两名囚徒各自遵循个人理性选择占优策略，最终达到各判5年的结果，这劣于双方都保持沉默时的各判1年。后者在经济学中被称为帕累托最优——在不使任何一方恶化的情况下无法使另一方变得更好。而（坦白，坦白）这一纳什均衡结果则是帕累托次优的，因为存在一个能让双方都变得更好的状态（即相互合作）。这一结论对亚当·斯密"看不见的手"的信条提出了挑战：在特定博弈结构中，个体追求自身利益最大化并不会自动带来集体最优，反而可能导致个体理性导致集体非理性的悲剧。

重复囚徒困境

经典囚徒困境为单次博弈，合作几乎不可能。然而在重复囚徒困境（IPD）中情况显著不同。当博弈重复次数有限且已知时，通过逆向归纳法可推断：最后一轮等同于单次博弈，双方必然背叛；倒推至倒数第二轮，既然最后一轮注定背叛，此刻合作便无意义，依此类推直至首轮——合作仍无法维持。但当博弈次数无限或则参与者不知道何时结束时，"未来的阴影"使合作成为可能。{{一报还一报}}策略（首轮选择合作，此后模仿对手上一轮的行动）在罗伯特·阿克塞尔罗德组织的计算机竞赛中脱颖而出。该策略兼具四项特质：友善（从不首先背叛）、报复性（对背叛立即惩罚）、宽容性（对手回归合作后立即原谅）和清晰性（规则简单，易被对手理解）。

现实应用

囚徒困境广泛存在于现实世界。寡头垄断市场中企业面临定价决策：合作维持高价可获高利润，但每家都有动机降价抢占份额，最终引发价格战，整体利润下降。军备竞赛中，两国可选择裁军或扩军——裁军节省开支但风险高，扩军安全但成本巨大，理性选择导致双方持续扩军。气候变化是全球层面的囚徒困境：各国为短期经济增长逃避减排责任，导致公地悲剧。贸易保护主义中，各国设置关税壁垒保护本国产业，若竞相效仿则引发贸易战，损害全球经济福利。

理解囚徒困境有助于设计促进合作的制度机制，包括建立信誉与声誉系统、增加参与者互动频率、设计可强制执行的契约与法律框架，以及通过外部权威（如政府或国际组织）改变博弈支付结构，将合作成本与背叛收益重新分配，使合作成为个体的理性选择。此外，沟通与承诺机制（如具有约束力的协议）也能在一定程度上缓解囚徒困境，促进更高水平的合作。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。