ARTICLE
囚徒困境
囚徒困境 (Prisoner's Dilemma) 囚徒困境是博弈论中最著名的基础模型,由兰德公司科学家梅里尔·弗勒德和梅尔文·德雷希尔于1950年提出,后由普林斯顿大学数学家艾伯特·塔克赋予经典的"囚徒"故事。它属于非零和博弈,展示了为什么两个完全理性的个体可能不会选择合作,即使合作对双方都更有利。该模型深刻揭示了个体理性与集体理性之间的根本冲突,是分析合
囚徒困境 (Prisoner's Dilemma)
囚徒困境是博弈论中最著名的基础模型,由兰德公司科学家梅里尔·弗勒德和梅尔文·德雷希尔于1950年提出,后由普林斯顿大学数学家艾伯特·塔克赋予经典的"囚徒"故事。它属于非零和博弈,展示了为什么两个完全理性的个体可能不会选择合作,即使合作对双方都更有利。该模型深刻揭示了个体理性与集体理性之间的根本冲突,是分析合作行为的重要理论框架。
经典场景与支付结构
两名涉嫌共同犯罪的囚徒被分开关押,无法沟通。警方证据不足以指控重罪,只能以轻罪起诉,因此向每人提出相同的交易方案:(1) 若一人坦白而另一人保持沉默,坦白者立即获释(0年监禁),沉默者判10年;(2) 若两人均坦白,各判5年;(3) 若两人均保持沉默,各判1年。
从囚徒A的视角进行理性分析:假设B保持沉默,A若坦白可获释(0年)优于沉默(1年);假设B坦白,A若坦白判5年仍优于沉默(10年)。可见无论B如何选择,A的最优策略都是"坦白"。在博弈论中,当一个策略无论对手选择什么都带来更好结果时,该策略被称为占优策略。由于博弈完全对称,"坦白"同样是囚徒B的占优策略。因此(坦白,坦白)构成该博弈的纳什均衡——在给定对方策略的前提下,没有任何参与者能通过单方面改变策略获得更好结果。
困境的本质
困境的核心悖论在于:两名囚徒各自遵循个人理性选择占优策略,最终达到各判5年的结果,这劣于双方都保持沉默时的各判1年。后者在经济学中被称为帕累托最优——在不使任何一方恶化的情况下无法使另一方变得更好。而(坦白,坦白)这一纳什均衡结果则是帕累托次优的,因为存在一个能让双方都变得更好的状态(即相互合作)。这一结论对亚当·斯密"看不见的手"的信条提出了挑战:在特定博弈结构中,个体追求自身利益最大化并不会自动带来集体最优,反而可能导致个体理性导致集体非理性的悲剧。
重复囚徒困境
经典囚徒困境为单次博弈,合作几乎不可能。然而在重复囚徒困境(IPD)中情况显著不同。当博弈重复次数有限且已知时,通过逆向归纳法可推断:最后一轮等同于单次博弈,双方必然背叛;倒推至倒数第二轮,既然最后一轮注定背叛,此刻合作便无意义,依此类推直至首轮——合作仍无法维持。但当博弈次数无限或则参与者不知道何时结束时,"未来的阴影"使合作成为可能。{{一报还一报}}策略(首轮选择合作,此后模仿对手上一轮的行动)在罗伯特·阿克塞尔罗德组织的计算机竞赛中脱颖而出。该策略兼具四项特质:友善(从不首先背叛)、报复性(对背叛立即惩罚)、宽容性(对手回归合作后立即原谅)和清晰性(规则简单,易被对手理解)。
现实应用
囚徒困境广泛存在于现实世界。寡头垄断市场中企业面临定价决策:合作维持高价可获高利润,但每家都有动机降价抢占份额,最终引发价格战,整体利润下降。军备竞赛中,两国可选择裁军或扩军——裁军节省开支但风险高,扩军安全但成本巨大,理性选择导致双方持续扩军。气候变化是全球层面的囚徒困境:各国为短期经济增长逃避减排责任,导致公地悲剧。贸易保护主义中,各国设置关税壁垒保护本国产业,若竞相效仿则引发贸易战,损害全球经济福利。
理解囚徒困境有助于设计促进合作的制度机制,包括建立信誉与声誉系统、增加参与者互动频率、设计可强制执行的契约与法律框架,以及通过外部权威(如政府或国际组织)改变博弈支付结构,将合作成本与背叛收益重新分配,使合作成为个体的理性选择。此外,沟通与承诺机制(如具有约束力的协议)也能在一定程度上缓解囚徒困境,促进更高水平的合作。