ARTICLE

冷酷触发策略

冷酷触发策略 (Grim Trigger Strategy) 冷酷触发=博弈论重复博弈核心策略→严苛惩罚→对单次背叛施无限期惩罚维持长期合作。规则：①首轮合作；②持续→只要所有对手此前全合作→继合作；③触发→一旦任一对手某轮背叛→下轮起永背叛。冷酷在不可逆→信任破→合作永不复。囚徒困境应用与数学条件经典囚徒困境→单次纳什均衡(叛,叛)→收益(1,1)帕累

浏览 0 更新 2025-11-06

冷酷触发策略 (Grim Trigger Strategy)

冷酷触发=博弈论重复博弈核心策略→严苛惩罚→对单次背叛施无限期惩罚维持长期合作。规则：①首轮合作；②持续→只要所有对手此前全合作→继合作；③触发→一旦任一对手某轮背叛→下轮起永背叛。冷酷在不可逆→信任破→合作永不复。

囚徒困境应用与数学条件

经典囚徒困境→单次纳什均衡(叛,叛)→收益(1,1)帕累托劣于(合,合)=(3,3)。无限次重复→冷酷触发提供维持合作可能。

贴现因子 $\delta\in(0,1)$ →未来收益权重/博弈续概率。对手用冷酷触发→选择：①始终合作→现值 $V_c=C/(1-\delta)=3/(1-\delta)$ （等比级数）；②首轮背叛获 $T=5$ →下轮起永(叛,叛)= $P=1$ → $V_d=T+\delta P/(1-\delta)=5+\delta/(1-\delta)$ 。

合作成均衡条件： $V_c\ge V_d$ → $C/(1-\delta)\ge T+\delta P/(1-\delta)$ →同乘 $(1-\delta)$ → $C\ge T(1-\delta)+\delta P$ →整理→ $\delta\ge(T-C)/(T-P)$ 。

代入 $T=5,C=3,P=1$ → $\delta\ge(5-3)/(5-1)=2/4=0.5$ →只要 $\delta\ge0.5$ →双方理性→采纳冷酷触发→永久合作→子博弈精炼纳什均衡。

特点与比较

优点：极强威慑（永罚有效禁背叛念）；逻辑简（清晰→易理易行）。缺点：不可原谅/脆弱→背叛可能因误解/信息不全/偶然误（"颤抖手"）非恶意→冷酷不能区分→合作永破→过严不实；威慑可信度→罚阶段双方入更差(D,D)→有动机"重谈判"复合作→永叛威胁难坚守。

vs以牙还牙：TFT更仁慈→首合→逐轮复制对手上轮→罚但对手复合作即谅。vs宽容以牙还牙(Tit-for-Two-Tats)：允许一次背叛不即报→连续两次才罚。冷酷触发在寡头/卡特尔定价→为合作产生提供理论基准→但其极端性促学者发展更多弹性现实策略。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。