ARTICLE

冷酷触发策略

冷酷触发策略 (Grim Trigger Strategy) 冷酷触发=博弈论重复博弈核心策略→严苛惩罚→对单次背叛施无限期惩罚维持长期合作。规则:①首轮合作;②持续→只要所有对手此前全合作→继合作;③触发→一旦任一对手某轮背叛→下轮起永背叛。冷酷在不可逆→信任破→合作永不复。 囚徒困境应用与数学条件 经典囚徒困境→单次纳什均衡(叛,叛)→收益(1,1)帕累

浏览 0 更新 2025-11-06

冷酷触发策略 (Grim Trigger Strategy)

冷酷触发=博弈论重复博弈核心策略→严苛惩罚→对单次背叛施无限期惩罚维持长期合作。规则:①首轮合作;②持续→只要所有对手此前全合作→继合作;③触发→一旦任一对手某轮背叛→下轮起永背叛。冷酷在不可逆→信任破→合作永不复。

囚徒困境应用与数学条件

经典囚徒困境→单次纳什均衡(叛,叛)→收益(1,1)帕累托劣于(合,合)=(3,3)。无限次重复→冷酷触发提供维持合作可能。

贴现因子δ(0,1)\delta\in(0,1)→未来收益权重/博弈续概率。对手用冷酷触发→选择:①始终合作→现值Vc=C/(1δ)=3/(1δ)V_c=C/(1-\delta)=3/(1-\delta)(等比级数);②首轮背叛获T=5T=5→下轮起永(叛,叛)=P=1P=1Vd=T+δP/(1δ)=5+δ/(1δ)V_d=T+\delta P/(1-\delta)=5+\delta/(1-\delta)

合作成均衡条件:VcVdV_c\ge V_dC/(1δ)T+δP/(1δ)C/(1-\delta)\ge T+\delta P/(1-\delta)→同乘(1δ)(1-\delta)CT(1δ)+δPC\ge T(1-\delta)+\delta P→整理→δ(TC)/(TP)\delta\ge(T-C)/(T-P)

代入T=5,C=3,P=1T=5,C=3,P=1δ(53)/(51)=2/4=0.5\delta\ge(5-3)/(5-1)=2/4=0.5→只要δ0.5\delta\ge0.5→双方理性→采纳冷酷触发→永久合作→子博弈精炼纳什均衡

特点与比较

优点:极强威慑(永罚有效禁背叛念);逻辑简(清晰→易理易行)。缺点:不可原谅/脆弱→背叛可能因误解/信息不全/偶然误("颤抖手")非恶意→冷酷不能区分→合作永破→过严不实;威慑可信度→罚阶段双方入更差(D,D)→有动机"重谈判"复合作→永叛威胁难坚守。

vs以牙还牙:TFT更仁慈→首合→逐轮复制对手上轮→罚但对手复合作即谅。vs宽容以牙还牙(Tit-for-Two-Tats):允许一次背叛不即报→连续两次才罚。冷酷触发在寡头/卡特尔定价→为合作产生提供理论基准→但其极端性促学者发展更多弹性现实策略。