ARTICLE

以牙还牙

以牙还牙 (Tit for Tat) 以牙还牙 (Tit for Tat, TFT) 是重复博弈中最著名且最具影响力的策略之一，由 Anatol Rapoport 在 Robert Axelrod 于 1980 年代初举办的重复囚徒困境计算机锦标赛中提出。该策略的核心规则极其简洁：第一回合选择合作，此后每一回合均重复对手上一回合的选择。尽管简单，以牙

浏览 0 更新 2025-07-15

以牙还牙 (Tit for Tat)

以牙还牙 (Tit for Tat, TFT) 是重复博弈中最著名且最具影响力的策略之一，由 Anatol Rapoport 在 Robert Axelrod 于 1980 年代初举办的重复囚徒困境计算机锦标赛中提出。该策略的核心规则极其简洁：第一回合选择合作，此后每一回合均重复对手上一回合的选择。尽管简单，以牙还牙在 Axelrod 的两轮锦标赛中均击败了数十个复杂程度远胜于它的对手策略，成为总得分最高的策略，深刻重塑了博弈论对合作演化机制的理解。

以牙还牙的成功揭示了重复互动中自发合作得以涌现的关键条件：互惠性 (reciprocity)、可被对手预测的清晰规则，以及"不首先背叛"的善意姿态。这一发现对经济学、政治学、演化生物学乃至国际关系理论均产生了深远影响。

起源：Axelrod 的计算机锦标赛

Robert Axelrod 在 1980 年前后邀请了来自经济学、心理学、数学、政治学等领域的博弈论学者提交策略程序，参与一场以重复囚徒困境为框架的循环赛 (round-robin tournament)。每对策略进行 200 轮重复博弈，收益矩阵为标准囚徒困境：

\begin{array}{c|cc} & C & D \\ \hline C & (3, 3) & (0, 5) \\ D & (5, 0) & (1, 1) \end{array}

其中 $C$ 表示合作 (Cooperate)， $D$ 表示背叛 (Defect)。关键在于 $T > R > P > S$ 且 $2R > T + S$ （此处 $T=5, R=3, P=1, S=0$ ），确保单次博弈中背叛是占优策略，但重复博弈中合作可能成为均衡。

Rapoport 提交的以牙还牙策略仅用四行 FORTRAN 代码实现，却击败了包括使用复杂统计推断和贝叶斯更新的对手。Axelrod 随后举办了第二轮更大规模的锦标赛，并公布了第一轮的分析结果——以牙还牙再次夺冠。这一结果促使博弈论学者重新审视"善意且可激怒"的策略在演化竞争中的优势。

策略的四个核心特征

Axelrod 在《合作的演化》(The Evolution of Cooperation, 1984) 中将 TFT 的成功归结为四个相互关联的品质：

善意 (Nice)：从不首先背叛。TFT 以合作为开局，确保不会主动引发背叛的恶性循环。在 Axelrod 的分析中，前八名策略全部是善意的，而排名靠后的策略大多是"恶意的"（首先背叛）。
可激怒 (Retaliatory / Provocable)：面对背叛立即以背叛回应。这一特性防止对手通过持续背叛剥削 TFT——背叛者无法获得持续的单方面收益。
宽容 (Forgiving)：对手恢复合作后，TFT 在下一回合便恢复合作。相比于永不原谅背叛的冷酷触发策略 (Grim Trigger)，TFT 的宽容性允许双方从偶发失误中恢复合作，避免永久陷入相互背叛的低效均衡。
清晰 (Clear)：规则极其简单，对手可以轻易识别并预测 TFT 的行为模式。在有限理性的真实环境中，策略的可识别性是建立稳定合作预期的前提。

数学表示与重复博弈框架

在无限重复囚徒困境中，设贴现因子为 $\delta \in (0, 1)$ ，博弈参与者的期望收益为：

U_i = (1 - \delta) \sum_{t=1}^{\infty} \delta^{t-1} u_i(a_t^i, a_t^j)

其中 $a_t^i \in \{C, D\}$ 为第 $i$ 个参与者在第 $t$ 期的行动， $u_i(\cdot, \cdot)$ 为单期收益函数。以牙还牙策略可形式化表示为：

a_1^{\text{TFT}} = C, \qquad a_t^{\text{TFT}} = a_{t-1}^{\text{opponent}}, \quad t \geq 2

均衡条件：当对手也采用 TFT 时，双方在所有时期均合作，各自获得 $3$ 的每期收益。若一方背叛而后恢复合作，背叛者在背叛当期获得 $5$ ，但此后因对手以牙还牙而遭受的损失贴现值为 $3\delta$ 。TFT 能否构成子博弈完美均衡 (Subgame Perfect Equilibrium) 取决于贴现因子的阈值条件：

5 \leq 3 + 3\delta \quad \Rightarrow \quad \delta \geq \frac{2}{3}

当 $\delta \geq 2/3$ 时（即参与者对未来收益足够看重），双方均采用 TFT 构成纳什均衡。然而，TFT 本身并非子博弈完美均衡——若对手意外背叛，TFT 规定在下一期以背叛回应的同时对手也以 TFT 回应，可能导致无休止的交替报复。这一缺陷催生了后续的改进策略。

与其他策略的比较

TFT 在不同的策略生态系统中表现各异。以下对比揭示其相对优劣：

TFT vs 始终背叛 (ALL-D)：面对 ALL-D，TFT 仅在首回合获得 $0$ 的收益后持续相互背叛，收益为 $1$ 每期。ALL-D 的收益为 $1$ 每期——TFT 虽无法"击败" ALL-D，但也不被严重剥削。
TFT vs 冷酷触发 (Grim Trigger)：Grim Trigger 在对手首次背叛后永久转为背叛，无宽容机制。在无噪声环境中两者表现相近，但在存在颤抖手 (trembling hand) 的环境中，Grim Trigger 的一次失误即导致合作永久崩溃，TFT 的宽容性使其显著优于 Grim Trigger。
TFT vs 永远合作 (ALL-C)：ALL-C 毫不设防，面对背叛者时被彻底剥削。TFT 的可激怒性在此发挥关键保护作用。
TFT vs TFT：双方首回合合作后持续相互合作，达到完全效率。这是 TFT 在"善意策略集群"中取得高分的关键机制——善意策略之间通过互惠合作获得高收益，而不被恶意策略拖累。

拓展与变体

Axelrod 的研究催生了大量 TFT 的改良版本：

两牙还牙 (Tit for Two Tats, TFTT)：仅在对手连续两次背叛后才以背叛回应。优点是更宽容，但缺点是面对策略性交替合作-背叛的对手时更易被剥削。
宽容以牙还牙 (Generous Tit for Tat)：面对对手的背叛，以概率 $p < 1$ 选择合作而非背叛。具体地，若对手背叛，以概率 $1 - p$ 背叛回应，以概率 $p$ 宽恕并继续合作。这一策略在 Nowak 和 Sigmund 的演化博弈分析中被证明可以在噪声环境中恢复持久合作。
悔悟以牙还牙 (Contrite Tit for Tat)：区分"对手的背叛是否源于己方的先前背叛"。若己方先背叛导致对手报复性背叛，则己方应悔悟并恢复合作，而非机械地继续以牙还牙。该策略能避免 TFT 在噪声环境下陷入无限交替报复。
Pavlov 策略 (Win-Stay, Lose-Shift)：非严格 TFT 变体，但共享互惠逻辑。若上期结果"好"（ $T$ 或 $R$ ），则重复上期行动；若"不好"（ $P$ 或 $S$ ），则切换行动。Pavlov 在噪声环境中表现优异，因其能在偶发背叛后自主纠正。

经济学应用与现实局限

以牙还牙的逻辑在经济学的多个分支中均有应用，包括产业组织理论中的寡头定价默契、劳动经济学中的效率工资与互惠性劳动关系，以及国际贸易中的关税报复与自由贸易协定维持。在行为经济学中，大量实验证据表明人类在重复博弈中天然倾向于使用类 TFT 的条件合作策略，而非纯粹的自利计算。

然而，TFT 的局限性亦不可忽视：

对噪声的脆弱性：在存在感知误差或执行误差的现实环境中，双方 TFT 的一次偶发背叛可能引发无休止的"针锋相对"循环，导致合作收益完全丧失。
对策略生态的依赖性：TFT 在"善意策略占多数"的环境中表现优异，但若环境中大量存在恶意策略，TFT 无法主动创造合作环境——它只能反射对手的行为。
固定博弈长度的终局效应：在已知固定终点的有限重复囚徒困境中，逆向归纳逻辑将瓦解所有合作——TFT 也不例外。只有在无限或不确定终点的重复博弈框架下，TFT 的合作激励才具有理论效力。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。