# 有限重复博弈 (Finitely Repeated Game)
有限重复博弈 (Finitely Repeated Game) 是{{{博弈论}}} (Game Theory) 中的一个重要概念,特指一个基础博弈(称为 阶段博弈,Stage Game)被参与者重复进行一个事先已知的、有限的次数。每一轮博弈结束后,参与者都能观察到之前所有轮次的结果。
这类博弈的核心问题在于:重复的互动是否会改变参与者的策略选择,并催生出在单次博弈中不会出现的合作行为?令人惊讶的是,在特定条件下,答案是否定的。通过运用 {{{逆向归纳法}}} (Backward Induction) 进行分析,我们可以得出一个强有力的结论:如果阶段博弈存在唯一的{{{纳什均衡}}} (Nash Equilibrium),那么在有限重复博弈中,唯一的{{{子博弈精炼纳什均衡}}} (Subgame Perfect Nash Equilibrium, SPNE) 就是在每个阶段都重复该纳什均衡。
为了深入理解这一理论,我们以博弈论中最经典的案例——{{{囚徒困境}}} (Prisoner's Dilemma)——作为阶段博弈进行分析。
## 阶段博弈:囚徒困境
囚徒困境描述了这样一个情景:两名嫌疑人(参与者1和参与者2)被分开关押,无法进行交流。他们需要各自独立地做出选择:是与同伙 合作 (Cooperate)(保持沉默),还是 背叛 (Defect)(招供)。其收益结果可以用以下的{{{支付矩阵}}} (Payoff Matrix) 表示:
| | 参与者2:合作 | 参与者2:背叛 | | :------- |:-------------:|:-------------:| | 参与者1:合作 | (-1, -1) | (-10, 0) | | 参与者1:背叛 | (0, -10) | (-5, -5) |
收益解读如下(括号内第一个数字为参与者1的收益,第二个为参与者2的收益): * (合作, 合作): 双方都保持沉默,各获刑1年 (收益为-1)。这是对双方整体最有利的{{{帕累托最优}}} (Pareto Optimal) 结果。 * (背叛, 背叛): 双方都招供,各获刑5年 (收益为-5)。 * (合作, 背叛): 你沉默而被对方出卖,你获刑10年 (收益为-10),对方被释放 (收益为0)。 * (背叛, 合作): 你招供而对方沉默,你被释放 (收益为0),对方获刑10年 (收益为-10)。
在单次博弈中,无论对方作何选择,“背叛”都是每个参与者的{{{优势策略}}} (Dominant Strategy): * 如果对方合作,你选择背叛(收益0)优于合作(收益-1)。 * 如果对方背叛,你选择背叛(收益-5)优于合作(收益-10)。
由于双方都会遵循优势策略,最终的结果是 (背叛, 背叛)。这就是该阶段博弈的唯一纳什均衡。然而,(-5, -5) 的结果显然劣于双方本可以达成的 (-1, -1) 的合作结果,这正是“困境”所在。
## 逆向归纳法分析有限重复囚徒困境
现在,假设这个囚徒困境博弈将被重复进行 $T$ 次,其中 $T$ 是一个双方都明确知道的有限正整数(例如 $T=100$)。我们使用{{{逆向归纳法}}}来求解这个重复博弈的{{{子博弈精炼纳什均衡}}}。
#### 第 $T$ 轮(最后一轮)
我们从博弈的最后一轮开始分析。在第 $T$ 轮,所有参与者都清楚地知道这是最后一次互动。之后再无博弈,因此不存在建立声誉、未来报复或未来合作的可能性。此时,任何在前面 $T-1$ 轮中可能形成的信任或威胁都失去了意义。
因此,第 $T$ 轮的博弈在战略上等同于一个独立的、单次的囚徒困境。理性的参与者会选择他们的优势策略,即“背叛”。因此,在最后一轮,博弈的结果必然是 (背叛, 背叛)。这一点对所有参与者来说都是{{{共同知识}}} (Common Knowledge)。
#### 第 $T-1$ 轮
现在我们向前推一轮,分析第 $T-1$ 轮的决策。在这一轮,参与者们需要决定是合作还是背叛。他们会考虑自己的选择对当前轮次和未来轮次(即第 $T$ 轮)收益的影响。
然而,基于我们对第 $T$ 轮的分析,所有参与者都已经预见到,无论他们在第 $T-1$ 轮做什么,第 $T$ 轮的结果都将是 (背叛, 背叛)。这意味着,在第 $T-1$ 轮选择“合作”并不能换来对方在第 $T$ 轮的合作回报;同样,在第 $T-1$ 轮选择“背叛”也不会在第 $T$ 轮招致额外的惩罚(因为对方无论如何都会背叛)。
因此,第 $T-1$ 轮的决策无法影响未来的结果。未来的收益已经固定,与当前决策无关。那么,参与者在第 $T-1$ 轮的唯一目标就是最大化当前轮次的收益。这使得第 $T-1$ 轮的博弈也变成了一个事实上的单次囚徒困境。理性的选择依然是“背叛”。所以,第 $T-1$ 轮的结果也是 (背叛, 背叛)。
#### 逻辑的延伸:从 $T$ 到 1
这个逻辑可以一直向前追溯。
* 在第 $T-2$ 轮,既然所有人都知道第 $T-1$ 轮和第 $T$ 轮的结果都是注定的 (背叛, 背叛),那么第 $T-2$ 轮的决策同样无法影响未来。理性的选择是“背叛”。 * $$...$$ * 最终,我们回到博弈的 第 1 轮。尽管未来还有 $T-1$ 轮博弈,但通过逆向归纳,所有参与者都明白,在未来的每一轮中,唯一的理性选择都是“背叛”。因此,未来的路径已被完全确定。第 1 轮的合作行为无法引发未来的合作链条。唯一的理性选择仍然是最大化当前收益,即“背叛”。
#### 结论:合作的崩溃
这一逻辑链条导向了一个非常强且有些反直觉的结论:在重复次数 $T$ 为有限且共同知识的囚徒困境中,唯一的子博弈精炼纳什均衡是 在每一轮都选择 (背叛, 背叛)。
从博弈的终点开始,合作的可能性一轮一轮地向前瓦解,这种现象被称为 “解链” (Unraveling)。即使博弈重复一百万次,理论上的理性行为也是从第一轮就开始背叛,直到最后一轮。
## 理论的启示与局限
1. 理性与现实的差距:有限重复博弈的理论解与现实中的人类行为实验结果常常存在偏差。在实验中,人们往往会在博弈初期尝试合作,直到临近结束时合作才开始瓦解。这表明纯粹的数学理性并不能完全解释人类的互动行为,{{{行为经济学}}} (Behavioral Economics) 对此提供了更多解释,如{{{有限理性}}} (Bounded Rationality)、利他主义或对他人非理性的信念。
2. 理论前提的重要性:该结论高度依赖于其前提条件: * 终点已知:博弈的重复次数 $T$ 必须是有限且为所有参与者共同知晓的。如果博弈是{{{无限重复博弈}}} (Infinitely Repeated Game),或者博弈以一定概率结束(即终点不确定),那么合作就有可能通过像{{{针锋相对策略}}} (Tit-for-Tat) 这样的条件性策略得以维持。在这种情况下,未来的“影子”足够长,使得对背叛的惩罚变得可信。这由{{{民间定理}}} (Folk Theorem) 阐述。 * 唯一纳什均衡:阶段博弈必须有唯一的纳什均衡。如果阶段博弈存在多个纳什均衡(例如,一个高收益的均衡和一个低收益的均衡),参与者就可以利用这一点来维持合作。他们可以约定在合作路径上选择高收益均衡,而将“偏离合作路径的参与者将在未来所有轮次中被迫接受低收益均衡”作为一种可信的惩罚威胁。