# 演化博弈论 (Evolutionary Game Theory)
演化博弈论 (Evolutionary Game Theory, EGT) 是{{{博弈论}}}的一个分支,它将博弈论的分析框架应用于由大量个体组成的演化种群。与关注个体{{{理性}}}选择的{{{经典博弈论}}}不同,演化博弈论不要求参与者是完全理性的决策者。相反,它研究的是在一个种群中,各种{{{策略}}}的相对频率如何随着时间的推移而演变。那些能带来更高{{{收益}}}(或{{{适应度}}})的策略,会通过{{{自然选择}}}、模仿或学习等机制,在种群中变得更加普遍。
演化博弈论最初由生物学家[[约翰·梅纳德·史密斯]] (John Maynard Smith) 和[[乔治·普莱斯]] (George R. Price) 提出,用于解释动物行为的演化,特别是那些看似矛盾的利他或仪式化斗争行为。如今,它已广泛应用于{{{经济学}}}、{{{社会学}}}、人类学和{{{计算机科学}}}等领域,用于分析社会规范的形成、技术标准的采纳、市场竞争和合作行为的出现。
## 核心概念
演化博弈论建立在一系列独特的核心概念之上,这些概念使其区别于经典博弈论。
### 1. 种群与策略 (Population and Strategies) 在EGT中,分析的基本单位是一个庞大的种群 (Population)。种群中的每个个体都被“预设”或“编程”为采用某种特定的策略 (Strategy)。这里的策略不是指在单次博弈中经过深思熟虑的选择,而是指一种固有的行为模式,它可以通过基因遗传(在生物学中)或文化传播、学习、模仿(在社会科学中)传递下去。
### 2. 收益与适应度 (Payoff and Fitness) 个体在与种群中其他个体进行随机配对博弈时,会获得一个收益 (Payoff)。在演化博弈论中,这个收益直接等同于或正相关于个体的适应度 (Fitness)。适应度代表了个体的繁殖成功率或其策略被他人模仿的可能性。一个策略的平均收益越高,其在下一代种群中所占的比例就越大。重要的是,一个特定策略的成功与否,并不取决于其内在的优越性,而是取决于种群中其他策略的分布情况。
### 3. 复制子动态 (Replicator Dynamics) 复制子动态是描述种群中各种策略频率随时间演变的最著名的数学模型之一。其核心思想是:一个策略在种群中增长的速率,正比于该策略的平均收益与整个种群的平均收益之间的差额。
如果一个策略的平均收益高于种群的平均收益,那么采用该策略的个体比例将会增加;反之则会减少。
令 $x_i$ 表示种群中采用策略 $i$ 的个体所占的比例,$\mathbf{x}$ 为所有策略比例组成的向量。令 $A$ 为收益矩阵,其中 $A_{ij}$ 表示策略 $i$ 对阵策略 $j$ 时的收益。那么,策略 $i$ 的复制子动态可以用以下微分方程表示: $$ \dot{x}_i = \frac{dx_i}{dt} = x_i \left[ (A\mathbf{x})_i - \mathbf{x}^T A \mathbf{x} \right] $$ 其中: * $(A\mathbf{x})_i$ 是策略 $i$ 在当前种群环境下的平均收益。它等于策略 $i$ 与种群中每一个策略 $j$ 对阵的收益 $A_{ij}$ 乘以策略 $j$ 的比例 $x_j$ 的总和。 * $\mathbf{x}^T A \mathbf{x}$ 是整个种群的平均收益。
这个方程清晰地表明,只有当一个策略的收益超过平均水平时,它才能在种群中扩张。
### 4. 演化稳定策略 (Evolutionarily Stable Strategy, ESS) 演化稳定策略是演化博弈论的核心解概念,可被视为{{{纳什均衡}}}在演化背景下的一个精炼。一个策略被称为演化稳定策略,是指如果一个种群中的绝大多数成员都采用这个策略,那么任何小规模的突变策略(alternative strategy)都无法成功“入侵”这个种群。
形式上,一个策略 $s^*$ 是一个ESS,如果对于任何其他的突变策略 $s \neq s^*$,以下两个条件之一必须成立: 1. $E(s^*, s^*) > E(s, s^*)$ * 这个条件意味着,当 incumbent 策略 $s^*$ 的个体与另一个 $s^*$ 个体互动时,其收益要高于 mutant 策略 $s$ 的个体与 $s^*$ 个体互动所获得的收益。在这种情况下,突变体从一开始就不占优势,会被自然选择所淘汰。
2. $E(s^*, s^*) = E(s, s^*)$ 且 $E(s^*, s) > E(s, s)$ * 这个条件处理的是突变策略在面对主流策略时表现得一样好的情况。此时,ESS的稳定性取决于当突变体之间相互作用时会发生什么。如果主流策略在对抗突变策略时比突变策略对抗自己时表现得更好,那么主流策略仍然是稳定的。因为一旦突变体数量达到一定比例后,它们之间会开始相遇,而它们在内部竞争中处于劣势,从而限制了其扩张。
与纳什均衡的关系: 所有ESS都是纳什均衡,但并非所有纳什均衡都是ESS。ESS是一个更强的稳定性概念,它要求均衡不仅是静态的最优反应,而且在动态的演化压力下也是稳定的,能够抵抗突变策略的入侵。
## 经典模型示例
### 1. 鹰鸽博弈 (Hawk-Dove Game) 这是EGT中的一个经典模型,用于分析个体在争夺资源时的斗争策略。 * 鹰 (Hawk):采取侵略性策略,战斗到底,直到赢得资源或在战斗中受伤。 * 鸽 (Dove):采取非侵略策略,展示威慑,但如果对手是鹰,则会立即退却以避免受伤。
假设资源的价值为 $V$,战斗受伤的成本为 $C$。收益矩阵如下:
| | 鹰 (Hawk) | 鸽 (Dove) | | :---- | :-------------- | :-------- | | 鹰 | $(V-C)/2, (V-C)/2$ | $V, 0$ | | 鸽 | $0, V$ | $V/2, V/2$ |
分析如下: * 如果 $V > C$(资源价值大于受伤成本),那么“鹰”是唯一的ESS。在这种高回报的竞争中,冒险是值得的,任何“鸽”的策略都会被剥削。 * 如果 $V < C$(受伤成本高昂),则不存在纯策略的ESS。如果全是鸽,一个鹰的突变体可以轻松获得全部资源,表现极好;如果全是鹰,高昂的受伤成本使得鹰的平均收益 $(V-C)/2$ 为负,此时一个鸽的突变体(收益为0)反而会表现更好。 * 在这种情况下,ESS是一个{{{混合策略}}}均衡,种群会演化到一个稳定状态,其中鹰和鸽按一定比例共存。鹰在种群中的均衡比例是 $p^* = V/C$。这个结果解释了为什么在自然界中,多数动物间的争斗是仪式化的(像鸽),而不是殊死搏斗(像鹰)。
### 2. 重复囚徒困境 (Iterated Prisoner's Dilemma) 在一次性的{{{囚徒困境}}}中,唯一的纳什均衡和ESS都是“永远背叛”。然而,当博弈重复进行时,演化博弈论揭示了{{{合作}}}行为出现的可能性。
在计算机模拟竞赛中,一个名为针锋相对 (Tit-for-Tat, TFT) 的简单策略表现出色。该策略的规则是: 1. 第一回合选择合作。 2. 之后每一回合,都重复对手上一回合的行动。
在演化博弈的框架下,如果一个种群中充满了TFT策略的个体,那么这个种群就是演化稳定的,能够抵御“永远背叛”等策略的入侵(前提是未来继续博弈的概率足够高)。TFT策略的成功在于它集善良(不首先背叛)、可报复性(对背叛立刻予以惩罚)和宽容性(一旦对手回归合作,立即原谅)于一身。这为理解无中心化社会中合作与信任的演化提供了强有力的理论基础。
## 演化博弈论与经典博弈论的对比
| 特征 | 经典博弈论 (Classical Game Theory) | 演化博弈论 (Evolutionary Game Theory) | | :------------- | :----------------------------------------------------------------- | :------------------------------------------------------------------- | | 核心假设 | 参与者是完全理性的,并追求自身收益最大化。 | 参与者无需理性,策略的成功由其适应度决定,通过复制和选择传播。 | | 分析单位 | 单个、理性的个体。 | 由大量个体组成的种群。 | | 策略选择 | 基于对其他参与者行为的预期而做出的一次性选择。 | 一种被继承或学习的固定行为模式,其频率在种群中演变。 | | 均衡概念 | {{{纳什均衡}}} (Nash Equilibrium) | {{{演化稳定策略}}} (ESS)、复制子动态的稳定点。 | | 分析焦点 | 均衡的存在性和静态特征 (What should players do?)。 | 均衡的动态过程和稳定性 (How does an equilibrium emerge?)。 | | 应用领域 | 经济学中的寡头竞争、拍卖理论、契约设计。 | 生物学、社会规范演化、技术采纳、道德和合作的起源。 |
总而言之,演化博弈论提供了一个动态的视角来理解策略的演变,它不依赖于苛刻的理性假设,从而能够更好地解释现实世界中那些通过试错、学习和选择过程而形成的复杂社会和生物现象。