知经 KNOWECON · 卓越的经济金融统计数学学习平台

纯策略纳什均衡

# 纯策略纳什均衡 (Pure Strategy Nash Equilibrium)

纯策略纳什均衡 (Pure Strategy Nash Equilibrium, PSNE) 是{{{博弈论}}} (Game Theory) 中一个 foundational 的概念,用以描述一个静态博弈中的一种稳定状态。它指代的是一个策略组合,在这个组合中,没有任何一个参与者(player)可以通过 单方面 改变自己的策略来获得更高的{{{收益}}} (Payoff),前提是其他参与者的策略保持不变。

这个概念由数学家{{{约翰·纳什}}} (John Nash) 提出,其核心思想可以概括为 “无悔” (no regrets)。在一个纯策略纳什均衡中,当结果揭晓后,每个参与者回顾自己的决策时,都会发现,在给定其他人选择的情况下,自己的选择是最佳的。

为了完整理解这一概念,我们需要分步解析其构成部分:

* 策略 (Strategy): 在博弈论中,一个策略是参与者为自己在博弈中所有可能遇到的情况下预先制定的一个完整的行动计划。 * 纯策略 (Pure Strategy): 这是最简单的一种策略。一个纯策略明确地规定了参与者在每一个决策点上将采取的 唯一、确定 的行动。它不涉及任何随机性。例如,在“石头、剪刀、布”游戏中,"一直出石头"就是一个纯策略。这与{{{混合策略}}} (Mixed Strategy) 相对,后者会为每个可能的行动分配一个概率。 * 纳什均衡 (Nash Equilibrium): 这是一个策略组合(每个参与者都选择一个策略),使得每个参与者的策略都是对其他参与者策略的 最佳应对 (Best Response)

因此,纯策略纳什均衡 就是所有参与者都采用纯策略时所构成的一个{{{纳什均衡}}}。

## 形式化定义

在一个包含 $n$ 个参与者的博弈中:

* 令 $S_i$ 为参与者 $i$ 的纯策略集合。 * 一个 策略组合 (strategy profile) 是由每个参与者的一个策略构成的集合,记为 $s = (s_1, s_2, \ldots, s_n)$,其中 $s_i \in S_i$ 是参与者 $i$ 选择的策略。 * 令 $u_i(s)$ 为在策略组合 $s$ 下,参与者 $i$ 获得的收益。

一个策略组合 $s^* = (s_1^*, s_2^*, \ldots, s_n^*)$ 被称为一个 纯策略纳什均衡,如果对于 每一个 参与者 $i \in \{1, 2, \ldots, n\}$,以及对于参与者 $i$ 的 任何其他 可选纯策略 $s_i \in S_i$,都满足以下不等式:

$$ u_i(s_1^*, \ldots, s_i^*, \ldots, s_n^*) \ge u_i(s_1^*, \ldots, s_i, \ldots, s_n^*) $$

这个公式的含义是:在均衡状态 $s^*$ 下,任何参与者 $i$ 都无法通过单方面将自己的策略从 $s_i^*$ 更换为任何其他策略 $s_i$ 来提高自己的收益。此时,我们称 $s_i^*$ 是对其他参与者策略组合 $(s_1^*, \ldots, s_{i-1}^*, s_{i+1}^*, \ldots, s_n^*)$ 的一个最佳应对。

## 经典案例分析

通过分析具体的博弈模型,可以更直观地理解纯策略纳什均衡。

### 案例一:{{{囚徒困境}}} (Prisoner's Dilemma)

囚徒困境是展示纳什均衡与全局最优解之间差异的经典案例。假设有两个嫌疑人A和B被捕,警方将他们分开关押审讯。他们面临的选择是“坦白”(Confess) 或“沉默”(Silent)。收益(这里以服刑年限的负数表示,收益越高代表服刑年限越短)如下面的{{{收益矩阵}}} (Payoff Matrix) 所示:

| | 嫌疑人 B: 坦白 | 嫌疑人 B: 沉默 | | :------ | :-------------: | :---------------: | | 嫌疑人 A: 坦白 | (-8, -8) | (0, -10) | | 嫌疑人 A: 沉默 | (-10, 0) | (-1, -1) |

*(括号中的第一个数字是A的收益,第二个是B的收益)*

我们来寻找这个博弈的PSNE:

1. 从嫌疑人A的视角出发: * 如果B选择“坦白”,A的最佳选择是“坦白”(-8 > -10)。 * 如果B选择“沉默”,A的最佳选择仍然是“坦白”(0 > -1)。 * 无论B做什么,A的最佳选择都是“坦白”。因此,“坦白”是A的{{{优势策略}}} (Dominant Strategy)。

2. 从嫌疑人B的视角出发 (由于博弈是对称的): * 如果A选择“坦白”,B的最佳选择是“坦白”(-8 > -10)。 * 如果A选择“沉默”,B的最佳选择也是“坦白”(0 > -1)。 * “坦白”同样是B的优势策略。

由于双方都有优势策略“坦白”,唯一的纯策略纳什均衡是 (坦白, 坦白)。在这个结果下,双方各获益-8。值得注意的是,这个均衡结果并非{{{帕累托最优}}} (Pareto Optimal),因为 (沉默, 沉默) 的结果(-1, -1)对双方都更好。然而,(沉默, 沉默) 并非一个均衡,因为在该组合下,任何一方都有动机单方面变为“坦白”来寻求更高的收益(从-1提高到0)。

### 案例二:{{{性别之战}}} (Battle of the Sexes)

这个博弈模型展示了存在 多个纯策略纳什均衡 的情况。假设一对情侣决定晚上一起活动,但他们对于去“看歌剧”(Opera) 还是“看球赛”(Football) 有不同偏好。他们都希望和对方在一起,但男方偏好看球赛,女方偏好看歌剧。

| | 男方: 球赛 | 男方: 歌剧 | | :------ | :--------: | :--------: | | 女方: 球赛 | (1, 2) | (0, 0) | | 女方: 歌剧 | (0, 0) | (2, 1) |

*(括号中的第一个数字是女方的收益,第二个是男方的收益)*

我们来寻找这个博弈的PSNE:

1. 如果女方选择“球赛”,男方的最佳应对是选择“球赛”(收益2 > 0)。 2. 如果男方选择“球赛”,女方的最佳应对是选择“球赛”(收益1 > 0)。 * 因此,(球赛, 球赛) 是一个纯策略纳什均衡。

3. 如果女方选择“歌剧”,男方的最佳应对是选择“歌剧”(收益1 > 0)。 4. 如果男方选择“歌剧”,女方的最佳应对是选择“歌剧”(收益2 > 0)。 * 因此,(歌剧, 歌剧) 是另一个纯策略纳什均衡。

这个{{{协调博弈}}} (Coordination Game) 有两个PSNE。这表明在一个博弈中,稳定的结果可能不止一个,这也引出了哪一个均衡会最终出现的问题,可能取决于文化、习惯或事先沟通。

## 纯策略纳什均衡的存在性

并非所有博弈都存在纯策略纳什均衡。一个典型的例子是 “硬币正反博弈” (Matching Pennies)

假设参与者1和参与者2同时出示一枚硬币,可以选择正面(Heads)或反面(Tails)。如果两人出示的一样,参与者1赢得参与者2的一元;如果不一样,参与者2赢得参与者1的一元。

| | 参与者 2: 正面 (H) | 参与者 2: 反面 (T) | | :-------- | :----------------: | :----------------: | | 参与者 1: 正面 (H) | (+1, -1) | (-1, +1) | | 参与者 1: 反面 (T) | (-1, +1) | (+1, -1) |

我们来检查是否存在PSNE: * (H, H): 参与者2有动机改为T(从-1到+1)。不是PSNE。 * (H, T): 参与者1有动机改为T(从-1到+1)。不是PSNE。 * (T, H): 参与者1有动机改为H(从-1到+1)。不是PSNE。 * (T, T): 参与者2有动机改为H(从-1到+1)。不是PSNE。

在这个博弈中,不存在任何一个纯策略组合能让双方都没有动机单方面改变策略。这种类型的博弈(也包括“石头、剪刀、布”)没有纯策略纳什均衡。然而,它们确实存在{{{混合策略纳什均衡}}} (Mixed Strategy Nash Equilibrium),即参与者以一定的概率随机选择他们的行动。约翰·纳什证明了,在任何具有有限参与者和有限策略集的博弈中,至少存在一个纳什均衡(无论是纯策略还是混合策略)。

## 应用与重要性

纯策略纳什均衡是理解和预测经济、社会和政治互动结果的强大工具。

* 经济学: 在{{{寡头垄断}}}市场中,PSNE被用来分析企业间的产量竞争({{{古诺模型}}},Cournot Model)或价格竞争({{{伯特兰模型}}},Bertrand Model)。例如,在古诺模型中,每个公司的产量决策构成了一个PSNE。 * 市场进入决策: 一个公司是否进入一个新市场的决策,取决于现有公司的反应。这可以被建模为一个博弈,其PSNE可以预测市场最终的结构。 * 社会规范: 许多社会规范,如靠右行驶或使用某种通用语言,都可以被理解为{{{协调博弈}}}中的一个纯策略纳什均衡。一旦规范形成,没有人有单方面偏离的动机。

总之,纯策略纳什均衡为分析理性决策者在战略互动环境中的行为提供了一个清晰、可检验的基准。理解PSNE的条件、含义以及其局限性,是深入学习博弈论及相关应用领域的第一步。