ARTICLE

纳什均衡

纳什均衡 (Nash Equilibrium) 纳什均衡 (Nash Equilibrium) 是非合作博弈论 (non-cooperative game theory) 中一个最核心的解概念 (solution concept)。它以数学家[[约翰·福布斯·纳什]] (John Forbes Nash Jr.) 的名字命名,他为此做出了开创性的贡献。纳什均

浏览 42 更新 2025-10-26

纳什均衡 (Nash Equilibrium)

纳什均衡 (Nash Equilibrium) 是非合作博弈论 (non-cooperative game theory) 中一个最核心的解概念 (solution concept)。它以数学家[[约翰·福布斯·纳什]] (John Forbes Nash Jr.) 的名字命名,他为此做出了开创性的贡献。纳什均衡描述了一种策略组合的状态,在这种状态下,没有任何一个参与者可以通过单方面改变自己的策略而获得更好的结果。换句话说,在纳什均衡点上,每一位参与者的策略都是对其余所有参与者策略的 最佳应对 (Best Response)

这个概念是分析理性参与者之间战略互动的基石,在经济学政治学计算机科学演化生物学等众多领域都有着广泛的应用。

形式化定义 (Formal Definition)

为了精确地理解纳什均衡,我们需要引入一些博弈论的基本符号。

考虑一个有 N N 个参与者 (players) 的博弈。

  • 每个参与者 i i (其中 i{1,2,,N} i \in \{1, 2, \ldots , N\} ) 有一个可供选择的策略集合 Si S_i
  • 一个 策略组合 (strategy profile) 是一个包含所有参与者策略的向量 s=(s1,s2,,sN) s = (s_1, s_2, \ldots , s_N) ,其中每个 siSi s_i \in S_i
  • ui(s) u_i(s) 是参与者 i i 在策略组合 s s 下获得的 收益 (payoff) 或效用。

一个策略组合 s=(s1,s2,,sN) s^* = (s_1^*, s_2^*, \ldots , s_N^*) 被称为一个 纳什均衡,如果对于任何一个参与者 i i ,其选择的策略 si s_i^* 是对其他参与者所选择的策略组合 si s_{-i}^* 的最佳应对。这里的 si s_{-i}^* 表示除参与者 i i 之外所有其他参与者的策略组合,即 si=(s1,,si1,si+1,,sN) s_{-i}^* = (s_1^*, \ldots , s_{i-1}^*, s_{i+1}^*, \ldots , s_N^*)

用数学公式表达,对于任意参与者 i i 和其策略集 Si S_i 中的任意策略 si s_i ,都满足以下条件:

ui(si,si)ui(si,si)u_i(s_i^*, s_{-i}^*) \ge u_i(s_i, s_{-i}^*)

这个不等式表明,在其他人都保持其均衡策略 si s_{-i}^* 不变的情况下,参与者 i i 无法通过单方面将自己的策略从 si s_i^* 变为任何其他策略 si s_i 来提高自己的收益。一旦达到纳什均衡,所有参与者都没有独自偏离的动机。

核心示例:囚徒困境 (The Prisoner's Dilemma)

囚徒困境 是解释纳什均衡最有名的例子,它生动地展示了为什么个体理性选择可能导致集体非理性的结果。

情景:两名嫌疑犯(A和B)因涉嫌共同犯罪而被捕,但警方缺乏足够的证据给他们定重罪。他们被分别关押,无法相互沟通。检察官向每位嫌疑犯提供了以下交易:

  • 如果两人都保持沉默(合作),则因证据不足,两人各判1年。
  • 如果你坦白(背叛),而对方沉默,你将被释放(0年),而对方将被判10年重刑。
  • 如果两人都坦白,则两人各判5年。

我们可以用一个 收益矩阵 (Payoff Matrix) 来表示这个博弈,其中收益以服刑年限的负数表示(因为年限越少越好):

| | 嫌疑犯 B:沉默 | 嫌疑犯 B:坦白 | | :----------: | :--------------: | :--------------: | | 嫌疑犯 A:沉默 | (-1, -1) | (-10, 0) | | 嫌疑犯 A:坦白 | (0, -10) | (-5, -5) |

分析: 让我们从嫌疑犯A的角度来思考:

  1. 假设B选择沉默:A的最佳选择是坦白(获得0年,优于沉默的-1年)。
  2. 假设B选择坦白:A的最佳选择仍然是坦白(获得-5年,优于沉默的-10年)。

无论B作何选择,A的最优策略都是坦白。坦白是A的 优势策略 (Dominant Strategy)。同理,对于嫌疑犯B来说,坦白也是他的优势策略。

因此,这个博弈的唯一纳什均衡是 (坦白, 坦白)。在这个结果下,两人各判5年。然而,这个均衡结果并非最佳的。如果两人当初都选择沉默,他们本可以只各判1年。这个 (-1, -1) 的结果是帕累托最优 (Pareto Optimal) 的,但它不是一个稳定的均衡,因为每个参与者都有单方面背叛以获取更大利益的动机。

纳什均衡的类型 (Types of Nash Equilibria)

纳什均衡可以分为两种主要类型:

1. 纯策略纳什均衡 (Pure Strategy Nash Equilibrium) 在这种均衡中,每个参与者都以100\%的概率选择一个确定的策略。上面讨论的囚徒困境中的 (坦白, 坦白) 就是一个纯策略纳什均衡。

另一个经典的例子是 性别之战 (Battle of the Sexes),它展示了存在多个纯策略纳什均衡的情况。一对情侣决定晚上去哪里约会,一方偏爱歌剧,另一方偏爱足球赛,但他们都宁愿一起活动而不是分开。这个博弈有两个纯策略纳什均衡:(歌剧, 歌剧) 和 (足球赛, 足球赛)。

2. 混合策略纳什均衡 (Mixed Strategy Nash Equilibrium) 在某些博弈中,不存在纯策略纳什均衡。这时,参与者会以一定的概率随机选择不同的策略。一个 混合策略 (Mixed Strategy) 就是参与者为其每个可用策略分配的一个概率分布。

在混合策略纳什均衡中,每个参与者的混合策略都使得其他参与者在他们自己选择的任何纯策略上获得的期望收益都相等(或者说,对于其混合策略中的任何一个纯策略,其期望收益都相同)。这使得对手没有动机去偏离他们自己的混合策略。

一个简单的例子是 猜硬币 (Matching Pennies) 游戏。参与者A和B同时出示一枚硬币,可以选择正面或反面。如果两人出示的一样,A赢得B的一元;如果不一样,B赢得A的一元。其收益矩阵如下:

| | B: 正面 | B: 反面 | | :----: | :-----: | :-----: | | A: 正面 | (1, -1) | (-1, 1) | | A: 反面 | (-1, 1) | (1, -1) |

这个博弈没有纯策略纳什均衡。唯一的纳什均衡是混合策略均衡:每个参与者都以 50\% 的概率选择正面,50\% 的概率选择反面。当B以50/50的概率出牌时,A无论出正面还是反面,其期望收益都是0,因此A对于自己的任何选择都无所谓,从而也愿意以50/50的概率随机出牌。

纳什均衡的存在性与应用

存在性 (Existence)

纳什最重要的数学贡献之一是证明了:任何具有有限数量参与者和有限数量策略的博弈,都至少存在一个纳什均衡。这个均衡可能是纯策略的,也可能是混合策略的。这个定理(通常依赖于布劳威尔不动点定理角谷不动点定理)保证了纳什均衡概念的广泛适用性。

应用 (Applications)

局限性 (Limitations)

  • 多重均衡:许多博弈存在多个纳什均衡,这使得预测最终结果变得困难。需要引入“均衡精炼” (Equilibrium Refinement) 的概念来筛选出更可能的均衡。
  • 理性假设:纳什均衡假设所有参与者都是完全理性的,并且知道所有其他参与者的策略和收益。现实中,人的行为受到心理、情感等因素影响,催生了行为博弈论 (Behavioral Game Theory) 的发展。
  • 计算复杂性:在参与者和策略数量很多的情况下,计算纳什均衡可能非常困难。
  • 非合作性质:该理论主要适用于参与者无法达成有约束力协议的场景。在可以合作的情况下,结果可能完全不同。

尽管存在这些局限,纳什均衡仍然是理解和分析战略决策的不可或缺的基础工具。