知经 KNOWECON · 卓越的经济金融统计数学学习平台

贝叶斯纳什均衡

# 贝叶斯纳什均衡 (Bayesian Nash Equilibrium)

贝叶斯纳什均衡 (Bayesian Nash Equilibrium, BNE),是{{{博弈论}}}中用于分析不完全信息博弈 (Games of Incomplete Information) 的核心均衡概念。它是{{{纳什均衡}}}在信息不对称情境下的自然延伸。在一个贝叶斯博弈中,参与者至少对其他某位参与者的某些特征(如支付函数、偏好、成本等)不完全了解。贝叶斯纳什均衡描述了在这种不确定性下,所有理性参与者采取的最优策略组合。

这个概念由诺贝尔经济学奖得主{{{约翰·海萨尼}}} (John Harsanyi) 提出,他通过引入一个虚拟的开局者“自然”(Nature)将不完全信息博弈转化为不完美信息博弈,从而使得分析成为可能。这一转换被称为{{{海萨尼转换}}} (Harsanyi Transformation)。

## 不完全信息与贝叶斯博弈

在学习贝叶斯纳什均衡之前,必须首先理解它所适用的博弈环境:

* {{{完全信息博弈}}} (Games of Complete Information):这是最基础的博弈类型。在这种博弈中,所有参与者都清楚地了解博弈的全部结构,包括:所有参与者是谁、他们各自可以选择的行动集合是什么,以及每一种可能的行动组合会给每一位参与者带来怎样的{{{支付}}} (Payoff)。例如,经典的{{{囚徒困境}}}就是一个完全信息博弈。

* 不完全信息博弈 (Games of Incomplete Information)贝叶斯博弈 (Bayesian Game):在这种博弈中,至少有一位参与者不确定另一位参与者的某些私人信息。这些私人信息被称为该参与者的“类型 (Type)”。一个参与者的“类型”决定了其支付函数或其他特征。例如,在一次竞拍中,每个竞拍者知道自己对拍卖品的估价(自己的类型),但不知道其他竞拍者的估价(其他人的类型)。

在贝叶斯博弈中,虽然参与者不确定其他人的确切类型,但他们拥有关于其他人可能是哪种类型的信念 (Beliefs)。这些信念通常以{{{概率分布}}}的形式表示。例如,参与者A可能认为参与者B有 $p$ 的概率是“强硬”类型,有 $1-p$ 的概率是“温和”类型。

## 贝叶斯纳什均衡的定义

在一个贝叶斯博弈中,一个策略 (Strategy) 不再仅仅是一个单一的行动,而是一个完整的行动计划。具体来说,一个参与者的策略规定了他在每一种可能的自身“类型”下将采取何种行动。

定义:一个策略组合构成一个贝叶斯纳什均衡,如果对于每一位参与者,并且对于该参与者的每一种可能的类型,其选择的行动是在给定其他参与者的策略和其自身对其他参与者类型的信念下,能够最大化其期望支付 (Expected Payoff) 的行动。

换句话说,没有任何一个参与者,在任何一种可能的类型下,有动机单方面偏离其当前的策略。

### 数学形式化

我们来更精确地定义这个概念。考虑一个贝叶斯博弈,其构成要素如下: * 参与者集合 $N = \{1, 2, \ldots, n\}$。 * 每个参与者 $i$ 的行动集合 $A_i$。 * 每个参与者 $i$ 的类型集合 $T_i$。一个具体的类型 $t_i \in T_i$ 是参与者 $i$ 的私人信息。 * 一个共同的先验概率分布 $P$,$P(t_1, t_2, \ldots, t_n)$ 表示各种类型组合出现的概率。每个参与者基于这个先验分布和自己的类型,使用{{{贝叶斯法则}}}来形成关于其他参与者类型的后验信念 $p(t_{-i} | t_i)$。其中 $t_{-i}$ 表示除参与者 $i$ 以外所有参与者的类型组合。 * 每个参与者 $i$ 的支付函数 $u_i(a_1, \ldots, a_n; t_1, \ldots, t_n)$,它依赖于所有参与者的行动和所有参与者的类型。

一个纯策略 $s_i$ 是一个从参与者 $i$ 的类型空间到其行动空间的映射,即 $s_i: T_i \to A_i$。$s_i(t_i)$ 表示类型为 $t_i$ 的参与者 $i$ 将选择的行动。

策略组合 $s = (s_1, s_2, \ldots, s_n)$ 构成一个贝叶斯纳什均衡,如果对任意参与者 $i \in N$ 和其任意类型 $t_i \in T_i$,其策略 $s_i(t_i)$ 满足: $$s_i(t_i) \in \arg\max_{a_i \in A_i} \sum_{t_{-i} \in T_{-i}} p(t_{-i}|t_i) u_i(a_i, s_{-i}(t_{-i}); t_i, t_{-i})$$

这个公式的核心思想是: 1. 参与者 $i$ 知道自己的类型是 $t_i$。 2. 他不知道其他参与者的类型 $t_{-i}$,但他有一个信念 $p(t_{-i}|t_i)$。 3. 他假设其他参与者会根据他们的均衡策略 $s_{-i}$ 来行动。也就是说,如果其他参与者的类型是 $t_{-i}$,他们就会选择行动 $s_{-i}(t_{-i})$。 4. 因此,当参与者 $i$ 选择行动 $a_i$ 时,他的期望支付是对所有可能的 $t_{-i}$ 进行加权平均的结果,权重就是他关于 $t_{-i}$ 的信念。 5. 在贝叶斯纳什均衡中,他选择的行动 $s_i(t_i)$ 必须是使这个期望支付最大化的行动。

## 举例说明:带有不完全信息的古诺竞争

理解BNE最好的方式是通过一个例子。考虑一个双头垄断的{{{古诺模型}}},但其中一个厂商的成本信息是私有的。

* 参与者:厂商1和厂商2。 * 行动:两家厂商同时决定各自的产量 $q_1$ 和 $q_2$。$q_1, q_2 \ge 0$。 * 市场需求:市场的逆需求函数为 $P(Q) = a - Q$,其中总产量 $Q = q_1 + q_2$。为简单起见,设 $a > c_H$。 * 类型与信念: * 厂商1的{{{边际成本}}}是固定的,为 $c$。这是共同知识。 * 厂商2的边际成本是不确定的。它可能是高成本 $c_H$ 或低成本 $c_L$,其中 $c_H > c_L$。厂商2知道自己的真实成本。 * 厂商1不知道厂商2的真实成本,但它有一个信念:厂商2是低成本 ($c_L$) 的概率为 $\theta$,是高成本 ($c_H$) 的概率为 $1-\theta$。 * 支付函数 (利润): * 厂商1的利润:$\pi_1 = (P(Q) - c)q_1 = (a - q_1 - q_2 - c)q_1$。 * 厂商2的利润:$\pi_2 = (P(Q) - c_2)q_2 = (a - q_1 - q_2 - c_2)q_2$,其中 $c_2$ 取决于其类型($c_L$ 或 $c_H$)。

### 求解BNE

第一步:定义厂商2的策略 厂商2的策略是基于其类型的行动计划。我们用 $q_2(c_L)$ 表示其为低成本类型时的产量,用 $q_2(c_H)$ 表示其为高成本类型时的产量。

* 如果厂商2是低成本类型,它选择 $q_2(c_L)$ 以最大化其利润: $\max_{q_2} (a - q_1 - q_2 - c_L)q_2$ 通过一阶条件求导,得到其反应函数:$q_2(c_L) = \frac{a - q_1 - c_L}{2}$。

* 如果厂商2是高成本类型,它选择 $q_2(c_H)$ 以最大化其利润: $\max_{q_2} (a - q_1 - q_2 - c_H)q_2$ 同样,得到其反应函数:$q_2(c_H) = \frac{a - q_1 - c_H}{2}$。

第二步:定义厂商1的策略并求解 厂商1只有一个类型,它的策略就是选择一个产量 $q_1$。但厂商1在做决策时,必须考虑厂商2的两种可能性。厂商1的目标是最大化其期望利润

厂商1的期望利润为: $$ E[\pi_1] = \theta \cdot \pi_1(\text{当厂商2是低成本}) + (1-\theta) \cdot \pi_1(\text{当厂商2是高成本}) $$ $$ E[\pi_1] = \theta (a - q_1 - q_2(c_L) - c)q_1 + (1-\theta)(a - q_1 - q_2(c_H) - c)q_1 $$ 厂商1知道厂商2会根据其类型理性地选择产量,所以它可以将厂商2的反应函数代入自己的期望利润函数中。为了简化,我们注意到厂商2的产量 $q_2$ 是厂商1需要面对的不确定量。厂商1的决策可以看作是针对厂商2的期望产量 $E[q_2] = \theta q_2(c_L) + (1-\theta) q_2(c_H)$ 进行反应。 所以,厂商1最大化: $$ \max_{q_1} (a - q_1 - E[q_2] - c)q_1 $$ 其反应函数为:$q_1 = \frac{a - E[q_2] - c}{2}$。

第三步:联立求解均衡 我们现在有三方(厂商1,低成本的厂商2,高成本的厂商2)的三个反应函数,需要联立求解: 1. $q_1 = \frac{a - (\theta q_2(c_L) + (1-\theta) q_2(c_H)) - c}{2}$ 2. $q_2(c_L) = \frac{a - q_1 - c_L}{2}$ 3. $q_2(c_H) = \frac{a - q_1 - c_H}{2}$

将(2)和(3)代入(1)中,可以解出唯一的 $q_1^*$。然后将 $q_1^*$ 再代回(2)和(3),即可解出 $q_2(c_L)^*$ 和 $q_2(c_H)^*$。

这个策略组合 $\{q_1^*, (q_2(c_L)^*, q_2(c_H)^*)\}$ 就是该博弈的贝叶斯纳什均衡。在这个均衡中: * 厂商1选择的产量 $q_1^*$ 是对其面临的不确定性(厂商2的成本)进行平均化之后的最优反应。 * 低成本的厂商2选择的产量 $q_2(c_L)^*$ 是在给定厂商1会选择 $q_1^*$ 的情况下的最优反应。 * 高成本的厂商2选择的产量 $q_2(c_H)^*$ 也是在给定厂商1会选择 $q_1^*$ 的情况下的最优反应。

没有一方有动机单方面改变自己的决策。

## 应用与扩展

贝叶斯纳什均衡是分析信息不对称下经济行为的基石,其应用极为广泛: * {{{拍卖理论}}} (Auction Theory):分析不同拍卖规则(如{{{一级价格密封拍卖}}})下的竞价策略,其中每个竞买人对他人的估价是不确定的。 * {{{信号博弈}}} (Signaling Games):分析有信息优势的一方如何通过其行动向信息劣势方传递信息,如教育作为能力的信号。 * {{{机制设计}}} (Mechanism Design):设计交易规则或制度以在信息不对称的环境下达成社会目标,如效率或公平。

对于动态博弈(即参与者有先后顺序行动的博弈),贝叶斯纳什均衡需要进一步被精炼。{{{完美贝叶斯均衡}}} (Perfect Bayesian Equilibrium, PBE) 是一个更强的均衡概念,它不仅要求策略是最优的,还要求参与者的信念必须在博弈过程中根据{{{贝叶斯法则}}}进行合理更新。