知经 KNOWECON · 卓越的经济金融统计数学学习平台

贝叶斯均衡

# 贝叶斯均衡 (Bayesian Equilibrium)

贝叶斯均衡 (Bayesian Equilibrium),或称为 贝叶斯纳什均衡 (Bayesian Nash Equilibrium, BNE),是{{{博弈论}}}中用于分析 {{{不完全信息博弈}}} (Games of Incomplete Information) 的核心{{{均衡}}}概念。它是对{{{纳什均衡}}}概念的扩展,由经济学家约翰·海萨尼 (John Harsanyi) 提出,并因此获得了1994年的诺贝尔经济学奖。

在不完全信息博弈中,至少有一位参与者不完全了解其他参与者的某些特征,例如他们的{{{支付函数}}}、他们掌握的信息或他们的战略偏好。这些未知的特征被统称为参与者的 “类型” (Type)。贝叶斯均衡描述了在这种不确定性下,理性参与者如何做出最优决策。

## 核心思想与构成要素

贝叶斯均衡的核心思想是:每位参与者根据自己掌握的私有信息(即自己的“类型”),对其他参与者的可能类型形成一个 {{{信念}}} (Belief)(即一个{{{概率分布}}}),并在此信念的基础上选择一个能最大化自身 {{{期望支付}}} (Expected Payoff) 的策略。一个策略组合构成贝叶斯均衡,当且仅当对于每一位参与者,不论其为何种类型,其所选择的策略都是相对于其他参与者的策略和自己信念的最佳应对。

为了理解贝叶斯均衡,我们需要掌握以下几个关键要素:

1. 参与者类型 (Player Types):一个参与者的“类型”是其所有私有信息的总称。例如,在一次{{{拍卖}}}中,一个竞标者的类型可能是他对拍卖品的真实{{{估值}}};在劳动市场中,一个求职者的类型可能是他的真实工作能力。参与者知道自己的类型,但不知道其他参与者的类型。

2. 信念 (Beliefs):由于参与者不了解对手的类型,他们必须基于某种概率判断来做决策。这种判断就是信念。通常,我们假设所有参与者对不同类型组合的{{{先验概率}}}分布有一个 共同认知 (Common Prior)。当博弈进行时,参与者可能会观察到其他人的行动,并使用 {{{贝叶斯法则}}} (Bayes' Rule) 来更新他们的信念,形成{{{后验概率}}}。

3. 策略 (Strategies):在贝叶斯博弈中,一个纯策略不再是简单地选择一个行动,而是一个完整的行动计划,它规定了该参与者在每一种可能的“类型”下会选择哪一个行动。因此,参与者 $i$ 的策略是一个函数 $s_i(t_i)$ ,它将该参与者的每一种可能类型 $t_i \in T_i$ 映射到一个具体的行动 $a_i \in A_i$。

4. 期望支付 (Expected Payoffs):理性的参与者旨在最大化其期望支付。这个期望值是根据其对其他参与者类型的信念(概率分布)以及其他参与者的策略来计算的。

## 形式化定义

一个贝叶斯博弈由以下元素定义: * 参与者集合 $N = \{1, 2, $...$, n\}$。 * 每个参与者 $i$ 的行动空间 $A_i$。 * 每个参与者 $i$ 的类型空间 $T_i$。一个特定的类型组合是 $t = (t_1, t_2, $...$, t_n)$。 * 每个参与者 $i$ 的支付函数 $u_i(a, t)$,它依赖于所有参与者的行动组合 $a = (a_1, $...$, a_n)$ 和类型组合 $t$。 * 每个参与者 $i$ 关于其他参与者类型的信念 $p_i(t_{-i} | t_i)$,其中 $t_{-i}$ 表示除 $i$ 之外所有参与者的类型组合。在有共同先验的假设下,这个条件概率可以通过联合概率分布 $p(t)$ 计算得出。

一个策略组合 $s^* = (s_1^*(\cdot), s_2^*(\cdot), $...$, s_n^*(\cdot))$ 构成一个(纯策略)贝叶斯纳什均衡,如果对于任何参与者 $i \in N$ 和他的任何可能类型 $t_i \in T_i$ ,其策略 $s_i^*(t_i)$ 都是最优的。这意味着,给定其他参与者的策略 $s_{-i}^*(\cdot)$ 和参与者 $i$ 关于他们类型的信念,没有任何其他行动 $a_i \in A_i$ 能为类型为 $t_i$ 的参与者 $i$ 带来更高的期望支付。

用数学公式表达,对于任意 $i \in N$ 和任意 $t_i \in T_i$,策略 $s_i^*(t_i)$ 必须满足: $$ s_i^*(t_i) \in \arg\max_{a_i \in A_i} \sum_{t_{-i} \in T_{-i}} p(t_{-i} | t_i) \cdot u_i(a_i, s_{-i}^*(t_{-i}), t_i, t_{-i}) $$

这个公式的含义是: * $s_i^*(t_i)$ 是类型为 $t_i$ 的参与者 $i$ 应该采取的最优行动。 * 该最优行动需要最大化一个加权平均的支付。 * 权重是 $p(t_{-i} | t_i)$,即在已知自己类型为 $t_i$ 的情况下,参与者 $i$ 认为其他参与者类型为 $t_{-i}$ 的概率。 * $s_{-i}^*(t_{-i})$ 是其他参与者根据其各自类型所采取的均衡策略。 * $u_i(\cdot)$ 是在给定所有人的行动和类型下的支付。 * 求和符号 $\sum$ 意味着参与者 $i$ 考虑了所有对手可能的类型组合,并根据其信念计算期望支付。

## 示例:进入博弈 (Entry Game)

假设一个市场中有一家 在位企业 (Incumbent, Player 1) 和一家 潜在进入者 (Entrant, Player 2)

1. 博弈流程: * 首先,大自然(Nature)决定在位企业的类型:它可能是 “高成本” (Weak)“低成本” (Tough)。假设“高成本”的概率为 $1-p$,“低成本”的概率为 $p$。 * 在位企业知道自己的成本类型,但进入者不知道。进入者只知道这个概率分布(共同先验)。 * 进入者决定 进入 (Enter) 市场还是 不进入 (Stay Out)。 * 如果进入者选择不进入,博弈结束。如果在位企业是壟斷者。 * 如果进入者选择进入,在位企业观察到进入行为后,决定 默许 (Accommodate) 形成双头垄断,还是发动价格战进行 斗争 (Fight)

2. 支付设定 (在位企业, 进入者): * 若进入者选择 不进入:在位企业获得垄断利润。假设高成本类型获得 2,低成本类型获得 3。进入者获得 0。支付为 $(2, 0)$ 或 $(3, 0)$。 * 若进入者 进入 且在位企业 默许:双方瓜分市场。假设支付为 $(1, 1)$。 * 若进入者 进入 且在位企业 斗争: * 如果是在位企业是 高成本 类型,发动价格战对其自身伤害很大,支付为 $(0, -1)$。 * 如果是在位企业是 低成本 类型,它能更好地承受价格战,支付为 $(2, -1)$。(注意:即使是低成本企业,斗争的支付(2)也低于不进入时的垄断利润(3),但高于默许(1))。

3. 寻找贝叶斯均衡: * 在位企业的策略:我们需要为在位企业的每种类型确定其最优行动。 * 如果它是一个 高成本 类型,在进入者进入后,它的选择是在“默许”(支付1)和“斗争”(支付0)之间。它会选择 默许。 * 如果它是一个 低成本 类型,在进入者进入后,它的选择是在“默许”(支付1)和“斗争”(支付2)之间。它会选择 斗争。 * 因此,在位企业的均衡策略是:$s_1(\text{高成本}) = \text{默许}$,$s_1(\text{低成本}) = \text{斗争}$。

* 进入者的策略:进入者需要根据在位企业的策略和自己的信念来计算期望支付。 * 不进入 的支付是 $0$。 * 进入 的期望支付是: $$ E[\text{支付(进入)}] = p \cdot \text{支付(面对低成本类型)} + (1-p) \cdot \text{支付(面对高成本类型)} $$ 根据我们推导出的在位企业策略,如果进入,低成本对手会斗争,高成本对手会默许。所以: $$ E[\text{支付(进入)}] = p \cdot (-1) + (1-p) \cdot (1) = 1 - 2p $$ * 进入者会比较进入的期望支付和不进入的支付。他会选择进入,当且仅当 $1 - 2p > 0$,即 $p < 1/2$。

4. 均衡结果: 这个博弈的贝叶斯纳什均衡是: * 在位企业的策略:若为高成本类型,则默许;若为低成本类型,则斗争。 * 进入者的策略:若其信念中在位企业是低成本类型的概率 $p < 1/2$,则进入;若 $p > 1/2$,则不进入;若 $p = 1/2$,则随机选择。

这个例子清晰地展示了参与者如何基于对未知信息(对手类型)的信念来制定策略,并最终达到一个稳定的均衡状态。

## 与相关概念的联系

* {{{纳什均衡}}}:贝叶斯均衡是纳什均衡在不完全信息环境下的自然延伸。事实上,任何一个贝叶斯博弈都可以被转换成一个更大的、但信息完全的博弈(称为代理人形式博弈, agent-normal form),而原博弈的贝叶斯均衡就对应于这个扩展博弈中的纳什均衡。

* {{{完美贝叶斯均衡}}} (Perfect Bayesian Equilibrium, PBE):对于{{{动态博弈}}}(有先后顺序的博弈),贝叶斯均衡可能不足以排除一些不合理的策略。完美贝叶斯均衡是一个更强的精炼概念,它不仅要求参与者策略构成贝叶斯均衡,还要求在博弈的每一个阶段(即每个{{{信息集}}}),参与者的信念都必须与观察到的行为和均衡策略保持一致,并通过贝叶斯法则进行更新。

* {{{信号博弈}}} (Signaling Games):贝叶斯均衡是分析信号博弈的核心工具。在信号博弈中,拥有私有信息的一方(发送方)通过其行动向没有信息的一方(接收方)传递关于其类型的信息。例如,教育作为一种信号,高能力的人可能更愿意获得高学历,以此向雇主传递他们是“高能力”类型的信息。