知经 KNOWECON · 卓越的经济金融统计数学学习平台

最优反应函数

# 最优反应函数 (Best Response Function)

最优反应函数 (Best Response Function),在{{{博弈论}}} (Game Theory) 中也被直接称为 最优反应 (Best Response) 或反应函数 (Reaction Function),是分析{{{参与人}}} (Player) 在战略互动中如何做出理性决策的核心工具。给定对其他参与人将采取何种{{{策略}}} (Strategy) 的一个信念,一个参与人的最优反应就是能使其自身{{{支付}}} (Payoff) 或{{{效用}}} (Utility) 最大化的策略。最优反应函数则刻画了该参与人的最优反应与对手策略之间的关系。

从本质上讲,最优反应函数回答了这样一个问题:“假如我知道我的对手会怎么做,我应该怎么做才能获得最好的结果?” 通过为每一位参与人构建最优反应函数,我们可以进而求解博弈的均衡,特别是{{{纳什均衡}}} (Nash Equilibrium)。

## 形式化定义

在一个博弈中,我们用 $i$ 来代表一个参与人。

* 令 $S_i$ 为参与人 $i$ 的策略集,即他所有可选策略的集合。 * 令 $s_i \in S_i$ 为参与人 $i$ 所选择的一个具体策略。 * 令 $s_{-i}$ 代表一个{{{策略组合}}} (Strategy Profile),它包含了除参与人 $i$ 之外所有其他参与人所选择的策略。 * 令 $u_i(s_i, s_{-i})$ 为参与人 $i$ 的支付函数,它表示在所有参与人选择策略组合 $(s_i, s_{-i})$ 时,参与人 $i$ 获得的支付。

给定对手的策略组合 $s_{-i}$,参与人 $i$ 的 最优反应 是一个策略 $s_i^* \in S_i$,该策略能够最大化其支付。用数学语言表达, $s_i^*$ 必须满足: $$ u_i(s_i^*, s_{-i}) \geq u_i(s_i, s_{-i}) \quad \forall s_i \in S_i $$

参与人 $i$ 的 最优反应函数(或更准确地说是 最优反应对应 (Best Response Correspondence)),记为 $BR_i(s_{-i})$,是指在给定对手策略组合 $s_{-i}$ 的情况下,参与人 $i$ 所有最优反应策略的集合。其定义为: $$ BR_i(s_{-i}) = \left\{ s_i \in S_i \mid u_i(s_i, s_{-i}) = \max_{s'_i \in S_i} u_i(s'_i, s_{-i}) \right\} $$ 这也可以使用{{{最优化}}} (Optimization) 理论中的 $\arg\max$ 记号来表示: $$ BR_i(s_{-i}) = \arg\max_{s_i \in S_i} u_i(s_i, s_{-i}) $$

注意: * 如果对于任意一个给定的 $s_{-i}$,总有唯一的一个最优策略 $s_i^*$ 与之对应,那么 $BR_i$ 是一个传统意义上的函数 (Function)。 * 如果对于某些 $s_{-i}$,存在多个最优策略都能使参与人 $i$ 获得相同的最大支付,那么 $BR_i$ 是一个{{{集值函数}}} (Set-valued function) 或称为{{{对应}}} (Correspondence)。在经济学和博弈论中,后一种情况更为普遍。

## 示例与应用

### 示例一:离散策略博弈(支付矩阵)

考虑一个经典的博弈:{{{性别之战}}} (Battle of the Sexes)。一对夫妻计划共度周末,丈夫偏爱看足球 (F),妻子偏爱看歌剧 (O)。他们都希望一起活动,但对活动内容有不同偏好。其支付矩阵如下(第一个数字为妻子的支付,第二个为丈夫的支付):

| | 丈夫: 足球(F) | 丈夫: 歌剧(O) | | :----: | :---------: | :---------: | | 妻子: 足球(F) | (1, 2) | (0, 0) | | 妻子: 歌剧(O) | (0, 0) | (2, 1) |

我们可以分别为妻子和丈夫构建最优反应:

1. 妻子的最优反应 $BR_{妻子}(s_{丈夫})$ * 如果丈夫选择看足球 (F),妻子的选择是在看足球(支付为1)和看歌剧(支付为0)之间抉择。她的最优反应是选择足球 (F)。 * 如果丈夫选择看歌剧 (O),妻子的选择是在看足球(支付为0)和看歌剧(支付为2)之间抉择。她的最优反应是选择歌剧 (O)。 所以,妻子的最优反应可以表示为: $BR_{妻子}(F) = \{F\}$ $BR_{妻子}(O) = \{O\}$

2. 丈夫的最优反应 $BR_{丈夫}(s_{妻子})$ * 如果妻子选择看足球 (F),丈夫的最优反应是选择足球 (F)(支付为2,高于0)。 * 如果妻子选择看歌剧 (O),丈夫的最优反应是选择歌剧 (O)(支付为1,高于0)。 所以,丈夫的最优反应可以表示为: $BR_{丈夫}(F) = \{F\}$ $BR_{丈夫}(O) = \{O\}$

在支付矩阵中寻找最优反应,通常可以通过为每个对手策略,在己方可选策略的支付中找到最大值并做标记(如下划线)来直观完成。

| | 丈夫: 足球(F) | 丈夫: 歌剧(O) | | :----: | :---------: | :---------: | | 妻子: 足球(F) | (1, 2) | (0, 0) | | 妻子: 歌剧(O) | (0, 0) | (2, 1) |

当一个策略组合中,每个参与人的策略都是对其他参与人策略的最优反应时,这个策略组合就构成了一个纳什均衡。在上图中,双方支付都被下划线的单元格就是纳什均衡。因此,(足球, 足球) 和 (歌剧, 歌剧) 是该博弈的两个纯策略纳什均衡。

### 示例二:连续策略博弈(古诺竞争模型)

最优反应函数在分析具有连续策略空间的经济模型中尤为重要,例如{{{古诺竞争}}} (Cournot Competition) 模型。

假设有两个厂商(厂商1和厂商2)生产同质产品,并同时决定各自的产量 $q_1$ 和 $q_2$。市场的逆需求函数为 $P(Q) = a - bQ$,其中总产量 $Q = q_1 + q_2$。假设两厂商有相同的边际成本 $c$,没有固定成本。

1. 构建厂商1的利润函数 厂商1的利润 $\pi_1$ 是其总收益减去总成本: $$ \pi_1(q_1, q_2) = P(q_1 + q_2)q_1 - cq_1 = (a - b(q_1 + q_2))q_1 - cq_1 $$

2. 求解厂商1的最优反应函数 为了找到厂商1的最优反应,我们需要在给定 $q_2$ 的情况下,选择能使 $\pi_1$ 最大化的 $q_1$。我们使用{{{微积分}}} (Calculus) 的方法,对 $\pi_1$ 求关于 $q_1$ 的偏导数,并令其等于零(这是一阶条件, {{{First-Order Condition}}}): $$ \frac{\partial \pi_1}{\partial q_1} = (a - b(q_1 + q_2)) + q_1(-b) - c = 0 $$ $$ a - 2bq_1 - bq_2 - c = 0 $$ 整理这个方程,解出 $q_1$ 作为 $q_2$ 的函数: $$ q_1 = \frac{a - c}{2b} - \frac{1}{2}q_2 $$ 这个方程就是厂商1的最优反应函数,记为 $q_1^*(q_2)$ 或 $BR_1(q_2)$。它表明,厂商1的最优产量是其竞争对手产量的减函数。

3. 求解厂商2的最优反应函数 由于模型是对称的,厂商2的最优反应函数具有相同的形式: $$ q_2^*(q_1) = \frac{a - c}{2b} - \frac{1}{2}q_1 $$

4. 求解纳什均衡 古诺-纳什均衡是两个最优反应函数的交点。在这个点上,厂商1的产量是它对厂商2产量的最优反应,同时厂商2的产量也是它对厂商1产量的最优反应。我们联立求解这两个方程: $$ \begin{cases} q_1 = \frac{a - c}{2b} - \frac{1}{2}q_2 \\ q_2 = \frac{a - c}{2b} - \frac{1}{2}q_1 \end{cases} $$ 将第二个方程代入第一个方程,可得均衡产量: $$ q_1^* = q_2^* = \frac{a - c}{3b} $$ 这是古诺竞争模型唯一的纳什均衡。

## 最优反应函数的性质与意义

最优反应函数不仅是求解纳什均衡的工具,其本身也揭示了博弈的战略结构。

* 战略替代与互补:在{{{寡头垄断}}} (Oligopoly) 理论中,最优反应函数的斜率具有重要的经济含义。 * 向下倾斜(如古诺模型):表明策略是{{{战略替代品}}} (Strategic Substitutes)。如果一个厂商增加产量,另一个厂商的最优反应是减少产量。 * 向上倾斜(如差异化产品的{{{伯特兰竞争}}} (Bertrand Competition)):表明策略是{{{战略互补品}}} (Strategic Complements)。如果一个厂商提高价格,另一个厂商的最优反应也是提高价格。

* 均衡的存在性:在更高等的博弈论中,最优反应函数的数学性质(如连续性、凸性等)是证明纳什均衡存在性的关键。例如,{{{角谷不动点定理}}} (Kakutani's Fixed-Point Theorem) 应用于最优反应对应,可以证明在一定条件下(如策略集是紧凸集,支付函数连续且拟凹),博弈至少存在一个纳什均衡。

综上所述,最优反应函数是理解和分析战略决策的基础,它将复杂的博弈问题转化为一个(或一组)可求解的{{{最优化}}}问题,并为寻找和理解{{{纳什均衡}}}提供了清晰的路径。