ARTICLE

最优反应函数

最优反应函数 (Best Response Function) 最优反应函数(Best Response Function),在博弈论(Game Theory)中也被直接称为最优反应(Best Response)或反应函数(Reaction Function),是分析参与人(Player)在战略互动中如何做出理性决策的核心工具。给定对其他参与人将采取何种策略

浏览 24 更新 2025-10-26

最优反应函数 (Best Response Function)

最优反应函数(Best Response Function),在博弈论(Game Theory)中也被直接称为最优反应(Best Response)或反应函数(Reaction Function),是分析参与人(Player)在战略互动中如何做出理性决策的核心工具。给定对其他参与人将采取何种策略(Strategy)的一个信念,一个参与人的最优反应就是能使其自身支付(Payoff)或效用(Utility)最大化的策略。最优反应函数则刻画了该参与人的最优反应与对手策略之间的关系。

从本质上讲,最优反应函数回答了这样一个问题:「假如我知道我的对手会怎么做,我应该怎么做才能获得最好的结果?」通过为每一位参与人构建最优反应函数,我们可以进而求解博弈的均衡,特别是纳什均衡(Nash Equilibrium)。最优反应函数构成了纳什均衡概念的数学基础:纳什均衡本质上就是一个所有参与人的策略互为最优反应的策略组合。

形式化定义

在一个博弈中,我们用 ii 来代表一个参与人。

  • SiS_i 为参与人 ii 的策略集,即他所有可选策略的集合。
  • siSis_i \in S_i 为参与人 ii 所选择的一个具体策略。
  • sis_{-i} 代表一个策略组合(Strategy Profile),它包含了除参与人 ii 之外所有其他参与人所选择的策略。
  • ui(si,si)u_i(s_i, s_{-i}) 为参与人 ii 的支付函数,它表示在所有参与人选择策略组合 (si,si)(s_i, s_{-i}) 时,参与人 ii 获得的支付。

给定对手的策略组合 sis_{-i},参与人 ii最优反应是一个策略 siSis_i^* \in S_i,该策略能够最大化其支付。用数学语言表达,sis_i^* 必须满足:

ui(si,si)ui(si,si)siSiu_i(s_i^*, s_{-i}) \geq u_i(s_i, s_{-i}) \quad \forall s_i \in S_i

参与人 ii最优反应函数(或更准确地说,最优反应对应,Best Response Correspondence),记为 BRi(si)BR_i(s_{-i}),是指在给定对手策略组合 sis_{-i} 的情况下,参与人 ii 所有最优反应策略的集合。其定义为:

BRi(si)={siSiui(si,si)=maxsiSiui(si,si)}BR_i(s_{-i}) = \left\{ s_i \in S_i \mid u_i(s_i, s_{-i}) = \max_{s'_i \in S_i} u_i(s'_i, s_{-i}) \right\}

这也可以使用最优化(Optimization)理论中的 argmax\arg\max 记号来表示:

BRi(si)=argmaxsiSiui(si,si)BR_i(s_{-i}) = \arg\max_{s_i \in S_i} u_i(s_i, s_{-i})

注意:

  • 如果对于任意一个给定的 sis_{-i},总有唯一的一个最优策略 sis_i^* 与之对应,那么 BRiBR_i 是一个传统意义上的函数(Function)。
  • 如果对于某些 sis_{-i},存在多个最优策略都能使参与人 ii 获得相同的最大支付,那么 BRiBR_i 是一个集值函数(Set-valued Function)或称为对应(Correspondence)。在经济学和博弈论中,后一种情况更为普遍。

示例与应用

离散策略博弈:支付矩阵

考虑一个经典的博弈:性别之战(Battle of the Sexes)。一对夫妻计划共度周末,丈夫偏爱看足球(F),妻子偏爱看歌剧(O)。他们都希望一起活动,但对活动内容有不同偏好。其支付矩阵如下(每个单元格中第一个数字为妻子的支付,第二个为丈夫的支付):

\begin{tabular}{c|c|c} \& 丈夫: 足球(F) \& 丈夫: 歌剧(O) \\ \hline 妻子: 足球(F) \& (1, 2) \& (0, 0) \\ 妻子: 歌剧(O) \& (0, 0) \& (2, 1) \end{tabular}

我们可以分别为妻子和丈夫构建最优反应:

  1. 妻子的最优反应 BR妻子(s丈夫)BR_{\text{妻子}}(s_{\text{丈夫}}) 如果丈夫选择看足球(F),妻子在看足球(支付为1)和看歌剧(支付为0)之间抉择,最优反应是选择足球(F)。如果丈夫选择看歌剧(O),妻子在看足球(支付为0)和看歌剧(支付为2)之间抉择,最优反应是选择歌剧(O)。因此: \[ BR_{\text{妻子}}(F) = \{F\}, \quad BR_{\text{妻子}}(O) = \{O\} \]
  2. 丈夫的最优反应 BR丈夫(s妻子)BR_{\text{丈夫}}(s_{\text{妻子}}) 如果妻子选择看足球(F),丈夫的最优反应是选择足球(F)(支付为2,高于0)。如果妻子选择看歌剧(O),丈夫的最优反应是选择歌剧(O)(支付为1,高于0)。因此: \[ BR_{\text{丈夫}}(F) = \{F\}, \quad BR_{\text{丈夫}}(O) = \{O\} \]

在支付矩阵中寻找最优反应,通常可以通过对每个对手策略,在己方可选策略的支付中找到最大值并做标记来直观完成。当一个策略组合中每个参与人的策略都是对其他参与人策略的最优反应时,这个策略组合就构成了一个纳什均衡。在本例中,(足球, 足球)和(歌剧, 歌剧)是该博弈的两个纯策略纳什均衡。

连续策略博弈:古诺竞争模型

最优反应函数在分析具有连续策略空间的经济模型中尤为重要,例如古诺竞争(Cournot Competition)模型。

假设有两个厂商(厂商1和厂商2)生产同质产品,并同时决定各自的产量 q1q_1q2q_2。市场的逆需求函数为 P(Q)=abQP(Q) = a - bQ,其中总产量 Q=q1+q2Q = q_1 + q_2。假设两厂商有相同的边际成本 cc,没有固定成本。

第一步:构建厂商1的利润函数。厂商1的利润 π1\pi_1 是其总收益减去总成本: π1\pi_1(q1q_1, q2q_2) = P(q1q_1 + q2q_2)q1q_1 - cq\_1 = (a - b(q1q_1 + q2q_2))q1q_1 - cq\_1

第二步:求解厂商1的最优反应函数。为了找到厂商1的最优反应,我们在给定 q2q_2 的情况下,选择能使 π1\pi_1 最大化的 q1q_1。使用微积分的方法,对 π1\pi_1 求关于 q1q_1 的偏导数,并令其等于零(一阶条件,First-Order Condition):

π1q1=(ab(q1+q2))+q1(b)c=0\frac{\partial \pi_1}{\partial q_1} = (a - b(q_1 + q_2)) + q_1(-b) - c = 0

\\

a2bq1bq2c=0a - 2bq_1 - bq_2 - c = 0

整理这个方程,解出 q1q_1 作为 q2q_2 的函数:

q1=ac2b12q2q_1 = \frac{a - c}{2b} - \frac{1}{2}q_2

这个方程就是厂商1的最优反应函数,记为 q1(q2)q_1^*(q_2)BR1(q2)BR_1(q_2)。它表明,厂商1的最优产量是其竞争对手产量的减函数。

第三步:求解厂商2的最优反应函数。由于模型是对称的,厂商2的最优反应函数具有相同的形式:

q2(q1)=ac2b12q1q_2^*(q_1) = \frac{a - c}{2b} - \frac{1}{2}q_1

第四步:求解纳什均衡。古诺-纳什均衡是两个最优反应函数的交点。在这个点上,厂商1的产量是它对厂商2产量的最优反应,同时厂商2的产量也是它对厂商1产量的最优反应。联立求解:

{q1=ac2b12q2q2=ac2b12q1\begin{cases} q_1 = \frac{a - c}{2b} - \frac{1}{2}q_2 \\ q_2 = \frac{a - c}{2b} - \frac{1}{2}q_1 \end{cases}

将第二个方程代入第一个方程,可得均衡产量:

q1=q2=ac3bq_1^* = q_2^* = \frac{a - c}{3b}

这是古诺竞争模型唯一的纳什均衡。在此均衡下,每个厂商的产量恰好是市场总需求在价格等于边际成本时的三分之一,总产量为 Q=2(ac)/(3b)Q^* = 2(a-c)/(3b),介于完全竞争产量与垄断产量之间。

最优反应函数的性质与意义

最优反应函数不仅是求解纳什均衡的工具,其本身也揭示了博弈的战略结构。

战略替代与战略互补。寡头垄断(Oligopoly)理论中,最优反应函数的斜率具有重要的经济含义:

  • 向下倾斜(如古诺模型中的产量竞争):表明策略是战略替代品(Strategic Substitutes)。如果一个厂商增加产量,另一个厂商的最优反应是减少产量。这是因为对手增产压低了市场价格,降低了自己增产的边际收益。
  • 向上倾斜(如差异化产品的伯特兰竞争,Bertrand Competition,中的价格竞争):表明策略是战略互补品(Strategic Complements)。如果一个厂商提高价格,另一个厂商的最优反应也是提高价格。这是因为对手提价使得自己的客户流失减少,提价变得更有利可图。

这一分类由 Bulow、Geanakoplos 和 Klemperer(1985)系统提出,成为现代产业组织理论中分析企业策略行为的基本框架。战略替代品情形下的竞争更为激烈,均衡更接近竞争性结果;而战略互补品情形下的竞争相对缓和,企业更容易维持高于边际成本的价格。

均衡的存在性与不动点定理。在更高等的博弈论中,最优反应函数的数学性质(如连续性、凸性等)是证明纳什均衡存在性的关键。具体而言,将每个参与人的最优反应对应组合成一个总的对应 BR(s)=(BR1(s1),BR2(s2),,BRN(sN))BR(s) = (BR_1(s_{-1}), BR_2(s_{-2}), \dots, BR_N(s_{-N})),则纳什均衡正是该对应的不动点——满足 sBR(s)s^* \in BR(s^*) 的策略组合。角谷不动点定理(Kakutani's Fixed-Point Theorem)要求对应具有上半连续性和凸值性质,在此条件下保证不动点的存在。因此,只要支付函数连续且拟凹、策略集为紧凸集,博弈就至少存在一个(可能为混合策略的)纳什均衡。

比较静态分析的工具。最优反应函数为比较静态分析提供了自然的框架。当外部参数(如成本、税收、需求等)发生变化时,可以通过考察最优反应函数的位移来预测均衡的变化方向。例如,在古诺模型中,若厂商1的边际成本下降,其最优反应函数向外移动,在新的均衡点上厂商1的产量上升而厂商2的产量下降——这一推断直接来自最优反应函数斜率为负这一性质。

综上所述,最优反应函数是理解和分析战略决策的基础工具。它将复杂的博弈问题转化为一个(或一组)可求解的最优化问题,为寻找和理解纳什均衡提供了清晰的路径,同时也为均衡的比较静态分析和存在性证明奠定了数学基础。