ARTICLE

支付矩阵

支付矩阵 (Payoff Matrix) 支付矩阵(Payoff Matrix)是博弈论中用于表示标准形式博弈(也称正规形式博弈)的核心工具。它通过矩阵形式系统地展示了所有可能的策略组合下,各个参与者所能获得的收益或支付。在支付矩阵中,行通常代表一个参与者(如玩家1)的策略选择,列代表另一个参与者(如玩家2)的策略选择,每个单元格对应特定策略组合下各参与者的

浏览 0 更新 2025-11-08

支付矩阵 (Payoff Matrix)

支付矩阵(Payoff Matrix)是博弈论中用于表示标准形式博弈(也称正规形式博弈)的核心工具。它通过矩阵形式系统地展示了所有可能的策略组合下,各个参与者所能获得的收益或支付。在支付矩阵中,行通常代表一个参与者(如玩家1)的策略选择,列代表另一个参与者(如玩家2)的策略选择,每个单元格对应特定策略组合下各参与者的收益向量。

基本结构与经典示例

考虑两名参与者的有限博弈:玩家1的策略集S1={s11,s12,,s1m}S_1 = \{s_{11}, s_{12}, \ldots, s_{1m}\},玩家2的策略集S2={s21,s22,,s2n}S_2 = \{s_{21}, s_{22}, \ldots, s_{2n}\}。支付矩阵为m×nm \times n的矩阵,每个元素为收益向量形式(u1(s1i,s2j),u2(s1i,s2j))(u_1(s_{1i}, s_{2j}), u_2(s_{1i}, s_{2j}))

囚徒困境是支付矩阵最著名的示例。两名嫌疑人每人可选合作或背叛。双方合作时各服刑1年(支付为1,1-1, -1);一方背叛一方合作时,背叛者获释(0,30, -3)或(3,0-3, 0);双方背叛时各服刑2年(2,2-2, -2)。通过分析支付矩阵可以发现,背叛对每个参与者都是占优策略,结果是一个纳什均衡,尽管这不是集体最优结果。

分析方法

占优策略分析。如果参与者在所有情况下某个策略带来的收益都高于其他策略,则该策略为严格占优策略。若在所有情况下至少不劣于其他策略且至少在一个情况下严格优于,则为弱占优策略。支付矩阵可清晰识别这种关系。

纳什均衡识别。通过寻找最佳反应来识别:对于每个参与者的策略选择,找出另一参与者的最优回应,检查是否存在一组策略互为最佳反应。在静态博弈中这种方法尤为有效。

帕累托最优检验。通过比较矩阵中不同单元格的支付向量,判断是否存在其他策略组合可以在不损害任何参与者利益的前提下改善至少一个参与者的收益,识别出帕累托改进的可能性。

扩展形式

对超过两名参与者的博弈,支付矩阵扩展为高维数组(张量)——三名参与者需三维矩阵,nn名参与者需nn维矩阵。在重复博弈中,通过将阶段博弈的支付矩阵进行贴现求和计算总支付:t=0δtui(s1t,s2t)\sum_{t=0}^{\infty} \delta^t u_i(s_{1t}, s_{2t}),其中δ(0,1)\delta \in (0,1)贴现因子

零和博弈中,参与者收益之和为零,支付矩阵可简化为仅列出行玩家的收益(列玩家收益为其负值)。大多数现实世界的博弈是非零和的,需完整表示每个参与者的收益。支付矩阵通常用于表示完全信息博弈(所有参与者都知道矩阵全部内容),在不完全信息博弈中需配合类型空间和信念系统。

支付矩阵在寡头垄断(企业分析价格竞争或产量决策)、拍卖理论(评估不同竞价策略的结果)、进化博弈论(表示不同策略的生物适应度)、机制设计(评估规则效果)以及政治经济学(投票行为分析)等领域广泛应用。

构建支付矩阵的步骤包括:识别参与者及其策略集、定义每个策略组合下的效用或支付、按行列组织成矩阵形式、标注纳什均衡和占优策略等博弈论关键特征、进行敏感性分析评估支付参数变化对均衡策略的影响。支付矩阵作为博弈分析的标准形式表示,提供了直观、系统的框架来研究策略互动的本质。