ARTICLE

行玩家

行玩家 (Row Player) 行玩家(Row Player)是博弈论中用于描述策略型博弈(Normal-Form Game)或支付矩阵表示法的基本术语。在二人博弈的支付矩阵(Payoff Matrix)中,行玩家指其纯策略集合对应矩阵各行的那一位参与者;另一位参与者则称为列玩家(Column Player),其策略对应矩阵各列。行玩家与列玩家的区分是博弈

浏览 0 更新 2026-07-20

行玩家 (Row Player)

行玩家(Row Player)是博弈论中用于描述策略型博弈(Normal-Form Game)或支付矩阵表示法的基本术语。在二人博弈的支付矩阵(Payoff Matrix)中,行玩家指其纯策略集合对应矩阵各行的那一位参与者;另一位参与者则称为列玩家(Column Player),其策略对应矩阵各列。行玩家与列玩家的区分是博弈论教学中引入纳什均衡、混合策略和极大极小策略等核心概念时的标准分析框架。

支付矩阵中的位置约定

在标准的二人博弈矩阵表示中,约定如下:

  • 行玩家有 mm 个纯策略,记为 R1,R2,,RmR_1, R_2, \ldots, R_m,分别对应矩阵的第 11 至第 mm 行。
  • 列玩家有 nn 个纯策略,记为 C1,C2,,CnC_1, C_2, \ldots, C_n,分别对应矩阵的第 11 至第 nn 列。
  • 矩阵的每一单元格 (i,j)(i, j) 包含两个数值:第一个为行玩家的收益,第二个为列玩家的收益,记为 (aij,bij)(a_{ij}, b_{ij})

例如,经典的囚徒困境中,行玩家与列玩家均面临「合作」与「背叛」两个策略。矩阵中 (合作, 合作) 对应双方各得 1-1;(背叛, 背叛) 对应双方各得 5-5。行玩家通过选择行来最大化自身收益,但其最终收益取决于列玩家的同时选择。

行玩家视角下的均衡概念

纯策略纳什均衡。从行玩家视角出发,对列玩家的每一个策略 CjC_j,行玩家寻找使自身收益最大化的行 ii^*aijaija_{i^*j} \ge a_{ij} 对所有 ii 成立。纳什均衡要求双方同时达到最优反应:存在策略组合 (i,j)(i^*, j^*) 使得行玩家在列玩家选 jj^* 时没有动机偏离 ii^*,且列玩家在行玩家选 ii^* 时没有动机偏离 jj^*

混合策略。行玩家的混合策略为定义在纯策略集合上的概率分布 p=(p1,,pm)\mathbf{p} = (p_1, \ldots, p_m),满足 pi0p_i \ge 0ipi=1\sum_i p_i = 1。行玩家以概率 pip_i 选择纯策略 RiR_i。给定列玩家的混合策略 q=(q1,,qn)\mathbf{q} = (q_1, \ldots, q_n),行玩家的期望收益为:

UR(p,q)=i=1mj=1npiaijqj=pTAqU_R(\mathbf{p}, \mathbf{q}) = \sum_{i=1}^{m} \sum_{j=1}^{n} p_i \cdot a_{ij} \cdot q_j = \mathbf{p}^T \mathbf{A} \mathbf{q}

其中 A=[aij]\mathbf{A} = [a_{ij}] 为行玩家的收益矩阵。行玩家的目标是选择 p\mathbf{p} 最大化该双线性形式。

零和博弈与极大极小策略

在二人零和博弈中,列玩家的收益为行玩家收益的相反数(bij=aijb_{ij} = -a_{ij}),双方利益完全对立。此时行玩家的最优策略由极大极小定理(Minimax Theorem)刻画:行玩家选择策略以最大化自身在最坏情况下的收益,即求解:

maxpminji=1mpiaij\max_{\mathbf{p}} \min_{j} \sum_{i=1}^{m} p_i a_{ij}

冯·诺依曼的极大极小定理保证了在有限二人零和博弈中,行玩家的极大极小值等于列玩家的极小极大值,且该共同值即为博弈的值(Value of the Game)。行玩家的最优混合策略(极大极小策略)确保无论列玩家如何行动,行玩家至少获得博弈值所保证的期望收益。

行玩家与博弈表示的选择

将哪位参与者设为行玩家通常是任意的,但一旦约定,所有分析(收益矩阵、最优反应对应、均衡计算)均需一致地遵循该约定。在演化博弈论中,行玩家与列玩家的非对称角色常用于分析不同种群间的策略互动;在贝叶斯博弈中,行玩家的类型空间和信念系统需与矩阵表示共同指定。行玩家作为博弈论分析的基本视角,贯穿从完全信息静态博弈到不完全信息动态博弈的全部理论体系。