ARTICLE

列玩家

列玩家 (Column Player) 列玩家(Column Player)是博弈论中策略型博弈(Normal-Form Game)或支付矩阵(Payoff Matrix)表示法的核心术语之一。在二人博弈的标准矩阵表示中,列玩家指的是其纯策略集合对应矩阵各列的那一位参与者;另一位参与者则称为行玩家(Row Player),其策略对应矩阵各行。列玩家与行玩家的

浏览 0 更新 2026-07-20

列玩家 (Column Player)

列玩家(Column Player)是博弈论中策略型博弈(Normal-Form Game)或支付矩阵(Payoff Matrix)表示法的核心术语之一。在二人博弈的标准矩阵表示中,列玩家指的是其纯策略集合对应矩阵各列的那一位参与者;另一位参与者则称为行玩家(Row Player),其策略对应矩阵各行。列玩家与行玩家的对称区分构成了博弈论教学中分析纳什均衡混合策略极大极小策略等概念的基础框架。

支付矩阵中的位置约定

在标准的二人博弈矩阵表示中,约定如下:

  • 行玩家有 mm 个纯策略,记为 R1,R2,,RmR_1, R_2, \ldots, R_m,分别对应矩阵的第 11 至第 mm 行。
  • 列玩家有 nn 个纯策略,记为 C1,C2,,CnC_1, C_2, \ldots, C_n,分别对应矩阵的第 11 至第 nn 列。
  • 矩阵的每一单元格 (i,j)(i, j) 包含两个数值:第一个为行玩家的收益,第二个为列玩家的收益,记为 (aij,bij)(a_{ij}, b_{ij}),其中 bijb_{ij} 即为列玩家的收益。

以经典的囚徒困境为例:行玩家与列玩家均面临「合作」(C)与「背叛」(D)两个策略。行玩家选择行(C 或 D),列玩家选择列(C 或 D)。在单元格 (D, C) 中,行玩家获得最高收益 00(因背叛成功),而列玩家因选择合作而承受最差收益 10-10;在 (C, C) 中,双方各得 1-1。列玩家的策略选择直接影响其自身收益,但其最终支付取决于行玩家的同时选择,这正是策略互动的核心特征。

列玩家视角下的均衡概念

纯策略纳什均衡。从列玩家的视角出发,对行玩家的每一个策略 RiR_i,列玩家寻找使自身收益最大化的列 jj^*:对所有的 jj 满足 bijbijb_{ij^*} \ge b_{ij}。纳什均衡要求双方同时达到最优反应——即存在策略组合 (i,j)(i^*, j^*) 使得列玩家在行玩家选 ii^* 时没有动机偏离 jj^*,且行玩家在列玩家选 jj^* 时也没有动机偏离 ii^*。在协调博弈(Coordination Game)中,列玩家的最优反应函数往往与行玩家的选择高度耦合,导致多重均衡的出现。例如在「猎鹿博弈」中,列玩家选择「猎鹿」仅当行玩家也选择「猎鹿」时才有利,否则选择「猎兔」更为稳妥。

混合策略。列玩家的混合策略为定义在其纯策略集合上的概率分布 q=(q1,,qn)\mathbf{q} = (q_1, \ldots, q_n),满足 qj0q_j \ge 0j=1nqj=1\sum_{j=1}^{n} q_j = 1。列玩家以概率 qjq_j 选择纯策略 CjC_j。给定行玩家的混合策略 p=(p1,,pm)\mathbf{p} = (p_1, \ldots, p_m),列玩家的期望收益为:

UC(p,q)=i=1mj=1npibijqj=pTBqU_C(\mathbf{p}, \mathbf{q}) = \sum_{i=1}^{m} \sum_{j=1}^{n} p_i \cdot b_{ij} \cdot q_j = \mathbf{p}^T \mathbf{B} \mathbf{q}

其中 B=[bij]\mathbf{B} = [b_{ij}] 为列玩家的收益矩阵。列玩家的目标是选择 q\mathbf{q} 最大化该双线性形式。在求解混合策略纳什均衡时,列玩家的混合策略需使得行玩家在所有纯策略之间无差异,即行玩家选择任意纯策略所获得的期望收益均相等——这构成了列玩家均衡混合策略的支撑条件。

零和博弈与极小极大策略

在二人零和博弈(Zero-Sum Game)中,列玩家的收益为行玩家收益的相反数:bij=aijb_{ij} = -a_{ij},双方利益完全对立。此时列玩家的最优策略由极大极小定理(Minimax Theorem)确定。列玩家面临与行玩家对称但方向相反的问题:列玩家选择策略以最小化自身在最坏情况下的损失(等价于最小化行玩家的最大收益),即求解:

minqmaxij=1nbijqj=minqmaxij=1n(aij)qj=maxqminij=1naijqj\min_{\mathbf{q}} \max_{i} \sum_{j=1}^{n} b_{ij} q_j = \min_{\mathbf{q}} \max_{i} \sum_{j=1}^{n} (-a_{ij}) q_j = -\max_{\mathbf{q}} \min_{i} \sum_{j=1}^{n} a_{ij} q_j

冯·诺依曼(John von Neumann)的极大极小定理保证了在有限二人零和博弈中,列玩家的极小极大值与行玩家的极大极小值相等,该共同值即为博弈的值(Value of the Game)。列玩家的最优混合策略(极小极大策略)确保无论行玩家如何选择,列玩家的期望损失不超过博弈值所对应的上界。这一性质构成了博弈论线性规划(Linear Programming)之间的重要桥梁——求解零和博弈等价于求解一对对偶线性规划问题。

列玩家与博弈分析的对称性

在博弈论的分析框架中,将哪位参与者设为列玩家本质上是任意的,但一旦约定,所有分析(收益矩阵的转置与对称性替换、最优反应对应、均衡计算)均需一致地遵循该约定。值得注意的是,若将行玩家与列玩家的角色互换并对收益矩阵进行转置,博弈的均衡结构保持不变。这一对称性在演化博弈论(Evolutionary Game Theory)中具有重要意义:当列玩家与行玩家分属不同种群时,二者的策略集合和收益函数可能存在非对称性,从而刻画生态学中的「宿主-寄生者」或经济学中的「买方-卖方」互动。在不完全信息博弈(Games of Incomplete Information)或贝叶斯博弈(Bayesian Games)中,列玩家的类型空间(Type Space)与信念系统(Belief System)需与矩阵表示共同指定,列玩家的策略选择依赖于其对行玩家类型的先验信念以及贝叶斯更新过程。

列玩家视角的应用实例:鹰鸽博弈

考虑鹰鸽博弈(Hawk-Dove Game)中列玩家的行为。假设两个参与者争夺一份价值 VV 的资源。行玩家可选择鹰派(H)或鸽派(D);列玩家同样可选择鹰派(H)或鸽派(D)。收益矩阵如下(行玩家收益在前,列玩家收益在后):

列玩家:H列玩家:D行玩家:H(VC2,VC2)(V,0)行玩家:D(0,V)(V2,V2)\begin{array}{c|cc} & \text{列玩家:H} & \text{列玩家:D} \\ \hline \text{行玩家:H} & \left(\frac{V-C}{2}, \frac{V-C}{2}\right) & (V, 0) \\ \text{行玩家:D} & (0, V) & \left(\frac{V}{2}, \frac{V}{2}\right) \end{array}

其中 C>VC > V 为战斗成本。从列玩家视角看,若行玩家选择 H,列玩家的最优反应是选择 D(获得 0>VC20 > \frac{V-C}{2});若行玩家选择 D,列玩家则应选择 H(获得 V>V2V > \frac{V}{2})。因此列玩家的最优反应函数具有「反向对应」的特征,这正是鹰鸽博弈混合策略纳什均衡存在的原因。列玩家的均衡混合策略以概率 q=VCq^* = \frac{V}{C} 选择 H,以概率 1q1 - q^* 选择 D,使得行玩家在所有纯策略间无差异。该均衡同时体现了列玩家在对称博弈中扮演的关键平衡角色。