ARTICLE

非合作博弈

非合作博弈 (Non-cooperative Game Theory) 非合作博弈 (Non-cooperative Game Theory) 是博弈论的两大分支之一，与合作博弈相对。它研究的是参与者无法达成有约束力协议 (binding agreement) 的情境下，每个理性个体如何独立地选择策略以最大化自身收益。非合作博弈的核心关注点不在于"参

浏览 4 更新 2025-10-26

非合作博弈 (Non-cooperative Game Theory)

非合作博弈 (Non-cooperative Game Theory) 是博弈论的两大分支之一，与合作博弈相对。它研究的是参与者无法达成有约束力协议 (binding agreement) 的情境下，每个理性个体如何独立地选择策略以最大化自身收益。非合作博弈的核心关注点不在于"参与者可以联合做什么"，而在于"每个个体在给定他人行为时会怎么做"，其分析的基本单位是个体参与者及其策略选择，而非联盟或群体。这一框架构成了现代微观经济学和产业组织理论的基石，由冯·诺依曼和 Oskar Morgenstern 在《博弈论与经济行为》(1944) 中奠基，并经约翰·纳什在 1950--1951 年引入纳什均衡概念后走向成熟。

基本要素

一个标准的非合作博弈由以下核心要素构成：

参与者 (Players)：博弈中的决策主体，记为 $N = \{1, 2, \ldots, n\}$ 。每个参与者都是理性的，即以最大化自身收益为目标。
策略空间 (Strategy Space)：参与者 $i$ 可选择的全部策略集合，记为 $S_i$ 。策略可以是离散的（如"合作"或"背叛"），也可以是连续的（如产量或价格）。
收益函数 (Payoff Function)：定义在策略组合上的实值函数 $u_i(s_1, s_2, \ldots, s_n)$ ，表示给定所有人策略时参与者 $i$ 获得的结果。收益通常以效用或利润衡量。
信息结构 (Information Structure)：描述每个参与者在做决策时所知的信息。若所有参与者都知道博弈的完整结构（参与者、策略、收益），则称具有共同知识 (Common Knowledge)；若某些参与者拥有私人信息，则进入不完全信息博弈的范畴。

与合作博弈的区别

非合作博弈与合作博弈的根本分界线在于是否存在有约束力的协议。在合作博弈中，参与者可以缔结具有强制执行力的合约，分析焦点是联盟如何形成以及如何分配合作剩余，典型工具包括 核心 (Core)、Shapley 值 等。而非合作博弈假设任何口头承诺都可能被单方面违背，因此均衡必须建立在"无人有动机单方面偏离"的逻辑之上。这一区分并非无关紧要的分歧：同一经济情境（如寡头定价）在合作框架下可能预测合谋结果，在非合作框架下则可能预测激烈的价格竞争（伯特兰模型），所得政策含义截然不同。

博弈的两种表示形式

非合作博弈主要有两种形式化表示方法，它们对同一博弈提供了不同的信息展示方式。

策略式 (Normal Form / Strategic Form)

策略式博弈用一个矩阵（或高维表格）概括所有参与者的策略与收益。它适用于所有参与者同时行动的一次性博弈。记参与者集合为 $N$ ，策略空间为 $\{S_i\}_{i \in N}$ ，收益函数族为 $\{u_i\}_{i \in N}$ ，则策略式博弈可表示为 $\Gamma = \langle N, \{S_i\}, \{u_i\} \rangle$ 。囚徒困境 (Prisoner's Dilemma) 是最经典的策略式博弈示例，其收益矩阵如下（数字为行参与者在前、列参与者在后的收益）：

\begin{tabular}{c|c|c} \& 合作 \& 背叛 \\ \hline 合作 \& $(-1, -1)$ \& $(-10, 0)$ \\ \hline 背叛 \& $(0, -10)$ \& $(-5, -5)$ \end{tabular}

扩展式 (Extensive Form / Game Tree)

扩展式博弈用树状结构表示博弈的时序。节点代表决策点，分支代表可选行动，终结点标注收益。它能够自然地刻画序贯行动 (Sequential Moves) 和信息集 (Information Sets)，后者用于表示参与者在决策时是否知道之前发生的具体事件。扩展式博弈的分析依赖于反向归纳法和 子博弈精炼纳什均衡 (Subgame Perfect Nash Equilibrium, SPNE)，后者要求均衡策略在博弈树的每一个子博弈中均构成纳什均衡，从而排除了依赖不可信威胁 (non-credible threat) 的均衡。

核心解概念

优势策略均衡

对于参与者 $i$ ，若存在某个策略 $s_i^*$ ，使得对任意对手策略组合 $s_{-i}$ 都有 $u_i(s_i^*, s_{-i}) \geq u_i(s_i', s_{-i})$ 对所有的 $s_i' \neq s_i^*$ 成立，则称 $s_i^*$ 为严格优势策略。若所有参与者都有优势策略，则其构成的策略组合称为优势策略均衡。囚徒困境中"背叛"就是严格优势策略，均衡虽唯一却非帕累托最优，这一结果是揭示个体理性与集体理性冲突的经典范例。

纳什均衡

纳什均衡 (Nash Equilibrium) 是非合作博弈中适用范围最广、影响力最大的解概念。策略组合 $s^* = (s_1^*, \ldots, s_n^*)$ 是纳什均衡，当且仅当对每一个参与者 $i$ 和该参与者的任意可选策略 $s_i$ ：

u_i(s_i^*, s_{-i}^*) \geq u_i(s_i, s_{-i}^*)

换言之，在均衡状态下，任何参与者都不能通过单方面改变策略来获得更高收益。纳什均衡分为两类：纯策略均衡（每个参与者确定性地选择一个策略）和混合策略均衡（参与者以概率分布随机化选择）。纳什于1951年证明，任何具有有限参与者和有限策略的博弈都至少存在一个混合策略纳什均衡，这一存在性定理使该概念具备了普遍适用性。

精炼与扩展

纳什均衡的一大缺陷是多重性（许多博弈存在多个均衡），这使得预测唯一结果变得困难。围绕这一问题发展出了一系列均衡精炼 (Equilibrium Refinement) 概念，包括：

子博弈精炼纳什均衡 (SPNE)：在扩展式博弈中，要求策略在每一个子博弈中都是纳什均衡，从而排除依赖不可信威胁的均衡。
贝叶斯纳什均衡 (Bayesian Nash Equilibrium)：在不完全信息博弈中，参与者对对手的"类型"持有信念，均衡要求给定信念下策略最优，且信念按贝叶斯法则更新。这一框架由哈萨尼 (Harsanyi) 建立。
完美贝叶斯均衡 (Perfect Bayesian Equilibrium)：进一步要求信念在非均衡路径上也有合理定义，广泛应用于信号博弈和甄别博弈。
颤抖手均衡 (Trembling Hand Perfect Equilibrium)：由泽尔腾 (Selten) 提出，要求均衡策略在参与者以极小概率"出错"时依然保持稳健。

经济学应用

非合作博弈框架渗透在现代经济学的几乎所有领域。

产业组织中，寡头企业的竞争与合谋行为是非合作博弈最自然的应用场景：古诺模型（产量竞争）、伯特兰模型（价格竞争）和斯塔克尔伯格模型（领导者-跟随者竞争）均以纳什均衡或其精炼为核心分析工具。拍卖理论中，竞标者之间的策略互动直接决定了最优出价策略和期望收益，米尔格罗姆和威尔逊的相关研究为频谱拍卖、国债拍卖的实际设计提供了理论基础。契约理论与委托-代理模型中，委托人设计合约时必须预判代理人的策略反应，激励相容约束本质上就是一个非合作博弈的均衡条件。国际经济学中，关税设定、贸易协定谈判以及货币政策的国际协调均可建模为不同国家之间的非合作博弈，分析结果直接关系到合作失败（如贸易战）的福利后果。

此外，非合作博弈的工具已溢出经济学边界：演化生物学中的演化稳定策略 (ESS) 是纳什均衡在种群动态背景下的对应物；计算机科学中的算法博弈论将纳什均衡的计算复杂性和机制设计纳入分析；政治科学则运用非合作博弈分析投票策略、立法联盟形成和选举竞争。

局限性与批评

尽管非合作博弈理论取得了巨大成功，但其应用面临若干公认挑战。一是理性假设过强：标准模型要求参与者具有完美理性、无限计算能力和准确信念，这与实验经济学反复观测到的有限理性行为相悖，催生了行为博弈论的兴起。二是均衡多重性使预测力受损，而精炼概念的选择标准有时因情境依赖而缺乏一致的指导原则。三是均衡的存在性在连续策略空间或不完全信息条件下需要施加严格的技术条件（如拟凹性和不动点定理），这些条件在实际应用中并非总能满足。四是动态博弈的复杂性：当博弈时序延长或信息结构复杂化后，均衡推导可能落入"共同知识之谜"，即均衡本身要求每个参与者预判他人对自己策略的预判，形成无限递归。尽管如此，非合作博弈论仍为理解策略互动提供了不可替代的分析语言和基准框架。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。