ARTICLE

Subgame Perfect Nash Equilibrium

子博弈完美纳什均衡（Subgame Perfect Nash Equilibrium, SPNE）是博弈论中针对扩展式博弈（Extensive-Form Game）的最基本的精炼均衡概念，由莱因哈德·泽尔腾（Reinhard Selten）于1965年在其开创性论文《一个具有需求惯性的寡头博弈模型》中首次提出。SPNE的核心思想是：一个策略组合不仅要在整个博

浏览 0 更新 2025-10-29

子博弈完美纳什均衡（Subgame Perfect Nash Equilibrium, SPNE）是博弈论中针对扩展式博弈（Extensive-Form Game）的最基本的精炼均衡概念，由莱因哈德·泽尔腾（Reinhard Selten）于1965年在其开创性论文《一个具有需求惯性的寡头博弈模型》中首次提出。SPNE的核心思想是：一个策略组合不仅要在整个博弈中构成纳什均衡，而且在每一个子博弈（Subgame）——即博弈树的任意一个非平凡节点及其后续分支——上也必须构成纳什均衡。这一条件排除了纳什均衡中那些依赖于"不可置信承诺"（Incredible Threats）的策略，使均衡分析更具逻辑一致性和实际预测力。泽尔腾因这一贡献与约翰·海萨尼（John Harsanyi）、约翰·纳什（John Nash）共同获得1994年诺贝尔经济学奖。

1. 定义与形式化

1.1 子博弈的界定

设一个完美信息扩展式博弈由博弈树 $\Gamma$ 表示。一个子博弈是博弈树中的某个单一节点（该节点是单点信息集）及其所有后续节点构成的一个连通分支，且不切割任何信息集。具体而言，定义子博弈需满足三个条件：(1) 起始节点是单点信息集（即该节点处决策者知道自己在博弈树中所处的位置）；(2) 子博弈包含该节点的所有后续节点；(3) 博弈树中任何信息集要么完全包含在子博弈中，要么完全不包含。在不完美信息博弈中，若某个信息集包含多个节点，则不能以该信息集中的部分节点为起点定义子博弈。

1.2 SPNE的定义

一个策略组合 $\sigma^* = (\sigma_1^*, \sigma_2^*, ..., \sigma_n^*)$ 是扩展式博弈的一个子博弈完美纳什均衡，当且仅当对于博弈树中的每一个子博弈 $G'$ ，策略组合 $\sigma^*$ 在 $G'$ 上构成一个纳什均衡（即在 $G'$ 中无人能通过单方面偏离获得更高收益）。形式化写作：

\forall G' \subseteq \Gamma, \quad \left. \sigma^* \right|_{G'} \in \text{NE}(G')

其中 $\left. \sigma^* \right|_{G'}$ 表示 $\sigma^*$ 在子博弈 $G'$ 上的限制， $\text{NE}(G')$ 表示该子博弈的纳什均衡集合。

2. 求解方法：逆向归纳

在完美信息有限博弈（博弈树有限且每个信息集为单点）中，SPNE可以通过逆向归纳法（Backward Induction）唯一求解。逆向归纳的逻辑是：从博弈树的最终决策节点开始，选择该节点决策者的最优行动（若收益相同则需指定选择规则），然后将该决策节点替换为所选行动对应的收益结果，逐步向博弈树的根部递推。这一过程本质上是对"动态一致性"的操作化——每个决策者在当前选择的策略在后续博弈中必须仍然是自己的最优反应。

举例（市场进入博弈）：在位垄断者（Incumbent）与潜在进入者（Entrant）进行两阶段博弈。第一阶段，进入者决定进入（Enter）或不进入（Stay Out）；第二阶段，在位者需选择斗争（Fight）或容纳（Accommodate）。若进入者不进入，收益为 $(0, 2)$ ；进入后面临斗争则 $(-1, -1)$ ；进入后面临容纳则 $(1, 1)$ 。该博弈有两个纳什均衡：（不进入, 斗争）和（进入, 容纳）。但前者依赖于一个不可置信的威胁——在位者在进入已经发生时，容纳比斗争更优（ $1 > -1$ ），因而斗争不是理性的选择。逆向归纳从第二阶段开始：在位者在容纳（收益1）和斗争（收益-1）之间选择容纳；进入者对此有充分预期，选择进入（收益1 > 0）。唯一SPNE为（进入, 容纳）。

3. 理论地位与均衡精炼

SPNE是博弈论中第一个且最基础的均衡精炼（Equilibrium Refinement）概念。纳什均衡在扩展式博弈中面临的核心问题是它在非均衡路径上对参与者的信念和行为不做任何约束，导致大量"不合理"的均衡被包含在内。SPNE通过要求每个子博弈上的纳什均衡性质，直接对非均衡路径上的行为施加了约束。

在完美信息博弈中，SPNE等价于逆向归纳解，具有简洁而强大的预测力。但在不完美信息博弈中，SPNE的约束力较弱——因为不完美信息博弈可能只有整个博弈本身一个子博弈（由于信息集的分割），此时SPNE退化为普通的纳什均衡，无法排除那些依赖不可置信威胁的策略。这一缺陷催生了进一步的精炼概念，如完美贝叶斯均衡（Perfect Bayesian Equilibrium, PBE）和序贯均衡（Sequential Equilibrium），后者通过引入信念（Beliefs）系统和对所有可能节点的策略一致性要求，将精炼逻辑扩展到了不完美信息场景。

SPNE与颤抖手完美均衡（Trembling Hand Perfect Equilibrium）的关系也值得关注：后者由泽尔腾（1975）进一步发展，要求策略在面对微小"颤抖"（即非故意的随机偏离）时仍保持最优。在有限完美信息博弈中，颤抖手完美均衡一定是SPNE，但反之不一定成立——SPNE允许某些"弱"支配策略在均衡路径上被使用，而颤抖手完美均衡对此进行了进一步筛选。

4. 经典应用

4.1 有限重复囚徒困境

在T期有限重复囚徒困境中，SPNE的标准结论是：若T为共同知识且每期收益为囚徒困境的静态博弈收益，则唯一SPNE是每期都选择"背叛"（Defect）。这是因为在最后一期，由于没有未来惩罚的可能，双方必然选择背叛；通过逆向归纳，该逻辑回推至第一期。这一结果为"合作何以可能"提供了重要基准——只有在无限重复或多重均衡（如声誉效应）下，合作才可能作为SPNE出现。

4.2 鲁宾斯坦轮流出价谈判

鲁宾斯坦（Rubinstein, 1982）的轮流出价谈判模型展示了SPNE分析的经典应用。两个玩家在无限时间中轮流提出一份蛋糕分割方案，若对方拒绝则进入下一轮，谈判存在贴现因子 $\delta_1, \delta_2 \in (0,1)$ 。唯一SPNE解为：先提出者获得 $\frac{1-\delta_2}{1-\delta_1\delta_2}$ 份额，后提出者获得剩余部分。这一结果依赖于逆向归纳的动态一致性——每个阶段提出的方案都被对方作为下一阶段自己可获得的份额的现值所接受。当 $\delta_1 = \delta_2 \to 1$ 时，先动优势逐渐消失，双方趋于均分蛋糕，预示着耐心程度决定谈判力量的深度结论。

4.3 列昂惕夫工会-企业博弈

在麦克唐纳和索洛（McDonald \& Solow, 1981）所描述的工会工资与就业谈判中，博弈分为两阶段：工会先设定工资水平，企业再根据工资决定雇佣人数。SPNE通过逆向归纳得出企业的最优雇佣规则（劳动边际产品等于工资），工会则在其了解企业反应函数的前提下选择使自身效用最大化的工资水平。该模型显示了"先动优势"在市场谈判中的结构性力量——工会可以通过设定高于竞争水平的工资来获取剩余，而企业只能在给定工资下做出雇佣决策。

5. 局限性与批判

尽管SPNE是动态博弈分析的基础工具，它也面临若干局限。首先，在多均衡博弈中逆向归纳可能出现多重SPNE问题，需要对均衡进行进一步精炼（如帕累托最优筛选或焦点效应）。其次，逆向归纳在理论和实验层面均受到"认知合理性"的质疑——它要求参与者具备嵌套式高阶理性（"我知道你知道我知道……"），在复杂博弈中人类被试常偏离SPNE预测（如蜈蚣博弈实验中的合作行为超出了逆向归纳的预测）。毕晓普（Binmore, 1987）提出"可进化均衡"的概念，认为SPNE在演化博弈中并不总是稳健的。此外，在无限博弈（如无限期重复博弈）中，逆向归纳不再直接适用，需借助无名氏定理（Folk Theorem）等手段描述SPNE集合的边界。

总体而言，子博弈完美纳什均衡作为动态博弈分析的基准概念，为经济学提供了将时间结构和策略承诺纳入理论建模的严格形式化框架。它迫使经济学家在分析任何动态交互时必须追问：每个参与者在每一个可能的历史节点上究竟会做什么？这一追问本身构成了现代微观经济学理论深度与方法论严格性的重要标志。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。