ARTICLE
序贯博弈
序贯博弈 (Sequential Game) 序贯博弈(Sequential Game),又称动态博弈(Dynamic Game),是博弈论中与同时博弈(Simultaneous Game)相对的一类基本博弈形式。在序贯博弈中,参与人按明确的先后次序采取行动,后行动者能够观察到先行动者的选择(在完全信息条件下),并据此做出策略反应。这种时序结构使序贯博弈在策
序贯博弈 (Sequential Game)
序贯博弈(Sequential Game),又称动态博弈(Dynamic Game),是博弈论中与同时博弈(Simultaneous Game)相对的一类基本博弈形式。在序贯博弈中,参与人按明确的先后次序采取行动,后行动者能够观察到先行动者的选择(在完全信息条件下),并据此做出策略反应。这种时序结构使序贯博弈在策略推理、均衡概念和分析方法上均显著区别于静态的同时博弈,构成了刻画承诺、威胁、信号传递和声誉机制等经济现象的核心框架。
序贯博弈的标准表达形式是博弈树(Game Tree),即扩展型(Extensive Form)。一棵博弈树由节点和边组成:每个决策节点代表某个参与人的行动时点,从该节点出发的每条边代表一个可行行动;终端节点给出各参与人的支付向量。与同时博弈的矩阵表达不同,博弈树完整地保留了行动的先后次序和参与人在每一阶段所掌握的信息。
信息集与完全/不完全信息
序贯博弈中,信息集(Information Set)是区分完美信息与不完美信息的关键概念。一个信息集包含参与人无法区分的若干决策节点:当参与人在该信息集上行动时,他知道自己处于其中某一个节点,但不知道具体是哪一个。倘若博弈中所有信息集都是单节点集——即每个参与人在每次行动时都确知所有过往行动——则该博弈是完美信息博弈(Perfect Information Game)。若存在包含多个节点的信息集,则为不完美信息博弈。例如,在囚徒困境的序贯版本中,若后行动者无法观察先行者的选择,博弈虽有时序但决策环境实质上退化为同时博弈。
逆向归纳法与子博弈精炼均衡
序贯博弈的核心求解方法是逆向归纳法(Backward Induction):从博弈树的终端节点出发,逐层向前推导每一步的最优行动,最终确定整个博弈的均衡路径。逆向归纳法由Zermelo于1913年在国际象棋研究中首次形式化,后经Selten推广至一般博弈。
逆向归纳法自然地引出了子博弈精炼纳什均衡(Subgame Perfect Nash Equilibrium, SPNE)的概念。一个子博弈是原博弈树中以某个单节点信息集为根的子树。SPNE 要求策略组合在每个子博弈上都构成纳什均衡,从而排除了依赖不可信威胁(Non-credible Threat)的纳什均衡。Selten 的经典反例——连锁店悖论(Chain Store Paradox)——生动说明了这一甄别机制:在位者声称"若进入则必发动价格战"的威胁,一旦进入实际发生,在位者的最优选择是容纳而非毁灭性报复,因此单纯的价格战威胁在 SPNE 中不可信。
承诺与可信性
序贯博弈为分析承诺(Commitment)和可信性(Credibility)提供了天然框架。在经济学中,承诺意味着某个参与人通过限制自己的未来可选集来改变对手的预期,从而改善自身均衡收益。典型的承诺机制包括:沉没成本投资(如产能扩张)、签订有约束力的合约、公开发布不可撤回的政策等。Stackelberg寡头模型即是承诺效应的经典体现:先动者通过率先选定产量,迫使后动者在给定该产量的前提下做出最优反应,从而获取先动优势(First-mover Advantage)。而在价格竞争的序贯博弈中,后动者反能利用信息优势定出稍低价格以夺取市场,形成后动优势(Second-mover Advantage)。
承诺要有效,必须满足两个条件:(1)承诺行动对承诺者是可见且不可逆的;(2)对手相信承诺者将实际执行该行动。Schelling在其经典著作《冲突的策略》中深刻分析了"烧桥"等自我束缚策略如何在冲突和谈判中转化为战略优势。
经济学应用
序贯博弈在经济学中的应用极为广泛。在产业组织理论中,进入威慑、限制定价、R\&D 竞赛、专利授权等均建模为序贯博弈。在劳动经济学中,雇主-雇员的委托代理关系涉及工资要约、努力选择、留任或离职的多阶段互动。在宏观经济学中,货币政策的时间不一致性问题(Kydland-Prescott)本质上是一个序贯博弈:中央银行先宣布低通胀目标,私人部门据此形成通胀预期并设定工资合约,此后中央银行有激励背离承诺、制造意外通胀以刺激产出——但理性私人部门会预见到这一动机,导致相机抉择均衡劣于规则承诺均衡。在国际经济学中,贸易谈判、关税报复、联盟形成等均有赖于序贯博弈的多阶段分析。
与同时博弈的比较
\begin{tabular}{lcc} \hline 特征 \& 序贯博弈 \& 同时博弈 \\ \hline 表达形式 \& 扩展型(博弈树) \& 策略型(支付矩阵) \\ 行动时序 \& 有先后 \& 同一时刻 \\ 信息条件 \& 可观察历史 \& 无历史 \\ 均衡概念 \& SPNE \& 纳什均衡 \\ 求解方法 \& 逆向归纳法 \& 最优反应函数 \\ 承诺价值 \& 核心议题 \& 不适用 \\ \hline \end{tabular}
需要指出的是,任何同时博弈都可以转换为序贯形式(让第二个行动者在不观察第一个行动者选择的信息集中行动),而任何有限完美信息序贯博弈都可以通过子博弈精炼剔除不合理均衡。但在无限期界博弈中,无名氏定理(Folk Theorem)表明 SPNE 的集合可能极为庞大,纳什均衡的精炼之路仍有诸多未竟之处。
逆向归纳法的争议与局限
尽管逆向归纳法在理论上简洁有力,其实证表现却并非无懈可击。Rosenthal(1981)提出的蜈蚣博弈(Centipede Game)揭示了理论与行为的显著偏离:在实验中,参与人通常不会在博弈的首轮就终止合作,而是选择继续,与逆向归纳法的唯一 SPNE 预测形成鲜明反差。对此现象的解释包括有限理性、对社会偏好的信念(利他或互惠预期),以及参与人对博弈结构的共同知识假设的怀疑。McKelvey 和 Palfrey(1992)进一步以实验证明,即使博弈仅存在少数几个阶段,逆向归纳的逻辑也常被忽略,这促使理论界发展出行为博弈论(Behavioral Game Theory),在序贯博弈中融入认知层级模型(Level-k 和 Cognitive Hierarchy),以更好地拟合实际决策行为。