ARTICLE

策略

策略（Strategy）在博弈论与经济学中定义为参与者在决策情境下，针对其他参与者可能采取的行动所预先制定的完整行动计划。它不同于孤立的单一决策——策略是一张完整的"如果—那么"行动地图，详尽规定在每个可能的信息集上参与者将如何行动。这一概念于20世纪中叶由冯·诺伊曼与摩根斯特恩在其奠基著作《博弈论与经济行为》中首次系统化，此后成为现代经济学分析最基本的概念

浏览 3 更新 2025-11-09

一、纯策略与混合策略

策略作为数学对象可分为纯策略与混合策略。纯策略是参与者在博弈中明确选择的一条行动路径：例如在剪刀石头布中，"一直出石头"就是一个纯策略。混合策略则以概率分布的形式呈现：参与者以特定概率在不同纯策略间随机化，如"以三分之一概率分别出剪刀、石头、布"。纳什在1950年证明了在任何有限博弈中，混合策略均衡必然存在，这一结果提供了坚实的理论保障。

从数学角度看，若参与者的纯策略集合为 $S = \{s_1, s_2, \dots, s_n\}$ ，则一个混合策略是定义在 $S$ 上的概率分布 $\sigma = (\sigma_1, \sigma_2, \dots, \sigma_n)$ ，满足 $\sigma_i \ge 0$ 且 $\sum \sigma_i = 1$ 。混合策略的核心意义在于引入不确定性：通过随机化，参与者可以使对手无法精确预判自己的行动。在扑克博弈中，"诈唬"之所以有效，正在于它内嵌了混合策略的逻辑。行为策略进一步扩展了这一概念：当博弈涉及多个决策节点时，行为策略在每个信息集上单独定义概率分布。库恩定理表明在完美回忆博弈中，行为策略与混合策略等价，大幅简化了复杂扩展式博弈的策略分析。

二、策略的数学表示

在标准型博弈中，策略的表示最为简洁。一个标准型博弈由三要素构成：参与者集合 $N = \{1, 2, \dots, n\}$ ，每个参与者的纯策略空间 $S_i$ ，以及效用函数 $u_i: \prod_{j \in N} S_j \to \mathbb{R}$ 。给定策略组合 $s = (s_1, \dots, s_n)$ ，参与者 $i$ 的效用为 $u_i(s)$ 。当采用混合策略时，期望效用为 $\mathbb{E}[u_i(\sigma)] = \sum_{s} (\prod_j \sigma_j(s_j)) u_i(s)$ 。

扩展式博弈中策略的表示更为复杂。博弈树由节点（决策时机）和边（行动选项）组成，信息集划定了参与者在决策时掌握的信息范围。一个策略需要为每个属于该参与者的信息集指定一个行动（或在行为策略中指定概率分布），因此策略数量可能随博弈深度呈指数增长。在贝叶斯博弈中，策略延伸为类型依赖的函数：若参与者类型为 $\theta_i \in \Theta_i$ ，则纯策略是映射 $s_i: \Theta_i \to A_i$ 。海萨尼转换将不完全信息博弈转换为完全但不完美信息的博弈，使传统策略概念得以自然适用。

三、占优策略与理性策略

占优策略是策略分析中最强的概念。若对参与者 $i$ 而言，无论其他参与者如何行动，策略 $s_i^*$ 带来的效用始终不低于任何其他策略 $s_i$ ，且至少在一种对手行动下严格更优，则称 $s_i^*$ 为严格占优策略。囚徒困境中"坦白"即为经典例子：无论对方选择合作还是背叛，坦白均带来更优结果，因而形成非合作的均衡结局。

劣策略剔除是理性策略筛选的核心方法。重复剔除严格劣策略通过逐轮删除被其他策略严格占优的策略，缩小均衡搜索范围。理性可化（Rationalizability）概念进一步放松了对信念精确性的假设：一个策略理性可化，当且仅当存在一组一致信念支持其为最优反应。最小化最大策略（Maximin strategy）则源自零和博弈分析：参与者最大化自己的最低保障收益， $\max_{s_i} \min_{s_{-i}} u_i(s_i, s_{-i})$ 。冯·诺伊曼最小化最大定理保证在混合策略扩展下，每个零和博弈都有唯一值，这一对偶关系构成了对抗性博弈分析的理论基石。

四、纳什均衡策略

纳什均衡是策略分析的核心概念。一个策略组合 $(\sigma_1^*, \dots, \sigma_n^*)$ 构成纳什均衡，当且仅当每个参与者的策略都是对其他参与者策略的最优反应： $u_i(\sigma_i^*, \sigma_{-i}^*) \ge u_i(s_i, \sigma_{-i}^*)$ 对所有 $s_i \in S_i$ 成立。纳什在1950年的博士论文中证明了这一均衡在有限博弈中的存在性，开启了现代博弈论的时代。

均衡策略的求解通常通过刻画最优反应对应完成。参与者的最优反应对应 $BR_i(\sigma_{-i})$ 是给定对手策略时使其期望效用最大化的策略集合。纳什均衡等价于所有参与者最优反应对应的不动点： $\sigma_i^* \in BR_i(\sigma_{-i}^*)$ 对所有 $i$ 成立。在具体分析中，均衡策略展现出丰富的结构特征。库尔诺双寡头博弈中，两家企业独立选择产量，均衡策略满足 $q_1^* = q_2^* = (a-c)/3b$ 。伯特兰博弈则截然不同——当企业设定价格而非产量时，均衡价格趋向边际成本（差异化产品情形除外），策略选择方式对市场结果有根本性影响。

五、策略的序贯理性与精炼

在扩展式博弈中，纳什均衡无法排除所有不可信的威胁——子博弈完美均衡正是为此而生。一个策略组合构成子博弈完美均衡，当且仅当其在每个子博弈上都诱导出纳什均衡，通过逆向归纳法求解：从博弈树末端节点出发，逐步推演每个决策节点的最优选择。泽尔滕的链店悖论揭示了子博弈完美化的必要性——在位者的降价打击威胁在子博弈层面不可信，当进入者真正进入时，在位者更理性的选择是默许。

序贯均衡由克雷普斯与威尔逊提出，进一步要求在信息集上形成一致的信念系统，且策略在每个信息集上相对于该信念系统是最优的。完美贝叶斯均衡是序贯均衡在有限博弈中的等价形式，在信号博弈中广泛采用。在劳动力市场的信号模型中，高能力工人选择教育年限作为能力信号，企业依据教育水平形成事后信念并支付工资，均衡要求工人策略与企业信念在贝叶斯更新下相互一致。

六、策略的应用领域

在拍卖理论中，各参与者的策略是出价函数 $b_i(v_i)$ ，映射私人估值为出价金额。第一价格密封拍卖的对称均衡策略满足 $b(v) = v - \frac{1}{F(v)^{n-1}} \int_0^v F(t)^{n-1} dt$ ，表明出价低于真实估值，差额随竞标人数增加而减小。维克里拍卖中占优策略则简化为按真实估值出价。

在产业组织领域，斯塔克尔伯格模型展示了先动优势：领导者先选产量，追随者观测后做最优反应，均衡中领导者产量 $q_L = (a-c)/2b$ ，追随者 $q_F = (a-c)/4b$ ，先动者利润显著更高。豪特林空间竞争模型则揭示最小差异化原则：两企业选址趋于分别聚集在市场的四分之一和四分之三点。

在公共经济学中，机制设计通过博弈规则诱导符合社会目标的策略行为。激励相容约束要求机制确保诚实披露私人信息符合参与者自身利益。迈耶森的显示原理指出任何贝叶斯纳什均衡结果可通过直接显示机制间接实现，大幅简化了最优机制的设计空间。

总结

策略是博弈论与经济决策理论最基础的分析对象。从纯策略到混合策略、从占优策略到纳什均衡，策略概念经历了不断深化的理论演进。子博弈完美均衡、序贯均衡等精炼概念进一步解决了扩展式博弈中策略可信性的问题。在拍卖理论、产业组织与机制设计等应用领域，策略分析框架始终是理解经济主体间互动行为的核心工具。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。