ARTICLE

混合策略

混合策略 (Mixed Strategy) 混合策略是博弈论中与纯策略相对的核心概念：参与人不再确定性地选择一个行动，而是以某种概率分布在其纯策略集合上进行随机化。形式上，参与人i的纯策略空间为有限集S_i = \s_i1, s_i2, , s_ik_i\，则其混合策略 _i是定义在S_i上的一个概率分布： _i = (p_i1, p_i2, , p_ik_

浏览 5 更新 2025-10-26

混合策略 (Mixed Strategy)

混合策略是博弈论中与纯策略相对的核心概念：参与人不再确定性地选择一个行动，而是以某种概率分布在其纯策略集合上进行随机化。形式上，参与人 $i$ 的纯策略空间为有限集 $S_i = \{s_{i1}, s_{i2}, \dots, s_{ik_i}\}$ ，则其混合策略 $\sigma_i$ 是定义在 $S_i$ 上的一个概率分布： $\sigma_i = (p_{i1}, p_{i2}, \dots, p_{ik_i})$ ，满足 $p_{ij} \geq 0$ 且 $\sum_j p_{ij} = 1$ 。纯策略可视为混合策略的退化特例——某一纯策略的概率为1，其余为0。该概念由冯·诺依曼与摩根斯特恩在《博弈论与经济行为》(1944)中系统引入，后由纳什(1950)推广至n人博弈的均衡分析。

期望效用与混合策略均衡

在混合策略下，参与人的支付以期望效用衡量。给定策略组合 $\sigma = (\sigma_1, \dots, \sigma_n)$ ，参与人 $i$ 的期望支付为：

u_i(\sigma) = \sum_{s \in S} \left( \prod_{j=1}^n \sigma_j(s_j) \right) u_i(s)

其中 $S = \prod_i S_i$ 为策略组合空间， $\sigma_j(s_j)$ 为参与人 $j$ 选择纯策略 $s_j$ 的概率。

混合策略纳什均衡是一组混合策略 $\sigma^* = (\sigma_1^*, \dots, \sigma_n^*)$ ，使得每个参与人 $i$ 在其他参与人策略不变时，无法通过单方面偏离而提高期望支付：对任意 $\sigma_i' \in \Delta(S_i)$ ，有 $u_i(\sigma_i^*, \sigma_{-i}^*) \geq u_i(\sigma_i', \sigma_{-i}^*)$ 。

无差异原理

混合策略均衡的核心直觉在于无差异原理：若参与人在均衡中赋予两个或多个纯策略正概率，则这些纯策略必须带来相等的期望支付。否则，参与人会将全部概率转移至期望支付更高的纯策略。设 $\sigma_i^*$ 的支撑为 $\text{supp}(\sigma_i^*) = \{s_{ij} \in S_i : p_{ij}^* > 0\}$ ，则对所有 $s_{ij} \in \text{supp}(\sigma_i^*)$ ，有：

u_i(s_{ij}, \sigma_{-i}^*) = u_i(s_{ik}, \sigma_{-i}^*) \quad \forall s_{ij}, s_{ik} \in \text{supp}(\sigma_i^*)

且该公共期望支付不低于任何不在支撑中的纯策略的期望支付。这一性质提供了求解混合策略均衡的直接方法：通过使对手在其支撑中的纯策略间无差异，反解出概率权重。

经典示例：匹配硬币

匹配硬币（Matching Pennies）揭示了混合策略的必要性。两个参与人同时出示硬币的一面——正面(H)或反面(T)。若两面相同，参与人1赢得参与人2的1元；若不同，参与人2赢得参与人1的1元。支付矩阵为：

\begin{array}{c|cc} & H & T \\ \hline H & (1,-1) & (-1,1) \\ T & (-1,1) & (1,-1) \end{array}

该博弈不存在纯策略纳什均衡——无论何种组合，总有参与人可通过翻转硬币而获益。唯一的均衡为双方均以 $(\frac{1}{2}, \frac{1}{2})$ 的概率混合。计算如下：设参与人2以概率 $q$ 出H、 $1-q$ 出T，参与人1出H的期望支付为 $q(1) + (1-q)(-1) = 2q-1$ ，出T的期望支付为 $q(-1) + (1-q)(1) = 1-2q$ 。由无差异原理令二者相等： $2q-1 = 1-2q$ ，解得 $q^* = \frac{1}{2}$ 。对称可得 $p^* = \frac{1}{2}$ 。

纳什存在性定理

纳什定理(1950)证明了任何有限博弈（参与人和纯策略均为有限集）必然存在至少一个混合策略纳什均衡。这一结论基于角谷不动点定理：将均衡对应构造为从混合策略单纯形到自身的上半连续凸值映射，其不动点即为纳什均衡。该定理极大地拓展了博弈论的应用范围——纯粹策略均衡可能不存在，但混合策略均衡始终存在，从而保证了非合作博弈分析的理论基础。对于零和博弈，最小最大定理(冯·诺依曼, 1928)更早地确立了混合策略下解的存在性。

经济应用与解释

随机化解释：在许多经济场景中，混合策略被理解为参与人的随机化行为本身。体育博弈中的罚球博弈——罚球者与守门员同时选择左侧或右侧——的经验研究证实，职业球员的行为概率与混合策略均衡预测高度吻合(Palacios-Huerta, 2003)。在拍卖设计中，混合出价策略的分析是拍卖理论的基础。

净化解释：哈桑伊(1973)的净化定理指出，混合策略均衡可视为纯策略均衡在收益受微小私人信息扰动时的极限形式。每个参与人看似在随机化，实则在观察私人信号后纯策略地选择最优反应，而从外部观察者的角度看行为呈现随机性。这一解释弥合了"参与人为何要随机化"的理论争议。

群体解释：在大量参与人各自选择纯策略的群体博弈中，混合策略均衡可解释为群体中不同纯策略选择的份额分布(进化博弈论)。

计算与局限

求解 $n$ 人博弈的混合策略纳什均衡在计算上属于PPAD-完全问题，对于大规模博弈尚无高效通用算法。实际计算中常用方法包括：支撑枚举法（对每个可能的支撑求解线性方程组）、Lemke-Howson算法（二人博弈），以及近年来发展的基于纳什均衡近似的算法。混合策略均衡的非唯一性（如协调博弈同时存在纯策略与混合策略均衡）和多重均衡下的均衡选择问题，构成了博弈论应用中的持续挑战。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。