ARTICLE

石头剪刀布 (Rock-Paper-Scissors)

石头剪刀布 (Rock-Paper-Scissors) 石头剪刀布（Rock-Paper-Scissors，简称 RPS），是一种两人参与的零和博弈，也是博弈论中最经典的入门案例之一。在该博弈中，每位玩家同时从三种策略——石头 ( 公式 )、剪刀 ( 公式 )、布 ( 公式 )——中选择其一，胜负由一条简单的循环克制链决定：石头胜剪刀（石头砸坏剪刀），剪刀胜

浏览 0 更新 2025-10-26

石头剪刀布 (Rock-Paper-Scissors)

石头剪刀布（Rock-Paper-Scissors，简称 RPS），是一种两人参与的零和博弈，也是博弈论中最经典的入门案例之一。在该博弈中，每位玩家同时从三种策略——石头 ( $\mathbf{R}$ )、剪刀 ( $\mathbf{S}$ )、布 ( $\mathbf{P}$ )——中选择其一，胜负由一条简单的循环克制链决定：石头胜剪刀（石头砸坏剪刀），剪刀胜布（剪刀剪碎布），布胜石头（布包裹石头），相同策略则为平局。尽管规则极其简单，RPS 却深刻揭示了博弈论中纯策略的脆弱性、混合策略纳什均衡的存在性，以及随机化在策略互动中的核心价值。它也是研究演化博弈论、实验经济学和有限理性决策的理想实验平台。

博弈的正规形式表示

石头剪刀布可用正规形式（normal form）严格定义为一个三元组 $\langle N, \{S_i\}, \{u_i\} \rangle$ ：

玩家集合 $N = \{1, 2\}$ ，即两名对称玩家。
策略空间 $S_1 = S_2 = \{R, S, P\}$ ，每位玩家有三个纯策略可供选择。
支付函数 $u_i: S_1 \times S_2 \to \mathbb{R}$ 。标准设定下，胜者得 $+1$ ，负者得 $-1$ ，平局双方得 $0$ 。这是一个严格竞争的零和博弈：对所有策略组合 $(s_1, s_2)$ ，有 $u_1(s_1, s_2) + u_2(s_1, s_2) = 0$ 。

支付矩阵如下所示（行玩家为玩家1，列玩家为玩家2，每一单元格中第一个数字为玩家1的支付，第二个数字为玩家2的支付）：

\begin{array}{c|ccc} & \text{石头 (R)} & \text{剪刀 (S)} & \text{布 (P)} \\ \hline \text{石头 (R)} & (0, 0) & (+1, -1) & (-1, +1) \\ \text{剪刀 (S)} & (-1, +1) & (0, 0) & (+1, -1) \\ \text{布 (P)} & (+1, -1) & (-1, +1) & (0, 0) \\ \end{array}

该矩阵呈现显著的循环结构：每一行中恰好有一个 $+1$ 、一个 $-1$ 和一个 $0$ ，且不存在任何一行严格优于另一行（即不存在严格占优策略）。同样，每一列也对称地不具备严格占优性。这意味着单纯依靠优势策略筛选无法消除任何策略，博弈必须求助于更深入的均衡分析。

纯策略纳什均衡的不存在性

首先检验纯策略纳什均衡。一个纯策略组合 $(s_1^*, s_2^*)$ 是纳什均衡当且仅当每位玩家在对手策略给定的情况下，没有单方面偏离的动机。在石头剪刀布中：

若玩家1选 R，玩家2的最优反应是 P（因为 P 胜 R）。但当玩家2选 P 时，玩家1的最优反应变为 S（因为 S 胜 P），而非原来的 R。
若玩家1选 S，玩家2的最优反应是 R，而玩家1对 R 的最优反应又变为 P。
若玩家1选 P，玩家2的最优反应是 S，而玩家1对 S 的最优反应又回到 R。

上述六种纯策略组合依次检验，无一构成纳什均衡——每一组合下，总有一方可以通过切换策略提升自己的支付。该博弈不存在任何纯策略纳什均衡。这一性质反映了循环克制结构的本质张力：任何确定的策略都会暴露自身的弱点，从而被对手利用。

混合策略纳什均衡的推导

纳什定理（Nash 定理）保证，任何有限博弈至少存在一个纳什均衡，可以是混合策略纳什均衡。设玩家 $i$ 的混合策略为各纯策略上的概率分布：

\sigma_i = (p_i^R, p_i^S, p_i^P), \qquad p_i^R + p_i^S + p_i^P = 1, \quad p_i^R, p_i^S, p_i^P \ge 0

由于博弈完全对称，我们寻找对称混合策略纳什均衡 $\sigma_1 = \sigma_2 = (p, q, 1-p-q)$ 。

均衡条件：在混合策略纳什均衡中，每个被赋予正概率的纯策略必须产生相同的期望支付（否则玩家会将概率质量全部转移到期望更高的纯策略上）。

玩家1采用纯策略 R、S、P 分别对应的期望支付（给定玩家2使用混合策略 $(p, q, 1-p-q)$ ）为：

\begin{aligned} E_1[R] &= (0) \cdot p + (+1) \cdot q + (-1) \cdot (1-p-q) = q - (1-p-q) = q - 1 + p + q = p + 2q - 1 \\ E_1[S] &= (-1) \cdot p + (0) \cdot q + (+1) \cdot (1-p-q) = -p + 1 - p - q = 1 - 2p - q \\ E_1[P] &= (+1) \cdot p + (-1) \cdot q + (0) \cdot (1-p-q) = p - q \end{aligned}

令三者相等： $E_1[R] = E_1[S] = E_1[P]$ 。

由 $E_1[R] = E_1[P]$ ：

p + 2q - 1 = p - q \;\Longrightarrow\; 3q = 1 \;\Longrightarrow\; q = \frac{1}{3}

由 $E_1[S] = E_1[P]$ ：

1 - 2p - q = p - q \;\Longrightarrow\; 1 - 2p - \frac{1}{3} = p - \frac{1}{3} \;\Longrightarrow\; 1 = 3p \;\Longrightarrow\; p = \frac{1}{3}

再由概率归一化： $p^P = 1 - p - q = 1 - \frac{1}{3} - \frac{1}{3} = \frac{1}{3}$ 。

因此，石头剪刀布存在唯一的对称混合策略纳什均衡：

\sigma^* = \left(\frac{1}{3}, \frac{1}{3}, \frac{1}{3}\right)

在该均衡下，每位玩家以等概率 $\frac{1}{3}$ 随机选择石头、剪刀或布。此时任一玩家的期望支付为：

E[u_i] = \frac{1}{3} \cdot E_1[R] + \frac{1}{3} \cdot E_1[S] + \frac{1}{3} \cdot E_1[P] = 0

博弈的值（value）为零，对双方完全公平。

均衡的直觉与性质

均衡概率 $\left(\frac{1}{3}, \frac{1}{3}, \frac{1}{3}\right)$ 具有深刻的直觉基础：若任何一方偏离该均衡，偏向某一纯策略，另一方就可以通过调整自身策略来利用这种可预测性。例如，若玩家1过度偏好出石头（ $p > 1/3$ ），玩家2的最优反应是出布（P）的频率更高以获取正期望支付 $+1$ 。这种利用会持续侵蚀偏离方的支付，直到他回到均匀混合的均衡状态。

该均衡也满足无差异条件：在均衡策略下，对手对三种纯策略的支付完全无差异，因此对手也没有偏离的动机。石头剪刀布体现了混合策略均衡的典型逻辑——通过随机化自身行动来消除对手的可利用信息，而不是试图猜透对手。这在博弈论中被称为"让对方无差异"原则（Make Your Opponent Indifferent）。

演化博弈论的视角

在演化博弈论中，石头剪刀布是研究种群策略动态的经典框架。将三种策略视为种群中的三种表现型（phenotype），其繁殖速率由各自与对手种群相遇时的支付决定（复制子动态，replicator dynamics）。

设 $x_R, x_S, x_P$ 分别为种群中三种策略的比例（ $x_R + x_S + x_P = 1$ ），每类策略的适应度由与当前种群混合对战的期望支付决定。复制子动态方程描述了种群比例随时间的变化：

\begin{aligned} \dot{x}_R &= x_R \big[E[R \mid \mathbf{x}] - \bar{E}(\mathbf{x})\big] \\ \dot{x}_S &= x_S \big[E[S \mid \mathbf{x}] - \bar{E}(\mathbf{x})\big] \\ \dot{x}_P &= x_P \big[E[P \mid \mathbf{x}] - \bar{E}(\mathbf{x})\big] \end{aligned}

其中 $\bar{E}(\mathbf{x})$ 为种群平均适应度。该动力系统在 $(\frac{1}{3}, \frac{1}{3}, \frac{1}{3})$ 处有一个内点不动点，但它不是演化稳定策略（ESS）——事实上，RPS 不存在 ESS，因为复制子动态在等比例均衡周围呈现中性循环（neutral cycles）：种群轨迹在相平面上围绕均衡点做闭环运动，既不收敛也不发散，表现为永续的周期性波动。这一预测在实验室中得到了部分验证：受试者的策略比例确实呈现围绕 $\frac{1}{3}$ 的周期波动，但振幅随时间衰减，通常归因于学习效应。

实验经济学中的发现

实验经济学对石头剪刀布进行了大量实证研究，主要发现包括：

对均衡的系统性偏离：人类受试者并不会完美地执行均匀随机策略。常见的偏误包括：赢后倾向于保持同一策略（"赢则守"偏差，win-stay bias），输后倾向于切换到能击败对手上一轮所用策略的策略（"输则转"偏差，lose-shift bias）。这与完全理性假设下的无记忆独立随机化相矛盾。
可预测模式：受试者的选择序列通常表现出正的自相关，尤其是滞后一期的条件概率偏离均匀分布。例如，出石头后下一轮再出石头的条件概率通常低于 $\frac{1}{3}$ ，而出能击败"克制石头的布"的策略（即剪刀）的概率有所上升。
专家级博弈：在专业RPS比赛中，选手的策略更接近均衡，但即使在精英层面，观察者也发现选手会利用对手的无意识模式——例如，对手在紧张时倾向于出石头——这些纳什均衡之外的"二级推断"构成了实战策略的重要组成部分。

变体与推广

石头剪刀布的多策略推广是石头剪刀布蜥蜴斯波克（Rock-Paper-Scissors-Lizard-Spock，RPS-5），拥有五种策略和更复杂的循环克制链。该变体保留了零和性质和纯策略纳什均衡不存在性，其唯一对称混合策略纳什均衡为各策略以概率 $\frac{1}{5}$ 等权重使用。RPS 的思想还被拓展到 $n$ 策略循环博弈的研究中，这类博弈在理论生态学（物种竞争循环）和经济学（产业组织中的产品差异化博弈）中均有应用。

此外，石头剪刀布在经济学教学中被广泛用作讲解混合策略、最优反应对应（best response correspondence）和期望效用的第一个案例。它也常作为计算博弈（computational game theory）和多臂老虎机问题（multi-armed bandit）中对手建模算法的基准测试平台。

小结

石头剪刀布作为博弈论中最简洁的非平凡博弈，清晰地揭示了：当纯策略循环克制时，均衡必然要求混合策略；而随机化是应对策略互克逻辑的唯一理性出路。它的均匀混合均衡 $(\frac{1}{3}, \frac{1}{3}, \frac{1}{3})$ 是博弈论最著名的结果之一，也是演化动态和实验经济学中持续研究的焦点。从一个简单的儿童手戏延伸出对理性、随机性和策略互动的深刻洞见，这正是石头剪刀布经久不衰的学术魅力所在。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。