ARTICLE

石头剪刀布 (Rock-Paper-Scissors)

石头剪刀布 (Rock-Paper-Scissors) 石头剪刀布(Rock-Paper-Scissors,简称 RPS),是一种两人参与的零和博弈,也是博弈论中最经典的入门案例之一。在该博弈中,每位玩家同时从三种策略——石头 ( R)、剪刀 ( S)、布 ( P)——中选择其一,胜负由一条简单的循环克制链决定:石头胜剪刀(石头砸坏剪刀),剪刀胜布(剪刀剪碎

浏览 0 更新 2025-10-26

石头剪刀布 (Rock-Paper-Scissors)

石头剪刀布(Rock-Paper-Scissors,简称 RPS),是一种两人参与的零和博弈,也是博弈论中最经典的入门案例之一。在该博弈中,每位玩家同时从三种策略——石头 (R\mathbf{R})、剪刀 (S\mathbf{S})、布 (P\mathbf{P})——中选择其一,胜负由一条简单的循环克制链决定:石头胜剪刀(石头砸坏剪刀),剪刀胜布(剪刀剪碎布),布胜石头(布包裹石头),相同策略则为平局。尽管规则极其简单,RPS 却深刻揭示了博弈论中纯策略的脆弱性、混合策略纳什均衡的存在性,以及随机化在策略互动中的核心价值。它也是研究演化博弈论实验经济学和有限理性决策的理想实验平台。

博弈的正规形式表示

石头剪刀布可用正规形式(normal form)严格定义为一个三元组 N,{Si},{ui}\langle N, \{S_i\}, \{u_i\} \rangle

  • 玩家集合 N={1,2}N = \{1, 2\},即两名对称玩家。
  • 策略空间 S1=S2={R,S,P}S_1 = S_2 = \{R, S, P\},每位玩家有三个纯策略可供选择。
  • 支付函数 ui:S1×S2Ru_i: S_1 \times S_2 \to \mathbb{R}。标准设定下,胜者得 +1+1,负者得 1-1,平局双方得 00。这是一个严格竞争的零和博弈:对所有策略组合 (s1,s2)(s_1, s_2),有 u1(s1,s2)+u2(s1,s2)=0u_1(s_1, s_2) + u_2(s_1, s_2) = 0

支付矩阵如下所示(行玩家为玩家1,列玩家为玩家2,每一单元格中第一个数字为玩家1的支付,第二个数字为玩家2的支付):

石头 (R)剪刀 (S)布 (P)石头 (R)(0,0)(+1,1)(1,+1)剪刀 (S)(1,+1)(0,0)(+1,1)布 (P)(+1,1)(1,+1)(0,0)\begin{array}{c|ccc} & \text{石头 (R)} & \text{剪刀 (S)} & \text{布 (P)} \\ \hline \text{石头 (R)} & (0, 0) & (+1, -1) & (-1, +1) \\ \text{剪刀 (S)} & (-1, +1) & (0, 0) & (+1, -1) \\ \text{布 (P)} & (+1, -1) & (-1, +1) & (0, 0) \\ \end{array}

该矩阵呈现显著的循环结构:每一行中恰好有一个 +1+1、一个 1-1 和一个 00,且不存在任何一行严格优于另一行(即不存在严格占优策略)。同样,每一列也对称地不具备严格占优性。这意味着单纯依靠优势策略筛选无法消除任何策略,博弈必须求助于更深入的均衡分析。

纯策略纳什均衡的不存在性

首先检验纯策略纳什均衡。一个纯策略组合 (s1,s2)(s_1^*, s_2^*)纳什均衡当且仅当每位玩家在对手策略给定的情况下,没有单方面偏离的动机。在石头剪刀布中:

  • 若玩家1选 R,玩家2的最优反应是 P(因为 P 胜 R)。但当玩家2选 P 时,玩家1的最优反应变为 S(因为 S 胜 P),而非原来的 R。
  • 若玩家1选 S,玩家2的最优反应是 R,而玩家1对 R 的最优反应又变为 P。
  • 若玩家1选 P,玩家2的最优反应是 S,而玩家1对 S 的最优反应又回到 R。

上述六种纯策略组合依次检验,无一构成纳什均衡——每一组合下,总有一方可以通过切换策略提升自己的支付。该博弈不存在任何纯策略纳什均衡。这一性质反映了循环克制结构的本质张力:任何确定的策略都会暴露自身的弱点,从而被对手利用。

混合策略纳什均衡的推导

纳什定理(Nash 定理)保证,任何有限博弈至少存在一个纳什均衡,可以是混合策略纳什均衡。设玩家 ii 的混合策略为各纯策略上的概率分布:

σi=(piR,piS,piP),piR+piS+piP=1,piR,piS,piP0\sigma_i = (p_i^R, p_i^S, p_i^P), \qquad p_i^R + p_i^S + p_i^P = 1, \quad p_i^R, p_i^S, p_i^P \ge 0

由于博弈完全对称,我们寻找对称混合策略纳什均衡 σ1=σ2=(p,q,1pq)\sigma_1 = \sigma_2 = (p, q, 1-p-q)

均衡条件:在混合策略纳什均衡中,每个被赋予正概率的纯策略必须产生相同的期望支付(否则玩家会将概率质量全部转移到期望更高的纯策略上)。

玩家1采用纯策略 R、S、P 分别对应的期望支付(给定玩家2使用混合策略 (p,q,1pq)(p, q, 1-p-q))为:

E1[R]=(0)p+(+1)q+(1)(1pq)=q(1pq)=q1+p+q=p+2q1E1[S]=(1)p+(0)q+(+1)(1pq)=p+1pq=12pqE1[P]=(+1)p+(1)q+(0)(1pq)=pq\begin{aligned} E_1[R] &= (0) \cdot p + (+1) \cdot q + (-1) \cdot (1-p-q) = q - (1-p-q) = q - 1 + p + q = p + 2q - 1 \\ E_1[S] &= (-1) \cdot p + (0) \cdot q + (+1) \cdot (1-p-q) = -p + 1 - p - q = 1 - 2p - q \\ E_1[P] &= (+1) \cdot p + (-1) \cdot q + (0) \cdot (1-p-q) = p - q \end{aligned}

令三者相等:E1[R]=E1[S]=E1[P]E_1[R] = E_1[S] = E_1[P]

E1[R]=E1[P]E_1[R] = E_1[P]

p+2q1=pq    3q=1    q=13p + 2q - 1 = p - q \;\Longrightarrow\; 3q = 1 \;\Longrightarrow\; q = \frac{1}{3}

E1[S]=E1[P]E_1[S] = E_1[P]

12pq=pq    12p13=p13    1=3p    p=131 - 2p - q = p - q \;\Longrightarrow\; 1 - 2p - \frac{1}{3} = p - \frac{1}{3} \;\Longrightarrow\; 1 = 3p \;\Longrightarrow\; p = \frac{1}{3}

再由概率归一化:pP=1pq=11313=13p^P = 1 - p - q = 1 - \frac{1}{3} - \frac{1}{3} = \frac{1}{3}

因此,石头剪刀布存在唯一的对称混合策略纳什均衡:

σ=(13,13,13)\sigma^* = \left(\frac{1}{3}, \frac{1}{3}, \frac{1}{3}\right)

在该均衡下,每位玩家以等概率 13\frac{1}{3} 随机选择石头、剪刀或布。此时任一玩家的期望支付为:

E[ui]=13E1[R]+13E1[S]+13E1[P]=0E[u_i] = \frac{1}{3} \cdot E_1[R] + \frac{1}{3} \cdot E_1[S] + \frac{1}{3} \cdot E_1[P] = 0

博弈的(value)为零,对双方完全公平。

均衡的直觉与性质

均衡概率 (13,13,13)\left(\frac{1}{3}, \frac{1}{3}, \frac{1}{3}\right) 具有深刻的直觉基础:若任何一方偏离该均衡,偏向某一纯策略,另一方就可以通过调整自身策略来利用这种可预测性。例如,若玩家1过度偏好出石头(p>1/3p > 1/3),玩家2的最优反应是出布(P)的频率更高以获取正期望支付 +1+1。这种利用会持续侵蚀偏离方的支付,直到他回到均匀混合的均衡状态。

该均衡也满足无差异条件:在均衡策略下,对手对三种纯策略的支付完全无差异,因此对手也没有偏离的动机。石头剪刀布体现了混合策略均衡的典型逻辑——通过随机化自身行动来消除对手的可利用信息,而不是试图猜透对手。这在博弈论中被称为"让对方无差异"原则(Make Your Opponent Indifferent)。

演化博弈论的视角

演化博弈论中,石头剪刀布是研究种群策略动态的经典框架。将三种策略视为种群中的三种表现型(phenotype),其繁殖速率由各自与对手种群相遇时的支付决定(复制子动态,replicator dynamics)。

xR,xS,xPx_R, x_S, x_P 分别为种群中三种策略的比例(xR+xS+xP=1x_R + x_S + x_P = 1),每类策略的适应度由与当前种群混合对战的期望支付决定。复制子动态方程描述了种群比例随时间的变化:

x˙R=xR[E[Rx]Eˉ(x)]x˙S=xS[E[Sx]Eˉ(x)]x˙P=xP[E[Px]Eˉ(x)]\begin{aligned} \dot{x}_R &= x_R \big[E[R \mid \mathbf{x}] - \bar{E}(\mathbf{x})\big] \\ \dot{x}_S &= x_S \big[E[S \mid \mathbf{x}] - \bar{E}(\mathbf{x})\big] \\ \dot{x}_P &= x_P \big[E[P \mid \mathbf{x}] - \bar{E}(\mathbf{x})\big] \end{aligned}

其中 Eˉ(x)\bar{E}(\mathbf{x}) 为种群平均适应度。该动力系统在 (13,13,13)(\frac{1}{3}, \frac{1}{3}, \frac{1}{3}) 处有一个内点不动点,但它不是演化稳定策略(ESS)——事实上,RPS 不存在 ESS,因为复制子动态在等比例均衡周围呈现中性循环(neutral cycles):种群轨迹在相平面上围绕均衡点做闭环运动,既不收敛也不发散,表现为永续的周期性波动。这一预测在实验室中得到了部分验证:受试者的策略比例确实呈现围绕 13\frac{1}{3} 的周期波动,但振幅随时间衰减,通常归因于学习效应。

实验经济学中的发现

实验经济学对石头剪刀布进行了大量实证研究,主要发现包括:

  • 对均衡的系统性偏离:人类受试者并不会完美地执行均匀随机策略。常见的偏误包括:赢后倾向于保持同一策略("赢则守"偏差,win-stay bias),输后倾向于切换到能击败对手上一轮所用策略的策略("输则转"偏差,lose-shift bias)。这与完全理性假设下的无记忆独立随机化相矛盾。
  • 可预测模式:受试者的选择序列通常表现出正的自相关,尤其是滞后一期的条件概率偏离均匀分布。例如,出石头后下一轮再出石头的条件概率通常低于 13\frac{1}{3},而出能击败"克制石头的布"的策略(即剪刀)的概率有所上升。
  • 专家级博弈:在专业RPS比赛中,选手的策略更接近均衡,但即使在精英层面,观察者也发现选手会利用对手的无意识模式——例如,对手在紧张时倾向于出石头——这些纳什均衡之外的"二级推断"构成了实战策略的重要组成部分。

变体与推广

石头剪刀布的多策略推广是石头剪刀布蜥蜴斯波克(Rock-Paper-Scissors-Lizard-Spock,RPS-5),拥有五种策略和更复杂的循环克制链。该变体保留了零和性质和纯策略纳什均衡不存在性,其唯一对称混合策略纳什均衡为各策略以概率 15\frac{1}{5} 等权重使用。RPS 的思想还被拓展到 nn 策略循环博弈的研究中,这类博弈在理论生态学(物种竞争循环)和经济学(产业组织中的产品差异化博弈)中均有应用。

此外,石头剪刀布在经济学教学中被广泛用作讲解混合策略最优反应对应(best response correspondence)和期望效用的第一个案例。它也常作为计算博弈(computational game theory)和多臂老虎机问题(multi-armed bandit)中对手建模算法的基准测试平台。

小结

石头剪刀布作为博弈论中最简洁的非平凡博弈,清晰地揭示了:当纯策略循环克制时,均衡必然要求混合策略;而随机化是应对策略互克逻辑的唯一理性出路。它的均匀混合均衡 (13,13,13)(\frac{1}{3}, \frac{1}{3}, \frac{1}{3}) 是博弈论最著名的结果之一,也是演化动态和实验经济学中持续研究的焦点。从一个简单的儿童手戏延伸出对理性、随机性和策略互动的深刻洞见,这正是石头剪刀布经久不衰的学术魅力所在。