石头剪刀布 (Rock-Paper-Scissors)
石头剪刀布(Rock-Paper-Scissors,简称 RPS),是一种两人参与的零和博弈,也是博弈论中最经典的入门案例之一。在该博弈中,每位玩家同时从三种策略——石头 (R)、剪刀 (S)、布 (P)——中选择其一,胜负由一条简单的循环克制链决定:石头胜剪刀(石头砸坏剪刀),剪刀胜布(剪刀剪碎布),布胜石头(布包裹石头),相同策略则为平局。尽管规则极其简单,RPS 却深刻揭示了博弈论中纯策略的脆弱性、混合策略纳什均衡的存在性,以及随机化在策略互动中的核心价值。它也是研究演化博弈论、实验经济学和有限理性决策的理想实验平台。
博弈的正规形式表示
石头剪刀布可用正规形式(normal form)严格定义为一个三元组 ⟨N,{Si},{ui}⟩:
- 玩家集合 N={1,2},即两名对称玩家。
- 策略空间 S1=S2={R,S,P},每位玩家有三个纯策略可供选择。
- 支付函数 ui:S1×S2→R。标准设定下,胜者得 +1,负者得 −1,平局双方得 0。这是一个严格竞争的零和博弈:对所有策略组合 (s1,s2),有 u1(s1,s2)+u2(s1,s2)=0。
支付矩阵如下所示(行玩家为玩家1,列玩家为玩家2,每一单元格中第一个数字为玩家1的支付,第二个数字为玩家2的支付):
石头 (R)剪刀 (S)布 (P)石头 (R)(0,0)(−1,+1)(+1,−1)剪刀 (S)(+1,−1)(0,0)(−1,+1)布 (P)(−1,+1)(+1,−1)(0,0)
该矩阵呈现显著的循环结构:每一行中恰好有一个 +1、一个 −1 和一个 0,且不存在任何一行严格优于另一行(即不存在严格占优策略)。同样,每一列也对称地不具备严格占优性。这意味着单纯依靠优势策略筛选无法消除任何策略,博弈必须求助于更深入的均衡分析。
纯策略纳什均衡的不存在性
首先检验纯策略纳什均衡。一个纯策略组合 (s1∗,s2∗) 是纳什均衡当且仅当每位玩家在对手策略给定的情况下,没有单方面偏离的动机。在石头剪刀布中:
- 若玩家1选 R,玩家2的最优反应是 P(因为 P 胜 R)。但当玩家2选 P 时,玩家1的最优反应变为 S(因为 S 胜 P),而非原来的 R。
- 若玩家1选 S,玩家2的最优反应是 R,而玩家1对 R 的最优反应又变为 P。
- 若玩家1选 P,玩家2的最优反应是 S,而玩家1对 S 的最优反应又回到 R。
上述六种纯策略组合依次检验,无一构成纳什均衡——每一组合下,总有一方可以通过切换策略提升自己的支付。该博弈不存在任何纯策略纳什均衡。这一性质反映了循环克制结构的本质张力:任何确定的策略都会暴露自身的弱点,从而被对手利用。
混合策略纳什均衡的推导
纳什定理(Nash 定理)保证,任何有限博弈至少存在一个纳什均衡,可以是混合策略纳什均衡。设玩家 i 的混合策略为各纯策略上的概率分布:
σi=(piR,piS,piP),piR+piS+piP=1,piR,piS,piP≥0
由于博弈完全对称,我们寻找对称混合策略纳什均衡 σ1=σ2=(p,q,1−p−q)。
均衡条件:在混合策略纳什均衡中,每个被赋予正概率的纯策略必须产生相同的期望支付(否则玩家会将概率质量全部转移到期望更高的纯策略上)。
玩家1采用纯策略 R、S、P 分别对应的期望支付(给定玩家2使用混合策略 (p,q,1−p−q))为:
E1[R]E1[S]E1[P]=(0)⋅p+(+1)⋅q+(−1)⋅(1−p−q)=q−(1−p−q)=q−1+p+q=p+2q−1=(−1)⋅p+(0)⋅q+(+1)⋅(1−p−q)=−p+1−p−q=1−2p−q=(+1)⋅p+(−1)⋅q+(0)⋅(1−p−q)=p−q
令三者相等:E1[R]=E1[S]=E1[P]。
由 E1[R]=E1[P]:
p+2q−1=p−q⟹3q=1⟹q=31
由 E1[S]=E1[P]:
1−2p−q=p−q⟹1−2p−31=p−31⟹1=3p⟹p=31
再由概率归一化:pP=1−p−q=1−31−31=31。
因此,石头剪刀布存在唯一的对称混合策略纳什均衡:
σ∗=(31,31,31)
在该均衡下,每位玩家以等概率 31 随机选择石头、剪刀或布。此时任一玩家的期望支付为:
E[ui]=31⋅E1[R]+31⋅E1[S]+31⋅E1[P]=0
博弈的值(value)为零,对双方完全公平。
均衡的直觉与性质
均衡概率 (31,31,31) 具有深刻的直觉基础:若任何一方偏离该均衡,偏向某一纯策略,另一方就可以通过调整自身策略来利用这种可预测性。例如,若玩家1过度偏好出石头(p>1/3),玩家2的最优反应是出布(P)的频率更高以获取正期望支付 +1。这种利用会持续侵蚀偏离方的支付,直到他回到均匀混合的均衡状态。
该均衡也满足无差异条件:在均衡策略下,对手对三种纯策略的支付完全无差异,因此对手也没有偏离的动机。石头剪刀布体现了混合策略均衡的典型逻辑——通过随机化自身行动来消除对手的可利用信息,而不是试图猜透对手。这在博弈论中被称为"让对方无差异"原则(Make Your Opponent Indifferent)。
演化博弈论的视角
在演化博弈论中,石头剪刀布是研究种群策略动态的经典框架。将三种策略视为种群中的三种表现型(phenotype),其繁殖速率由各自与对手种群相遇时的支付决定(复制子动态,replicator dynamics)。
设 xR,xS,xP 分别为种群中三种策略的比例(xR+xS+xP=1),每类策略的适应度由与当前种群混合对战的期望支付决定。复制子动态方程描述了种群比例随时间的变化:
x˙Rx˙Sx˙P=xR[E[R∣x]−Eˉ(x)]=xS[E[S∣x]−Eˉ(x)]=xP[E[P∣x]−Eˉ(x)]
其中 Eˉ(x) 为种群平均适应度。该动力系统在 (31,31,31) 处有一个内点不动点,但它不是演化稳定策略(ESS)——事实上,RPS 不存在 ESS,因为复制子动态在等比例均衡周围呈现中性循环(neutral cycles):种群轨迹在相平面上围绕均衡点做闭环运动,既不收敛也不发散,表现为永续的周期性波动。这一预测在实验室中得到了部分验证:受试者的策略比例确实呈现围绕 31 的周期波动,但振幅随时间衰减,通常归因于学习效应。
实验经济学中的发现
实验经济学对石头剪刀布进行了大量实证研究,主要发现包括:
- 对均衡的系统性偏离:人类受试者并不会完美地执行均匀随机策略。常见的偏误包括:赢后倾向于保持同一策略("赢则守"偏差,win-stay bias),输后倾向于切换到能击败对手上一轮所用策略的策略("输则转"偏差,lose-shift bias)。这与完全理性假设下的无记忆独立随机化相矛盾。
- 可预测模式:受试者的选择序列通常表现出正的自相关,尤其是滞后一期的条件概率偏离均匀分布。例如,出石头后下一轮再出石头的条件概率通常低于 31,而出能击败"克制石头的布"的策略(即剪刀)的概率有所上升。
- 专家级博弈:在专业RPS比赛中,选手的策略更接近均衡,但即使在精英层面,观察者也发现选手会利用对手的无意识模式——例如,对手在紧张时倾向于出石头——这些纳什均衡之外的"二级推断"构成了实战策略的重要组成部分。
变体与推广
石头剪刀布的多策略推广是石头剪刀布蜥蜴斯波克(Rock-Paper-Scissors-Lizard-Spock,RPS-5),拥有五种策略和更复杂的循环克制链。该变体保留了零和性质和纯策略纳什均衡不存在性,其唯一对称混合策略纳什均衡为各策略以概率 51 等权重使用。RPS 的思想还被拓展到 n 策略循环博弈的研究中,这类博弈在理论生态学(物种竞争循环)和经济学(产业组织中的产品差异化博弈)中均有应用。
此外,石头剪刀布在经济学教学中被广泛用作讲解混合策略、最优反应对应(best response correspondence)和期望效用的第一个案例。它也常作为计算博弈(computational game theory)和多臂老虎机问题(multi-armed bandit)中对手建模算法的基准测试平台。
小结
石头剪刀布作为博弈论中最简洁的非平凡博弈,清晰地揭示了:当纯策略循环克制时,均衡必然要求混合策略;而随机化是应对策略互克逻辑的唯一理性出路。它的均匀混合均衡 (31,31,31) 是博弈论最著名的结果之一,也是演化动态和实验经济学中持续研究的焦点。从一个简单的儿童手戏延伸出对理性、随机性和策略互动的深刻洞见,这正是石头剪刀布经久不衰的学术魅力所在。