知经 KNOWECON · 卓越的经济金融统计数学学习平台

博弈论

# 博弈论 (Game Theory)

博弈论 (Game Theory),又称 对策论,是研究理性决策者之间战略互动的{{{应用数学}}}分支。它试图通过数学模型来理解和预测在特定规则和情境下,一个或多个参与人的决策行为及其均衡结果。博弈论的核心在于,任何一个参与人的最优决策都取决于其对其他参与人行为的预期,反之亦然。这一理论广泛应用于{{{经济学}}}、{{{政治学}}}、{{{社会学}}}、{{{计算机科学}}}和{{{演化生物学}}}等众多领域。

美国匈牙利裔数学家[[约翰·冯·诺依曼]] (John von Neumann) 被公认为现代博弈论的奠基人,他与经济学家[[奥斯卡·摩根斯特恩]] (Oskar Morgenstern) 合著的《博弈论与经济行为》 (1944) 是该领域的开创性著作。后来,[[约翰·纳什]] (John Nash) 对非合作博弈及其均衡概念的开创性贡献,极大地扩展了博弈论的应用范围。

## 博弈的基本要素 (The Basic Elements of a Game)

一个规范的博弈模型通常由以下几个核心要素构成:

一. 参与人 (Players):在一场博弈中做出决策的个体或群体。例如,在{{{寡头垄断}}}市场中,参与人是各个寡头企业;在国家间的贸易谈判中,参与人是各个国家。

二. 策略 (Strategies):参与人可以选择的完整行动方案。一个策略规定了在博弈的每一个可能情境下,该参与人应采取何种行动。策略可以是 纯策略 (Pure Strategy),即明确选择一个特定行动;也可以是 混合策略 (Mixed Strategy),即以一定的{{{概率}}}分布在多个纯策略中进行选择。

三. 支付 (Payoffs):也称为 收益效用。指所有参与人选择了一套特定的策略组合后,每个参与人所能获得的确定回报。支付通常用数字来表示,数值越大代表该参与人获得的{{{效用}}}或满足程度越高。所有参与人的支付可以汇总成一个 支付矩阵 (Payoff Matrix)

四. 信息 (Information):参与人在决策时所掌握的关于博弈的知识。这包括对其他参与人的可用策略、支付函数以及他们决策偏好的了解程度。

在博弈论的分析中,两个基本假设至关重要:{{{理性}}} (Rationality),即每个参与人都旨在最大化自身的支付;以及 {{{共同知识}}} (Common Knowledge),即博弈的规则、参与人的理性以及所有这些事实都是所有参与人所共知,并且所有人都知道所有人都知道,无限递推。

## 博弈的分类 (Classification of Games)

根据不同的标准,博弈可以被划分为多种类型,这有助于我们选择合适的分析工具。

* 合作博弈 vs. 非合作博弈 (Cooperative vs. Non-Cooperative Games) * {{{合作博弈}}} 关注的是参与人能否通过达成具有约束力的协议来形成联盟,并研究这些联盟如何分配合作所产生的总收益。 * {{{非合作博弈}}} 则假定参与人无法达成有约束力的协议,因此每个人都必须独立决策以最大化自身利益。现代博弈论的主体,如{{{纳什均衡}}},主要集中在非合作博弈的框架下。

* 静态博弈 vs. 动态博弈 (Static vs. Dynamic Games) * {{{静态博弈}}} (或称同步博弈) 中,所有参与人同时做出决策,或者在不知晓其他参与人选择的情况下做出决策。例如,"石头-剪刀-布"游戏。 * {{{动态博弈}}} (或称序贯博弈) 中,参与人有先后次序地做出决策,后行动者可以观察到先行动者的选择。例如,象棋或围棋。

* 完全信息博弈 vs. 不完全信息博弈 (Complete vs. Incomplete Information Games) * {{{完全信息博弈}}} 中,每一位参与人都完全了解所有其他参与人的支付函数(即知道别人的"喜好")。 * {{{不完全信息博弈}}} 中,至少有一位参与人不完全了解其他某个参与人的支付函数。例如,在{{{拍卖}}}中,竞拍者不知道其他竞拍者对拍卖品的真实估值。

* 零和博弈 vs. 非零和博弈 (Zero-Sum vs. Non-Zero-Sum Games) * {{{零和博弈}}} 指的是所有参与人的收益总和恒为零的博弈,即一方的所得必然等于另一方的所失。 * {{{非零和博弈}}} 则允许收益总和为正(双赢)或为负(双输)的情况出现。绝大多数经济和社会互动都是非零和博弈。

## 核心概念与均衡 (Core Concepts and Equilibrium)

博弈论的目标是找到博弈的"解",即预测博弈的结果。这个"解"通常以均衡的形式出现。

* 优势策略 (Dominant Strategy) 一个策略如果对于一个参与人来说,无论其他参与人选择什么策略,它都是最优选择,那么这个策略就是该参与人的 优势策略。如果一个博弈中所有参与人都有优势策略,那么由这些优势策略构成的组合就是 优势策略均衡

* 纳什均衡 (Nash Equilibrium) {{{纳什均衡}}}是博弈论中最核心、最著名的概念。它指的是这样一个策略组合,在该组合中,任何一个参与人都无法通过 单方面改变 自己的策略而获得更高的支付。换言之,在纳什均衡点上,每个人的选择都是在给定其他人选择的情况下的最优反应。这个概念描述了一种 "无悔" 的稳定状态。

* 子博弈精炼纳什均衡 (Subgame Perfect Nash Equilibrium, SPNE) 在动态博弈中,某些纳什均衡可能包含 "不可信的威胁" (non-credible threats)。为了排除这些不合理的均衡,{{{赖因哈德·泽尔滕}}} (Reinhard Selten) 提出了子博弈精炼纳什均衡的概念。它要求参与人的策略在整个博弈的每一个 子博弈 (Subgame) 中都构成纳什均衡。这通常通过 {{{逆向归纳法}}} (Backward Induction) 来求解。

* 贝叶斯纳什均衡 (Bayesian Nash Equilibrium, BNE) 这是针对不完全信息博弈的均衡概念。在这种博弈中,参与人根据自己掌握的信息(即自己的"类型")和对其他参与人类型的{{{概率}}}分布(信念),使用{{{贝叶斯定理}}}来更新自己的判断,并选择能最大化期望支付的策略。

## 经典博弈模型举例 (Examples of Classic Game Models)

### 囚徒困境 (Prisoner's Dilemma)

{{{囚徒困境}}} 是说明个人理性和集体理性之间冲突的最著名例子。假设两名嫌疑犯(A和B)被分开审讯,他们面临以下选择:

1. 坦白 (Confess):指证对方。 2. 沉默 (Deny):保持沉默。

支付(这里以刑期年数表示,数值越小越好)如下: * 如果两人都沉默,各判1年。 * 如果一人坦白,另一人沉默,坦白者获释(0年),沉默者重判10年。 * 如果两人都坦白,各判5年。

支付矩阵如下 (A的支付, B的支付): | | B: 沉默 | B: 坦白 | | :--- | :---: | :---: | | A: 沉默 | (-1, -1) | (-10, 0) | | A: 坦白 | (0, -10) | (-5, -5) |

对于A来说,无论B选择什么,坦白都是更优的选择(如果B沉默,A坦白比沉默好[0 vs -1];如果B坦白,A坦白也比沉默好[-5 vs -10])。因此,坦白是A的优势策略。同理,坦白也是B的优势策略。最终的均衡结果是(坦白, 坦白),两人各判5年。然而,这个结果劣于两人都沉默的结果(-1, -1)。这个模型揭示了为什么在没有合作机制的情况下,追求个人利益最大化可能导致对集体更糟糕的结局。

### 性别之战 (Battle of the Sexes)

{{{性别之战}}} 是一个{{{协调博弈}}}的例子。假设一对伴侣决定晚上一起活动,但意见不一:男方想看足球 (Football),女方想听歌剧 (Opera)。他们都希望待在一起,而不是分开活动。

支付矩阵如下 (男方支付, 女方支付): | | 女方: 歌剧 | 女方: 足球 | | :--- | :---: | :---: | | 男方: 歌剧 | (2, 3) | (1, 1) | | 男方: 足球 | (0, 0) | (3, 2) |

在这个博弈中,没有优势策略。但存在两个纯策略纳什均衡:(歌剧, 歌剧)和(足球, 足球)。在这两个结果上,双方都没有单方面改变选择的动机。这个模型展示了在多重均衡存在时,如何达成协调成为一个难题。

## 应用领域 (Applications)

博弈论的分析框架已被应用于解释和解决各种现实世界的问题: * 经济学:分析{{{公司定价策略}}}、{{{市场进入}}}、{{{拍卖设计}}}、{{{公共物品}}}供给和{{{贸易谈判}}}等。 * 政治学:研究选举竞争、{{{投票行为}}}、国际关系中的威慑与合作、联盟形成等。 * 生物学:通过{{{演化博弈论}}} (Evolutionary Game Theory),解释物种间的合作与冲突行为,以及物种的演化稳定策略 (Evolutionarily Stable Strategy, ESS)。 * 计算机科学与工程:设计更高效的网络路由协议、{{{人工智能}}}代理的决策逻辑、以及{{{密码学}}}安全。