ARTICLE

博弈论

博弈论 (Game Theory) 博弈论 (Game Theory),又称 对策论,是研究理性决策者之间战略互动的应用数学分支。它试图通过数学模型来理解和预测在特定规则和情境下,一个或多个参与人的决策行为及其均衡结果。博弈论的核心在于,任何一个参与人的最优决策都取决于其对其他参与人行为的预期,反之亦然。这一理论广泛应用于经济学、政治学、社会学、计算机科学和

浏览 88 更新 2025-10-22

博弈论 (Game Theory)

博弈论 (Game Theory),又称 对策论,是研究理性决策者之间战略互动的应用数学分支。它试图通过数学模型来理解和预测在特定规则和情境下,一个或多个参与人的决策行为及其均衡结果。博弈论的核心在于,任何一个参与人的最优决策都取决于其对其他参与人行为的预期,反之亦然。这一理论广泛应用于经济学政治学社会学计算机科学演化生物学等众多领域。

美国匈牙利裔数学家约翰·冯·诺依曼 (John von Neumann) 被公认为现代博弈论的奠基人,他与经济学家奥斯卡·摩根斯特恩 (Oskar Morgenstern) 合著的《博弈论与经济行为》(1944) 是该领域的开创性著作。后来,约翰·纳什 (John Nash) 对非合作博弈及其均衡概念的开创性贡献,极大地扩展了博弈论的应用范围。

博弈的基本要素 (The Basic Elements of a Game)

一个规范的博弈模型通常由以下几个核心要素构成:

  1. 参与人 (Players):在一场博弈中做出决策的个体或群体。例如,在寡头垄断市场中,参与人是各个寡头企业;在国家间的贸易谈判中,参与人是各个国家。
  2. 策略 (Strategies):参与人可以选择的完整行动方案。一个策略规定了在博弈的每一个可能情境下,该参与人应采取何种行动。策略可以是 纯策略 (Pure Strategy),即明确选择一个特定行动;也可以是 混合策略 (Mixed Strategy),即以一定的概率分布在多个纯策略中进行选择。
  3. 支付 (Payoffs):也称为 收益效用。指所有参与人选择了一套特定的策略组合后,每个参与人所能获得的确定回报。支付通常用数字来表示,数值越大代表该参与人获得的效用或满足程度越高。所有参与人的支付可以汇总成一个 支付矩阵 (Payoff Matrix)
  4. 信息 (Information):参与人在决策时所掌握的关于博弈的知识。这包括对其他参与人的可用策略、支付函数以及他们决策偏好的了解程度。

在博弈论的分析中,两个基本假设至关重要:理性 (Rationality),即每个参与人都旨在最大化自身的支付;以及 共同知识 (Common Knowledge),即博弈的规则、参与人的理性以及所有这些事实都是所有参与人所共知,并且所有人都知道所有人都知道,无限递推。

博弈的分类 (Classification of Games)

根据不同的标准,博弈可以被划分为多种类型,这有助于我们选择合适的分析工具。

  • 合作博弈 vs. 非合作博弈 (Cooperative vs. Non-Cooperative Games) \begin{itemize}
  • 合作博弈 关注的是参与人能否通过达成具有约束力的协议来形成联盟,并研究这些联盟如何分配合作所产生的总收益。
  • 非合作博弈 则假定参与人无法达成有约束力的协议,因此每个人都必须独立决策以最大化自身利益。现代博弈论的主体,如纳什均衡,主要集中在非合作博弈的框架下。

\item 静态博弈 vs. 动态博弈 (Static vs. Dynamic Games)

  • 静态博弈(或称同步博弈)中,所有参与人同时做出决策,或者在不知晓其他参与人选择的情况下做出决策。例如,“石头-剪刀-布”游戏。
  • 动态博弈(或称序贯博弈)中,参与人有先后次序地做出决策,后行动者可以观察到先行动者的选择。例如,象棋或围棋。

\item 完全信息博弈 vs. 不完全信息博弈 (Complete vs. Incomplete Information Games)

  • 完全信息博弈 中,每一位参与人都完全了解所有其他参与人的支付函数(即知道别人的“喜好”)。
  • 不完全信息博弈 中,至少有一位参与人不完全了解其他某个参与人的支付函数。例如,在拍卖中,竞拍者不知道其他竞拍者对拍卖品的真实估值。

\item 零和博弈 vs. 非零和博弈 (Zero-Sum vs. Non-Zero-Sum Games)

  • 零和博弈 指的是所有参与人的收益总和恒为零的博弈,即一方的所得必然等于另一方的所失。
  • 非零和博弈 则允许收益总和为正(双赢)或为负(双输)的情况出现。绝大多数经济和社会互动都是非零和博弈。

\end{itemize}

核心概念与均衡 (Core Concepts and Equilibrium)

博弈论的目标是找到博弈的“解”,即预测博弈的结果。这个“解”通常以均衡的形式出现。

  • 优势策略 (Dominant Strategy):一个策略如果对于一个参与人来说,无论其他参与人选择什么策略,它都是最优选择,那么这个策略就是该参与人的 优势策略。如果一个博弈中所有参与人都有优势策略,那么由这些优势策略构成的组合就是 优势策略均衡
  • 纳什均衡 (Nash Equilibrium)纳什均衡是博弈论中最核心、最著名的概念。它指的是这样一个策略组合,在该组合中,任何一个参与人都无法通过 单方面改变 自己的策略而获得更高的支付。换言之,在纳什均衡点上,每个人的选择都是在给定其他人选择的情况下的最优反应。这个概念描述了一种“无悔”的稳定状态。
  • 子博弈精炼纳什均衡 (Subgame Perfect Nash Equilibrium, SPNE):在动态博弈中,某些纳什均衡可能包含“不可信的威胁”(non-credible threats)。为了排除这些不合理的均衡,赖因哈德·泽尔滕 (Reinhard Selten) 提出了子博弈精炼纳什均衡的概念。它要求参与人的策略在整个博弈的每一个 子博弈 (Subgame) 中都构成纳什均衡。这通常通过 逆向归纳法 (Backward Induction) 来求解。
  • 贝叶斯纳什均衡 (Bayesian Nash Equilibrium, BNE):这是针对不完全信息博弈的均衡概念。在这种博弈中,参与人根据自己掌握的信息(即自己的“类型”)和对其他参与人类型的概率分布(信念),使用贝叶斯定理来更新自己的判断,并选择能最大化期望支付的策略。

经典博弈模型举例 (Examples of Classic Game Models)

囚徒困境 (Prisoner's Dilemma)

囚徒困境 是说明个人理性和集体理性之间冲突的最著名例子。假设两名嫌疑犯(A和B)被分开审讯,他们面临以下选择:

  1. 坦白 (Confess):指证对方。
  2. 沉默 (Deny):保持沉默。

支付(这里以刑期年数表示,数值越小越好)如下:

  • 如果两人都沉默,各判1年。
  • 如果一人坦白,另一人沉默,坦白者获释(0年),沉默者重判10年。
  • 如果两人都坦白,各判5年。

支付矩阵如下(A的支付,B的支付):

| | B: 沉默 | B: 坦白 | | :--- | :--- | :--- | | A: 沉默 | (-1, -1) | (-10, 0) | | A: 坦白 | (0, -10) | (-5, -5) |

对于A来说,无论B选择什么,坦白都是更优的选择(如果B沉默,A坦白比沉默好[0 vs -1];如果B坦白,A坦白也比沉默好[-5 vs -10])。因此,坦白是A的优势策略。同理,坦白也是B的优势策略。最终的均衡结果是(坦白, 坦白),两人各判5年。然而,这个结果劣于两人都沉默的结果(-1, -1)。这个模型揭示了为什么在没有合作机制的情况下,追求个人利益最大化可能导致对集体更糟糕的结局。

性别之战 (Battle of the Sexes)

性别之战 是一个协调博弈的例子。假设一对伴侣决定晚上一起活动,但意见不一:男方想看足球 (Football),女方想听歌剧 (Opera)。他们都希望待在一起,而不是分开活动。

支付矩阵如下(男方支付,女方支付):

| | 女方: 歌剧 | 女方: 足球 | | :--- | :--- | :--- | | 男方: 歌剧 | (2, 3) | (1, 1) | | 男方: 足球 | (0, 0) | (3, 2) |

在这个博弈中,没有优势策略。但存在两个纯策略纳什均衡:(歌剧, 歌剧)和(足球, 足球)。在这两个结果上,双方都没有单方面改变选择的动机。这个模型展示了在多重均衡存在时,如何达成协调成为一个难题。

应用领域 (Applications)

博弈论的分析框架已被应用于解释和解决各种现实世界的问题: