ARTICLE

支付函数

支付函数（Payoff Function），亦称收益函数或效用函数，是博弈论与决策理论的核心概念，用于量化参与者在特定策略组合下所获得的收益或效用。在博弈分析中，支付函数将每个可能的策略组合（即局势）映射为实数值，以此反映参与者对博弈结果的偏好排序。约翰·冯·诺伊曼与奥斯卡·摩根斯坦在《博弈论与经济行为》（1944年）中系统建立了基于支付函数的博弈分析框架，

浏览 0 更新 2026-05-26

支付函数（Payoff Function），亦称收益函数或效用函数，是博弈论与决策理论的核心概念，用于量化参与者在特定策略组合下所获得的收益或效用。在博弈分析中，支付函数将每个可能的策略组合（即局势）映射为实数值，以此反映参与者对博弈结果的偏好排序。约翰·冯·诺伊曼与奥斯卡·摩根斯坦在《博弈论与经济行为》（1944年）中系统建立了基于支付函数的博弈分析框架，奠定了现代博弈论的理论基础。支付函数不仅刻画了理性决策者的行为动机，更构成了纳什均衡、子博弈精炼均衡、贝叶斯均衡等全部均衡概念的逻辑起点。

定义与形式化

设博弈有 n 个参与者，每个参与者 i 拥有策略集 $S_i$ 。策略组合 s = ( $s_1$ , $s_2$ , ..., $s_n$ ) ∈ $S_1$ × $S_2$ × ... × $S_n$ 是全体参与者所选策略的笛卡尔积。参与者 i 的支付函数 $u_i$ : $S_1$ × $S_2$ × ... × $S_n$ → ℝ 将每个策略组合映射为一个实数，称为该参与者在此局势下的支付。支付值越大，参与者对该结果越偏好。在策略式博弈（标准式博弈）中，支付函数通常以矩阵形式表示：行代表参与者1的策略，列代表参与者2的策略，单元格内为二者的支付向量。以经典的囚徒困境为例：若两人均合作，各得支付(-1, -1)；一方背叛而另一方合作时，背叛者得0、合作者得-3；双方均背叛则各得-2。这一简单的支付矩阵揭示了个人理性与集体理性之间的深刻冲突，成为博弈论最具影响力的模型之一。

支付函数的类型

支付函数依其所度量效用的性质可分为基数支付函数与序数支付函数两类。基数支付函数不仅反映偏好顺序，还包含偏好强度的信息——支付值之间的差距具有实际意义，例如在期望效用框架下允许参与者比较不同随机结果间的期望支付。序数支付函数则仅保留偏好的排序信息，支付值的大小比较有意义而差值无定量含义。在一般均衡理论中，序数效用足以分析消费者选择；而在涉及不确定性与风险的博弈中（如混合策略纳什均衡的求解），基数支付函数不可或缺。此外，支付函数的取值域亦有所区分：确定性支付对应纯策略组合下的确定结果；期望支付则是在混合策略或随机环境下以概率加权的平均支付。期望支付的计算公式为 E[ $u_i$ (σ)] = Σ\_{s∈S} (Π\_j σ\_j( $s_j$ )) × $u_i$ (s)，其中 σ\_j 为参与者 j 的混合策略。

支付函数与均衡分析

支付函数是全部博弈均衡概念的定义基础。纳什均衡要求每个参与者的策略是对他人策略的最优反应：s* 为纳什均衡当且仅当对任意参与者 i 及任意策略 $s_i$ ' ∈ $S_i$ ，有 $u_i$ (s*) ≥ $u_i$ ( $s_i$ ', s*\_{-i})。这一定义直接依赖于支付函数的数值比较。在扩展式博弈中，支付函数定义于终端节点之上，参与者通过逆向归纳法（子博弈精炼均衡）沿博弈树回溯，选择最大化自身支付的策略。贝叶斯博弈则将参与者类型引入支付函数，此时 $u_i$ ( $s_i$ , $s_{-i}$ ; θ\_i) 还依赖于参与者的私有类型 θ\_i，其均衡分析要求参与者基于先验信念计算期望支付。合作博弈中支付函数以特征函数 v(S) 的形式呈现，表示联盟 S 所能保证的最大总支付，夏普利值、核仁等解概念均基于特征函数构建。支付函数的连续性、可微性与凹凸性在博弈分析中具有重要理论意义：连续支付函数保证了纯策略纳什均衡的存在性（吉库斯定理），凹函数则有利于混合策略均衡的求解。

机制设计中的支付函数

在机制设计理论中，支付函数是实现激励相容的关键设计变量。委托人设计支付规则 t(θ̂)（转移支付）与分配规则 x(θ̂)，使得代理人报告真实类型 θ 成为最优策略。显示原理指出，任何可实施的配置规则均可通过一个直接显示机制实现，该机制中支付函数必须满足激励相容约束： $u_i$ (θ\_i) = $v_i$ (x(θ\_i, θ\_{-i}), θ\_i) - $t_i$ (θ\_i, θ\_{-i}) ≥ $v_i$ (x(θ\_i', θ\_{-i}), θ\_i) - $t_i$ (θ\_i', θ\_{-i})。迈尔森的收入等价定理表明，在标准假设下所有效率性机制所产生的期望支付相等。维克瑞-克拉克-格罗夫斯机制（VCG机制）通过设计支付函数等于外部性之和，使诚实报告成为占优策略，在拍卖、公共物品供给与双边贸易领域具有广泛应用。最优拍卖理论中，卖方通过设置保留价和支付规则，在激励相容与个体理性约束下最大化期望收入，其数学本质是含约束的支付函数优化问题。

行为视角下的支付函数

传统支付函数假设参与者完全理性且仅关注自身物质收益，但行为博弈论的大量实验证据表明人的实际决策系统性地偏离这一假设。社会偏好理论将公平、互惠、利他与不平等厌恶等非自利动机纳入支付函数。费尔与施密特（1999年）提出的不平等厌恶模型将支付函数修正为 $u_i$ = π\_i - α\_i·max{π\_j - π\_i, 0} - β\_i·max{π\_i - π\_j, 0}，其中 α\_i 与 β\_i 分别衡量劣势不平等厌恶与优势不平等厌恶的强度。拉宾（1993年）的互惠模型则将意图与善意引入支付函数，认为参与者不仅关注最终分配，还在意对方的动机是否友善。前景理论对期望效用框架下的支付函数做出进一步修正：参照点依赖使支付函数定义于相对于参照点的收益与损失域而非最终财富水平；损失厌恶使损失域的支付函数斜率大于收益域；概率加权函数则扭曲了小概率事件的主观权重。这些行为修正使支付函数更加贴近真实人类决策，显著增强了对实验与实地观测数据的解释力。

计算与实证中的应用

在现代经济学研究中，支付函数亦面临计量估计与计算求解的双重挑战。结构估计方法将博弈视为支付函数参数化的模型，通过观测参与者的策略选择反推支付函数的参数值。这类方法广泛应用于产业组织中的市场进入博弈、拍卖中的估值分布估计以及劳动经济学中的工资议价分析。例如在拍卖研究中，研究者假定投标者的支付函数服从特定的独立私有价值分布，利用中标数据通过极大似然法或矩估计法反推分布参数。在计算方面，大规模博弈中支付函数的求解往往面临维度诅咒——随着参与者数量增加，策略组合呈指数增长。近年来，多智能体强化学习技术为大规模博弈中支付函数的近似求解提供了新途径：参与者通过与环境交互学习近似最优策略，无需枚举全部策略组合。深度神经网络作为支付函数或策略函数的逼近器，在多人博弈、不完全信息博弈和连续策略空间博弈中取得了突破性进展。

参考文献

Von Neumann, J., \& Morgenstern, O. (1944). *Theory of Games and Economic Behavior*. Princeton University Press.
Nash, J. (1950). Equilibrium points in n-person games. *Proceedings of the National Academy of Sciences*, 36(1), 48–49.
Fudenberg, D., \& Tirole, J. (1991). *Game Theory*. MIT Press.
Myerson, R. B. (1981). Optimal auction design. *Mathematics of Operations Research*, 6(1), 58–73.
Fehr, E., \& Schmidt, K. M. (1999). A theory of fairness, competition, and cooperation. *Quarterly Journal of Economics*, 114(3), 817–868.
Kahneman, D., \& Tversky, A. (1979). Prospect theory: An analysis of decision under risk. *Econometrica*, 47(2), 263–291.
Maskin, E. (1999). Nash equilibrium and welfare optimality. *Review of Economic Studies*, 66(1), 23–38.

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。