值函数 (Value Function)
值函数 (Value Function)是动态规划 与宏观经济学 中最核心的分析工具之一,由理查德·贝尔曼(Richard Bellman)在 1950 年代系统化提出。在离散时间、无限期界的标准设定中,值函数 V ( x ) V(x) V ( x ) 定义为从初始状态 x ∈ X x \in X x ∈ X 出发,在所有可行的控制序列 { u t } t = 0 ∞ \{u_t\}_{t=0}^{\infty} { u t } t = 0 ∞ 上最大化折现回报总和的上确界 :
V ( x ) = sup { u t } ∑ t = 0 ∞ β t r ( x t , u t ) , x t + 1 = g ( x t , u t ) , x 0 = x V(x) = \sup_{\{u_t\}} \sum_{t=0}^{\infty} \beta^t r(x_t, u_t), \quad x_{t+1} = g(x_t, u_t), \quad x_0 = x V ( x ) = { u t } sup t = 0 ∑ ∞ β t r ( x t , u t ) , x t + 1 = g ( x t , u t ) , x 0 = x
其中 β ∈ ( 0 , 1 ) \beta \in (0, 1) β ∈ ( 0 , 1 ) 为折现因子 ,r ( ⋅ ) r(\cdot) r ( ⋅ ) 为单期回报函数(如效用、利润),g ( ⋅ ) g(\cdot) g ( ⋅ ) 为描述状态演化的转移方程。值函数的理论贡献在于,它将一个涉及无限多期决策变量的序列优化问题,转化为一个关于状态 x x x 的单期不动点问题 ——这一转化使得分析和计算都变得可行。
贝尔曼方程与最优性原理
值函数的核心性质是它必然满足贝尔曼方程 (Bellman Equation):
V ( x ) = max u ∈ Γ ( x ) { r ( x , u ) + β V [ g ( x , u ) ] } , ∀ x ∈ X V(x) = \max_{u \in \Gamma(x)} \big\{ r(x, u) + \beta V[g(x, u)] \big\}, \quad \forall x \in X V ( x ) = u ∈ Γ ( x ) max { r ( x , u ) + β V [ g ( x , u )] } , ∀ x ∈ X
其中 Γ ( x ) \Gamma(x) Γ ( x ) 为状态 x x x 下所有可行控制的集合。该方程的直觉是:今天的最优决策必须在"今天的即期回报"与"明天开始的最优未来——即值函数在下一期的折现值"之间进行权衡。这正是最优性原理 (Principle of Optimality)的数学表达:无论初始状态与初始决策如何,剩余决策必须构成从下一状态出发的最优策略。
贝尔曼方程将寻找最优控制序列的问题,转化为寻找最优策略函数 (Policy Function)h : X → U h: X \to U h : X → U ,该函数直接给出每个状态下的最优控制:
h ( x ) = arg max u ∈ Γ ( x ) { r ( x , u ) + β V [ g ( x , u ) ] } h(x) = \arg\max_{u \in \Gamma(x)} \big\{ r(x, u) + \beta V[g(x, u)] \big\} h ( x ) = arg u ∈ Γ ( x ) max { r ( x , u ) + β V [ g ( x , u )] }
定义贝尔曼算子 T T T 为:
( T v ) ( x ) = max u ∈ Γ ( x ) { r ( x , u ) + β v [ g ( x , u ) ] } (T v)(x) = \max_{u \in \Gamma(x)} \big\{ r(x, u) + \beta v[g(x, u)] \big\} ( T v ) ( x ) = u ∈ Γ ( x ) max { r ( x , u ) + β v [ g ( x , u )] }
则贝尔曼方程紧凑地写作不动点条件 V = T V V = T V V = T V 。这一抽象为理论分析和数值求解提供了统一框架。
存在性、唯一性与基本性质
在标准正则性条件下——状态空间 X ⊆ R n X \subseteq \mathbb{R}^n X ⊆ R n 为紧凸集,回报函数 r r r 有界且连续,可行对应 Γ \Gamma Γ 为非空、紧值且连续——贝尔曼算子 T T T 在有界连续函数空间 C ( X ) C(X) C ( X ) 上是模为 β \beta β 的压缩映射 。由巴拿赫不动点定理 ,存在唯一的值函数 V ∈ C ( X ) V \in C(X) V ∈ C ( X ) 满足贝尔曼方程。此外,值函数具有以下关键理论性质:
单调性 :若回报函数 r ( x , u ) r(x, u) r ( x , u ) 对 x x x 单调递增,且转移方程 g ( x , u ) g(x, u) g ( x , u ) 对 x x x 单调,则 V ( x ) V(x) V ( x ) 对状态 x x x 单调递增。直觉上,更好的初始禀赋能实现更高的终身效用。凹性 :若 r r r 对 ( x , u ) (x, u) ( x , u ) 联合凹,且约束集 Γ ( x ) \Gamma(x) Γ ( x ) 为凸对应(即对所有 x , x ′ x, x' x , x ′ 和 λ ∈ [ 0 , 1 ] \lambda \in [0,1] λ ∈ [ 0 , 1 ] ,有 λ Γ ( x ) + ( 1 − λ ) Γ ( x ′ ) ⊆ Γ ( λ x + ( 1 − λ ) x ′ ) \lambda \Gamma(x) + (1-\lambda)\Gamma(x') \subseteq \Gamma(\lambda x + (1-\lambda)x') λ Γ ( x ) + ( 1 − λ ) Γ ( x ′ ) ⊆ Γ ( λ x + ( 1 − λ ) x ′ ) ),则值函数 V V V 为凹函数。凹性在比较静态分析 和均衡唯一性证明中至关重要。可微性与包络条件 :在适当的内点条件下,值函数几乎处处可微,其导数由本维尼斯特-沙因克曼包络定理 (Benveniste-Scheinkman Envelope Theorem)刻画。在最简情形中——即下一期状态不直接进入回报函数时——包络条件简化为: \[ V'(x) = \frac{\partial r}{\partial x}\big(x, h(x)\big) \] 这一结果避免了直接对策略函数求导,是建立欧拉方程的关键步骤。
经典应用:最优增长模型的递归表述
值函数方法在拉姆齐-卡斯-库普曼斯增长模型 中的运用是其最经典的范例。考虑代表性消费者选择消费路径以最大化终身效用:
max { c t , k t + 1 } ∑ t = 0 ∞ β t u ( c t ) \max_{\{c_t, k_{t+1}\}} \sum_{t=0}^{\infty} \beta^t u(c_t) { c t , k t + 1 } max t = 0 ∑ ∞ β t u ( c t )
资源约束为 c t + k t + 1 ≤ f ( k t ) + ( 1 − δ ) k t c_t + k_{t+1} \le f(k_t) + (1 - \delta) k_t c t + k t + 1 ≤ f ( k t ) + ( 1 − δ ) k t ,且 c t ≥ 0 c_t \ge 0 c t ≥ 0 、k t + 1 ≥ 0 k_{t+1} \ge 0 k t + 1 ≥ 0 。选择资本存量 k k k 为状态变量,对应的贝尔曼方程为:
V ( k ) = max 0 ≤ c ≤ f ( k ) + ( 1 − δ ) k { u ( c ) + β V ( f ( k ) + ( 1 − δ ) k − c ) } V(k) = \max_{0 \le c \le f(k) + (1-\delta)k} \Big\{ u(c) + \beta V\big(f(k) + (1-\delta)k - c\big) \Big\} V ( k ) = 0 ≤ c ≤ f ( k ) + ( 1 − δ ) k max { u ( c ) + β V ( f ( k ) + ( 1 − δ ) k − c ) }
对消费 c c c 取一阶条件得 u ′ ( c ) = β V ′ ( k ′ ) u'(c) = \beta V'(k') u ′ ( c ) = β V ′ ( k ′ ) ,其中 k ′ k' k ′ 为下一期资本。对当前资本 k k k 应用包络定理得 V ′ ( k ) = u ′ ( c ) [ f ′ ( k ) + 1 − δ ] V'(k) = u'(c)[f'(k) + 1 - \delta] V ′ ( k ) = u ′ ( c ) [ f ′ ( k ) + 1 − δ ] 。将两式联立消去值函数的导数 V ′ V' V ′ ,立即得到经典的欧拉方程 :
u ′ ( c t ) = β u ′ ( c t + 1 ) [ f ′ ( k t + 1 ) + 1 − δ ] u'(c_t) = \beta u'(c_{t+1}) [f'(k_{t+1}) + 1 - \delta] u ′ ( c t ) = β u ′ ( c t + 1 ) [ f ′ ( k t + 1 ) + 1 − δ ]
该方程刻画了最优跨期消费配置的核心权衡:今天少消费一单位所牺牲的边际效用,必须恰好等于将其储蓄为资本并在下一期获得回报(边际产出加折旧剩余)后折现的边际效用收益。
数值求解:值函数迭代
在实证与定量研究中,值函数极少有解析解,需依赖数值方法。最基础也最稳健的算法是值函数迭代 (Value Function Iteration, VFI):从一个初始猜测 V 0 V_0 V 0 (通常取为零函数)开始,反复应用贝尔曼算子 V n + 1 = T V n V_{n+1} = T V_n V n + 1 = T V n 。由于 T T T 是模为 β \beta β 的压缩映射,序列 { V n } \{V_n\} { V n } 以几何速度收敛于真值函数。典型停止准则为:
∥ V n + 1 − V n ∥ ∞ < ε 1 − β 2 β \|V_{n+1} - V_n\|_{\infty} < \varepsilon \frac{1 - \beta}{2\beta} ∥ V n + 1 − V n ∥ ∞ < ε 2 β 1 − β
这保证了 ∥ V n − V ∥ ∞ < ε \|V_n - V\|_{\infty} < \varepsilon ∥ V n − V ∥ ∞ < ε 。
对于连续状态空间,实践中先将状态空间离散化 为有限格点(Grid),在每个格点上执行最大化,再通过插值(线性插值、三次样条或切比雪夫多项式逼近)在相邻格点间延拓值函数。当状态变量维度上升时,格点数量呈指数增长——即"维度灾难"——此时需诉诸近似动态规划 、机器学习 中的深度 Q 网络等方法,用参数化函数(如神经网络 )直接逼近值函数。
除了值函数迭代外,策略函数迭代 (Policy Function Iteration, PFI,又称霍华德改进算法)是另一种重要解法:在给定策略下求解线性方程组得到该策略的(精确)值函数,再对该值函数做一步贪婪改进获得新策略,重复至收敛。PFI 通常以更少的迭代次数收敛,但每次迭代的线性方程组求解成本较高。
随机情形的推广
当模型中包含外生随机冲击时,值函数需置于期望框架下。令 z t z_t z t 为遵循马尔可夫过程的随机冲击,转移概率为 P ( z t + 1 ∣ z t ) P(z_{t+1} \mid z_t) P ( z t + 1 ∣ z t ) ,则贝尔曼方程推广为:
V ( x , z ) = max u ∈ Γ ( x , z ) { r ( x , u , z ) + β E z ′ ∣ z [ V ( g ( x , u , z ) , z ′ ) ] } V(x, z) = \max_{u \in \Gamma(x, z)} \Big\{ r(x, u, z) + \beta \mathbb{E}_{z' \mid z} \big[ V(g(x, u, z), z') \big] \Big\} V ( x , z ) = u ∈ Γ ( x , z ) max { r ( x , u , z ) + β E z ′ ∣ z [ V ( g ( x , u , z ) , z ′ ) ] }
其中期望算子 E z ′ ∣ z \mathbb{E}_{z' \mid z} E z ′ ∣ z 对下一期冲击的条件分布取期望。这一推广是真实经济周期 (RBC)模型、新凯恩斯 DSGE 模型以及所有面对不确定性进行前瞻性最优决策的经济模型的数学基础。
理论意义与延伸
值函数不仅仅是一个技术性求解工具——它深刻重塑了经济学家对动态决策问题的思考方式。通过将无限期界问题压缩为单期不动点,它使得紧凑的一阶条件(欧拉方程)、福利分析(值函数直接衡量终身福利)和可行的数值算法成为可能。在当代经济学中,值函数方法已远超最初的增长模型设定,广泛渗透至劳动经济学 (就业搜寻与人力资本积累)、产业组织 (企业进入、退出与研发投资)、国际经济学 (主权违约与资本管制)、家庭金融 (消费-储蓄与退休决策)以及环境经济学 (气候政策的跨期成本收益分析)等几乎所有涉及跨期权衡的领域。
关于知经 KNOWECON
知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌,长期面向北京大学、清华大学、中国人民大学等顶尖院校,提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考,并成功进入理想院校。
知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业,获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者,长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。
我们相信,好的考研辅导不只是押题和陪跑,更是把复杂知识讲清楚、把复习路径设计清楚,并用技术让学习过程更可追踪、更可反馈、更可坚持。