ARTICLE

强化学习

强化学习 (Reinforcement Learning) 强化学习(Reinforcement Learning, RL)是机器学习的三大范式之一(与监督学习和无监督学习并列),研究智能体(Agent)如何在与环境交互的过程中,通过试错和延迟奖励来学习最优行为策略。强化学习的数学基础根植于马尔可夫决策过程(Markov Decision Process,

浏览 5 更新 2025-10-29

强化学习 (Reinforcement Learning)

强化学习(Reinforcement Learning, RL)是机器学习的三大范式之一(与监督学习无监督学习并列),研究智能体(Agent)如何在与环境交互的过程中,通过试错和延迟奖励来学习最优行为策略。强化学习的数学基础根植于马尔可夫决策过程(Markov Decision Process, MDP),其核心思想是:智能体在环境中采取行动,环境反馈奖励信号并转移到新状态;智能体的目标不是最大化即时奖励,而是最大化长期累积奖励的期望值。

核心要素与形式化框架

一个标准的强化学习问题由以下要素构成:状态空间 S\mathcal{S}动作空间 A\mathcal{A}转移概率 P(ss,a)P(s' \mid s, a)(表示在状态 ss 执行动作 aa 后转移到状态 ss' 的概率)、奖励函数 R(s,a)\mathcal{R}(s, a) 以及折扣因子 γ[0,1)\gamma \in [0, 1)。智能体的行为由一个策略 π(as)\pi(a \mid s) 描述,表示在状态 ss 下选择动作 aa 的概率。

在给定策略 π\pi 下,状态 ss价值函数 Vπ(s)V^{\pi}(s) 定义为从 ss 出发、永远遵循 π\pi 所能获得的期望折现累积奖励:

Vπ(s)=Eπ[t=0γtRtS0=s]V^{\pi}(s) = \mathbb{E}_{\pi}\left[\sum_{t=0}^{\infty} \gamma^t R_t \mid S_0 = s\right]

类似地,动作-价值函数 Qπ(s,a)Q^{\pi}(s, a) 度量在状态 ss 执行动作 aa 后遵循 π\pi 的期望回报。这两个函数由著名的贝尔曼方程(Bellman Equation)递归关联。对于最优价值函数 VV^* 和最优策略 π\pi^*,贝尔曼最优方程给出了求解的理论基础:

V(s)=maxaA[R(s,a)+γsSP(ss,a)V(s)]V^*(s) = \max_{a \in \mathcal{A}} \left[ \mathcal{R}(s, a) + \gamma \sum_{s' \in \mathcal{S}} P(s' \mid s, a) V^*(s') \right]

主要算法类别

强化学习算法大致分为三类。基于价值的方法(Value-Based)直接学习最优动作-价值函数 QQ^*,再从中导出策略。最经典的算法是Q学习(Q-Learning),其更新规则为:

Q(s,a)Q(s,a)+α[r+γmaxaQ(s,a)Q(s,a)]Q(s, a) \leftarrow Q(s, a) + \alpha \left[ r + \gamma \max_{a'} Q(s', a') - Q(s, a) \right]

其中 α\alpha 为学习率。Q 学习属于离策略(Off-Policy)方法,即学习目标策略与行为策略可以不同。SARSA 算法则是典型的在策略(On-Policy)方法,其更新中使用的 Q(s,a)Q(s', a') 来自实际执行的动作而非最大值。深度强化学习的里程碑——深度Q网络(DQN)由 DeepMind 于 2015 年提出,利用深度神经网络逼近 Q 函数,结合经验回放和目标网络稳定训练,在 Atari 游戏中达到人类水平。

基于策略的方法(Policy-Based)直接参数化策略 πθ(as)\pi_{\theta}(a \mid s) 并通过梯度上升优化期望奖励。策略梯度定理(Policy Gradient Theorem)给出了梯度的无偏估计:

θJ(θ)=Eπθ[θlogπθ(as)Ψt]\nabla_{\theta} J(\theta) = \mathbb{E}_{\pi_{\theta}}\left[ \nabla_{\theta} \log \pi_{\theta}(a \mid s) \cdot \Psi_t \right]

其中 Ψt\Psi_t 是优势函数或折现累积奖励。代表算法包括 REINFORCE、近端策略优化(PPO)和信赖域策略优化(TRPO)。

演员-评论家方法(Actor-Critic)融合两种范式:演员(策略网络)选择动作,评论家(价值网络)评估动作的优劣。优势演员-评论家(A2C/A3C)和软演员-评论家(SAC)是该类方法的代表,在连续控制任务中表现出色。

探索与利用的权衡

强化学习面临的根本困境是探索与利用的权衡(Exploration-Exploitation Trade-off):智能体必须在利用已知高奖励动作(Exploitation)与探索未知动作以获取更多信息(Exploration)之间分配时间。常用策略包括 ϵ\epsilon-贪婪法(以概率 ϵ\epsilon 随机探索)、上置信界(Upper Confidence Bound, UCB)方法以及汤普森采样(Thompson Sampling)。在多臂赌博机问题中,这一权衡得到最纯粹的刻画,其中后悔值(Regret)分析为算法性能提供理论保证。

经济学中的应用

强化学习在经济学和金融学中具有广阔的应用前景。在产业组织理论中,企业定价策略可建模为多智能体 RL 问题,企业通过反复互动学习最优定价规则。在宏观经济政策分析中,中央银行的政策制定可视为一个 RL 问题:状态包括通胀率、失业率和 GDP 增长率,动作包括利率调整,奖励为经济稳定度指标。在机制设计拍卖理论中,RL 用于求解最优拍卖设计问题以及分析投标人的学习行为。在金融工程中,RL 被广泛用于动态资产配置和交易策略优化,以应对非平稳、高噪声的金融市场环境。