ARTICLE
强化学习
强化学习 (Reinforcement Learning) 强化学习(Reinforcement Learning, RL)是机器学习的三大范式之一(与监督学习和无监督学习并列),研究智能体(Agent)如何在与环境交互的过程中,通过试错和延迟奖励来学习最优行为策略。强化学习的数学基础根植于马尔可夫决策过程(Markov Decision Process,
强化学习 (Reinforcement Learning)
强化学习(Reinforcement Learning, RL)是机器学习的三大范式之一(与监督学习和无监督学习并列),研究智能体(Agent)如何在与环境交互的过程中,通过试错和延迟奖励来学习最优行为策略。强化学习的数学基础根植于马尔可夫决策过程(Markov Decision Process, MDP),其核心思想是:智能体在环境中采取行动,环境反馈奖励信号并转移到新状态;智能体的目标不是最大化即时奖励,而是最大化长期累积奖励的期望值。
核心要素与形式化框架
一个标准的强化学习问题由以下要素构成:状态空间 、动作空间 、转移概率 (表示在状态 执行动作 后转移到状态 的概率)、奖励函数 以及折扣因子 。智能体的行为由一个策略 描述,表示在状态 下选择动作 的概率。
在给定策略 下,状态 的价值函数 定义为从 出发、永远遵循 所能获得的期望折现累积奖励:
类似地,动作-价值函数 度量在状态 执行动作 后遵循 的期望回报。这两个函数由著名的贝尔曼方程(Bellman Equation)递归关联。对于最优价值函数 和最优策略 ,贝尔曼最优方程给出了求解的理论基础:
主要算法类别
强化学习算法大致分为三类。基于价值的方法(Value-Based)直接学习最优动作-价值函数 ,再从中导出策略。最经典的算法是Q学习(Q-Learning),其更新规则为:
其中 为学习率。Q 学习属于离策略(Off-Policy)方法,即学习目标策略与行为策略可以不同。SARSA 算法则是典型的在策略(On-Policy)方法,其更新中使用的 来自实际执行的动作而非最大值。深度强化学习的里程碑——深度Q网络(DQN)由 DeepMind 于 2015 年提出,利用深度神经网络逼近 Q 函数,结合经验回放和目标网络稳定训练,在 Atari 游戏中达到人类水平。
基于策略的方法(Policy-Based)直接参数化策略 并通过梯度上升优化期望奖励。策略梯度定理(Policy Gradient Theorem)给出了梯度的无偏估计:
其中 是优势函数或折现累积奖励。代表算法包括 REINFORCE、近端策略优化(PPO)和信赖域策略优化(TRPO)。
演员-评论家方法(Actor-Critic)融合两种范式:演员(策略网络)选择动作,评论家(价值网络)评估动作的优劣。优势演员-评论家(A2C/A3C)和软演员-评论家(SAC)是该类方法的代表,在连续控制任务中表现出色。
探索与利用的权衡
强化学习面临的根本困境是探索与利用的权衡(Exploration-Exploitation Trade-off):智能体必须在利用已知高奖励动作(Exploitation)与探索未知动作以获取更多信息(Exploration)之间分配时间。常用策略包括 -贪婪法(以概率 随机探索)、上置信界(Upper Confidence Bound, UCB)方法以及汤普森采样(Thompson Sampling)。在多臂赌博机问题中,这一权衡得到最纯粹的刻画,其中后悔值(Regret)分析为算法性能提供理论保证。
经济学中的应用
强化学习在经济学和金融学中具有广阔的应用前景。在产业组织理论中,企业定价策略可建模为多智能体 RL 问题,企业通过反复互动学习最优定价规则。在宏观经济政策分析中,中央银行的政策制定可视为一个 RL 问题:状态包括通胀率、失业率和 GDP 增长率,动作包括利率调整,奖励为经济稳定度指标。在机制设计和拍卖理论中,RL 用于求解最优拍卖设计问题以及分析投标人的学习行为。在金融工程中,RL 被广泛用于动态资产配置和交易策略优化,以应对非平稳、高噪声的金融市场环境。