ARTICLE

强化学习

强化学习 (Reinforcement Learning) 强化学习（Reinforcement Learning, RL）是机器学习的三大范式之一（与监督学习和无监督学习并列），研究智能体（Agent）如何在与环境交互的过程中，通过试错和延迟奖励来学习最优行为策略。强化学习的数学基础根植于马尔可夫决策过程（Markov Decision Process,

浏览 5 更新 2025-10-29

强化学习 (Reinforcement Learning)

强化学习（Reinforcement Learning, RL）是机器学习的三大范式之一（与监督学习和无监督学习并列），研究智能体（Agent）如何在与环境交互的过程中，通过试错和延迟奖励来学习最优行为策略。强化学习的数学基础根植于马尔可夫决策过程（Markov Decision Process, MDP），其核心思想是：智能体在环境中采取行动，环境反馈奖励信号并转移到新状态；智能体的目标不是最大化即时奖励，而是最大化长期累积奖励的期望值。

核心要素与形式化框架

一个标准的强化学习问题由以下要素构成：状态空间 $\mathcal{S}$ 、动作空间 $\mathcal{A}$ 、转移概率 $P(s' \mid s, a)$ （表示在状态 $s$ 执行动作 $a$ 后转移到状态 $s'$ 的概率）、奖励函数 $\mathcal{R}(s, a)$ 以及折扣因子 $\gamma \in [0, 1)$ 。智能体的行为由一个策略 $\pi(a \mid s)$ 描述，表示在状态 $s$ 下选择动作 $a$ 的概率。

在给定策略 $\pi$ 下，状态 $s$ 的价值函数 $V^{\pi}(s)$ 定义为从 $s$ 出发、永远遵循 $\pi$ 所能获得的期望折现累积奖励：

V^{\pi}(s) = \mathbb{E}_{\pi}\left[\sum_{t=0}^{\infty} \gamma^t R_t \mid S_0 = s\right]

类似地，动作-价值函数 $Q^{\pi}(s, a)$ 度量在状态 $s$ 执行动作 $a$ 后遵循 $\pi$ 的期望回报。这两个函数由著名的贝尔曼方程（Bellman Equation）递归关联。对于最优价值函数 $V^*$ 和最优策略 $\pi^*$ ，贝尔曼最优方程给出了求解的理论基础：

V^*(s) = \max_{a \in \mathcal{A}} \left[ \mathcal{R}(s, a) + \gamma \sum_{s' \in \mathcal{S}} P(s' \mid s, a) V^*(s') \right]

主要算法类别

强化学习算法大致分为三类。基于价值的方法（Value-Based）直接学习最优动作-价值函数 $Q^*$ ，再从中导出策略。最经典的算法是Q学习（Q-Learning），其更新规则为：

Q(s, a) \leftarrow Q(s, a) + \alpha \left[ r + \gamma \max_{a'} Q(s', a') - Q(s, a) \right]

其中 $\alpha$ 为学习率。Q 学习属于离策略（Off-Policy）方法，即学习目标策略与行为策略可以不同。SARSA 算法则是典型的在策略（On-Policy）方法，其更新中使用的 $Q(s', a')$ 来自实际执行的动作而非最大值。深度强化学习的里程碑——深度Q网络（DQN）由 DeepMind 于 2015 年提出，利用深度神经网络逼近 Q 函数，结合经验回放和目标网络稳定训练，在 Atari 游戏中达到人类水平。

基于策略的方法（Policy-Based）直接参数化策略 $\pi_{\theta}(a \mid s)$ 并通过梯度上升优化期望奖励。策略梯度定理（Policy Gradient Theorem）给出了梯度的无偏估计：

\nabla_{\theta} J(\theta) = \mathbb{E}_{\pi_{\theta}}\left[ \nabla_{\theta} \log \pi_{\theta}(a \mid s) \cdot \Psi_t \right]

其中 $\Psi_t$ 是优势函数或折现累积奖励。代表算法包括 REINFORCE、近端策略优化（PPO）和信赖域策略优化（TRPO）。

演员-评论家方法（Actor-Critic）融合两种范式：演员（策略网络）选择动作，评论家（价值网络）评估动作的优劣。优势演员-评论家（A2C/A3C）和软演员-评论家（SAC）是该类方法的代表，在连续控制任务中表现出色。

探索与利用的权衡

强化学习面临的根本困境是探索与利用的权衡（Exploration-Exploitation Trade-off）：智能体必须在利用已知高奖励动作（Exploitation）与探索未知动作以获取更多信息（Exploration）之间分配时间。常用策略包括 $\epsilon$ -贪婪法（以概率 $\epsilon$ 随机探索）、上置信界（Upper Confidence Bound, UCB）方法以及汤普森采样（Thompson Sampling）。在多臂赌博机问题中，这一权衡得到最纯粹的刻画，其中后悔值（Regret）分析为算法性能提供理论保证。

经济学中的应用

强化学习在经济学和金融学中具有广阔的应用前景。在产业组织理论中，企业定价策略可建模为多智能体 RL 问题，企业通过反复互动学习最优定价规则。在宏观经济政策分析中，中央银行的政策制定可视为一个 RL 问题：状态包括通胀率、失业率和 GDP 增长率，动作包括利率调整，奖励为经济稳定度指标。在机制设计和拍卖理论中，RL 用于求解最优拍卖设计问题以及分析投标人的学习行为。在金融工程中，RL 被广泛用于动态资产配置和交易策略优化，以应对非平稳、高噪声的金融市场环境。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。