ARTICLE

学习

学习 (Learning) 学习 (Learning) 是指个体或系统通过经验、观察或教学获取知识、技能或行为模式的过程。在经济学中，学习被广泛理解为经济主体在不确定条件下，根据已有信息更新信念、优化决策的动态过程。它在博弈论、行为经济学、信息经济学和宏观经济学中均扮演着基础性角色。经济学中的学习：从理性到适应传统新古典经济学假设经济主体具有

浏览 0 更新 2026-01-11

学习 (Learning)

学习 (Learning) 是指个体或系统通过经验、观察或教学获取知识、技能或行为模式的过程。在经济学中，学习被广泛理解为经济主体在不确定条件下，根据已有信息更新信念、优化决策的动态过程。它在博弈论、行为经济学、信息经济学和宏观经济学中均扮演着基础性角色。

经济学中的学习：从理性到适应

传统新古典经济学假设经济主体具有完全理性，能够基于所有可得信息进行最优化决策。然而，现实中的人类决策往往受到认知资源与信息约束的限制。学习理论为这一矛盾提供了弥合机制：即使主体初始并非完全理性，也可以通过反复观察与反馈逐步逼近最优行为。

经济学中的学习模型大致可分为两类：贝叶斯学习 (Bayesian Learning) 与 适应性学习 (Adaptive Learning)。

贝叶斯学习

贝叶斯学习建立在贝叶斯定理的基础上。设经济主体对某一未知参数 $\theta$ （如通货膨胀率、产品质量）持有先验信念 $p(\theta)$ 。在观察到新数据 $x$ 后，按照贝叶斯规则更新为后验信念：

p(\theta \mid x) = \frac{p(x \mid \theta) \, p(\theta)}{p(x)}

在理性预期框架中，贝叶斯学习被视为主体形成预期的基础机制。当观测数据足够多时，后验分布将集中到真实的 $\theta$ 值附近，从而实现渐进的理性学习。这一过程在信息级联 (Information Cascade) 和社会学习模型中尤为重要：当个体观察前人的决策而非私人信号时，可能导致群体层面的信息效率损失。

适应性学习

适应性学习则不假设主体具有完整的贝叶斯理性，而是认为主体通过简单规则（如梯度下降、遗传算法、增强学习）逐步调整行为。代表性模型包括：

强化学习 (Reinforcement Learning)：主体根据行动获得的奖励反馈调整策略选择概率。最基础的模型是 Bush-Mosteller 模型和 Erev-Roth 模型，其中主体以正比于累积收益的概率选择各行动。
信念学习 (Belief Learning)：主体根据对对手未来行为的信念做出最优反应。Cournot 调整是经典的信念学习过程：企业依次选择产量，每次均假设对手保持上一期产量不变。
经验加权吸引力学习 (Experience-Weighted Attraction, EWA)：由 Camerer 和 Ho (1999) 提出的综合模型，将强化学习与信念学习统一在一个框架中，通过参数 $\delta$ 控制经验权重。

适应性学习的一个核心结论是：即使主体使用简单的调整规则，只要规则满足一定的稳定性条件，长期中仍可能收敛到纳什均衡或理性预期均衡。

博弈论中的学习

在博弈论中，学习是解释均衡如何从非均衡行为中涌现的关键机制。虚拟博弈 (Fictitious Play) 是最经典的学习模型：每个玩家假设对手使用固定的混合策略，该策略等于对手过去行动的频率分布，从而玩家在每一期选择对对手频率的最优反应。当各玩家的策略频率收敛时，由此确定的混合策略组合构成纳什均衡。

此外，后悔最小化 (Regret Minimization) 和 校准学习 (Calibrated Learning) 为无理性前提下的长期均衡提供了一般性条件。Hart 和 Mas-Colell (2000) 证明了无后悔学习过程能够收敛到相关均衡。而 Foster 和 Vohra (1997) 的校准学习则表明，即使面对高度不确定的环境，主体也可以通过恰当的预测规则实现最优决策。

宏观经济学中的学习

在宏观经济学中，学习机制是理性预期假说的重要替代或补充。自适应性预期 (Adaptive Expectations) 是最早被引入宏观模型的学习规则：

\pi_{t|t-1}^e = \pi_{t-1|t-2}^e + \lambda (\pi_{t-1} - \pi_{t-1|t-2}^e), \quad 0 < \lambda \leq 1

其中 $\pi_{t|t-1}^e$ 为对 $t$ 期通货膨胀的事前预期， $\lambda$ 为学习速度。

Evans 和 Honkapohja (2001) 的 理性学习 文献将学习引入 DSGE 模型，考察主体在不知晓真实经济结构的情况下，如何通过递归估计逐步学习模型参数。这一方法在评估货币政策传导机制和财政政策的预期效应中产生了广泛影响。

一个著名的结论是：学习可能成为经济波动的内在源泉。当主体从有限的数据中学习时，预期误差的持续性可能导致实际变量对均衡路径的持久偏离——即所谓 学习驱动周期 (Learning-driven Cycles)。

行为经济学与学习偏差

行为经济学揭示了人类学习过程中的系统性偏差：

过度自信 (Overconfidence)：主体高估自身知识或预测的准确性，导致对新信息的权重不足。
确认偏差 (Confirmation Bias)：人们倾向于记忆和重视支持既有信念的信息，忽视或贬低反驳证据，形成自我强化的信念更新。
后见之明偏差 (Hindsight Bias)：事件发生后，主体夸大其"早已知晓"的概率，阻碍从经验中有效学习。

上述偏差在金融市场中尤为突出。例如，处置效应 (Disposition Effect)——投资者过早出售盈利资产而长期持有亏损资产——可部分归因于偏差化的学习过程。行为金融学的诸多异常现象，如动量效应和反转效应，均可通过带有偏差的学习模型加以解释。

机器学习与计量经济学的融合

近年来，机器学习 (Machine Learning) 方法的快速发展深刻改变了经济学对学习的理解。与传统的计量经济学强调参数一致性和推断有效性不同，机器学习侧重于预测精度和高维环境下的泛化能力。LASSO 回归、随机森林、神经网络和强化学习等方法已被广泛应用于因果推断、需求估计和最优政策设计。

在结构估计中，深度学习通过近似高维值函数或政策函数，突破了传统数值方法的维度诅咒。在机制设计领域，Dütting 等 (2019) 使用神经网络学习最优拍卖机制，在复杂度与效率之间取得了良好的平衡。这些发展表明，经济学与机器学习正在走向一种双向交互：经济学为学习算法提供结构化的决策理论框架，而机器学习则为经济学提供大规模数据处理与函数逼近的工具。

总结

学习是将经济理性从静态假设转化为动态过程的核心概念。从贝叶斯更新到强化学习，从宏观经济预期到微观主体的行为调整，学习理论不仅丰富了经济学对人类决策的理解，也为政策设计和制度安排提供了重要的洞见。随着数据技术的进步和计算能力的提升，学习在经济学中的应用边界仍将持续扩展。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。