NeuromatchAcademy课程内容:多臂选择器与强化学习基础
2025-07-10 08:05:38作者:丁柯新Fawn
多臂选择器问题与强化学习基础
本文将介绍NeuromatchAcademy课程中关于强化学习基础的一个重要概念——多臂选择器问题(Multi-Armed Selector, MAS)。这是强化学习中最简单但极具代表性的问题,能够帮助我们理解智能体如何在探索与利用之间做出权衡。
多臂选择器问题简介
想象你面前有多个选择器(即"臂"),每个选择器的奖励概率分布不同。你的目标是通过一系列尝试,找到能带来最高期望奖励的选择器。这就是经典的多臂选择器问题。
在技术实现上,我们设定:
- 每个动作a对应一个奖励值q(a),即期望奖励
- 奖励服从高斯分布N(μ,1),其中μ是每个动作的潜在均值
- 智能体不知道真实的μ值,需要通过尝试来学习
策略设计:探索与利用的平衡
智能体需要制定一个策略(policy)来决定每次选择哪个动作。最简单的策略是:
-
贪婪策略(Greedy Policy):总是选择当前估计值最高的动作
- 优点:最大化即时回报
- 缺点:容易陷入局部最优,可能错过更好的选择
-
ε-贪婪策略(ε-Greedy Policy):以1-ε概率选择最优动作,以ε概率随机探索
- 平衡了探索与利用
- ε控制探索程度
ε-贪婪策略实现
def epsilon_greedy(q, epsilon):
"""ε-贪婪策略实现"""
if np.random.random() > epsilon:
# 利用:选择当前最优动作
return np.argmax(q)
else:
# 探索:随机选择动作
return np.random.choice(len(q))
实验结果分析
当我们测试不同ε值时,可以观察到:
-
ε=0(纯贪婪策略):
- 快速收敛到一个动作
- 可能错过真正的最优动作
- 总奖励通常较低
-
ε=0.1(适度探索):
- 仍主要选择最优动作
- 保持一定探索概率
- 通常能发现真正的最优动作
- 总奖励较高
-
ε=0.5(强探索):
- 频繁随机选择
- 能发现最优动作但利用不足
- 总奖励中等
学习过程与价值更新
智能体需要通过获得的奖励来更新对各动作价值的估计。常用更新规则为:
Qₙ₊₁ = Qₙ + α(Rₙ - Qₙ)
其中:
- α是学习率
- Rₙ是第n次获得的实际奖励
- Qₙ是第n次的估值
这种更新方式能逐步修正对每个动作价值的估计。
实际应用与扩展
多臂选择器问题虽然简单,但其核心思想广泛应用于:
- 在线广告投放
- 医疗试验设计
- 推荐系统
- 网络路由选择
理解这一基础问题对掌握更复杂的强化学习算法至关重要。后续可以扩展考虑:
- 非平稳环境(奖励分布随时间变化)
- 上下文选择器(加入状态信息)
- 贝叶斯方法等更复杂的估计方式
通过本教程,我们建立了强化学习中最基础但核心的概念框架,为理解更复杂的RL算法奠定了基础。