首页
/ NeuromatchAcademy课程内容:多臂选择器与强化学习基础

NeuromatchAcademy课程内容:多臂选择器与强化学习基础

2025-07-10 08:05:38作者:丁柯新Fawn

多臂选择器问题与强化学习基础

本文将介绍NeuromatchAcademy课程中关于强化学习基础的一个重要概念——多臂选择器问题(Multi-Armed Selector, MAS)。这是强化学习中最简单但极具代表性的问题,能够帮助我们理解智能体如何在探索与利用之间做出权衡。

多臂选择器问题简介

想象你面前有多个选择器(即"臂"),每个选择器的奖励概率分布不同。你的目标是通过一系列尝试,找到能带来最高期望奖励的选择器。这就是经典的多臂选择器问题。

在技术实现上,我们设定:

  • 每个动作a对应一个奖励值q(a),即期望奖励
  • 奖励服从高斯分布N(μ,1),其中μ是每个动作的潜在均值
  • 智能体不知道真实的μ值,需要通过尝试来学习

策略设计:探索与利用的平衡

智能体需要制定一个策略(policy)来决定每次选择哪个动作。最简单的策略是:

  1. 贪婪策略(Greedy Policy):总是选择当前估计值最高的动作

    • 优点:最大化即时回报
    • 缺点:容易陷入局部最优,可能错过更好的选择
  2. ε-贪婪策略(ε-Greedy Policy):以1-ε概率选择最优动作,以ε概率随机探索

    • 平衡了探索与利用
    • ε控制探索程度

ε-贪婪策略实现

def epsilon_greedy(q, epsilon):
    """ε-贪婪策略实现"""
    if np.random.random() > epsilon:
        # 利用:选择当前最优动作
        return np.argmax(q)
    else:
        # 探索:随机选择动作
        return np.random.choice(len(q))

实验结果分析

当我们测试不同ε值时,可以观察到:

  1. ε=0(纯贪婪策略):

    • 快速收敛到一个动作
    • 可能错过真正的最优动作
    • 总奖励通常较低
  2. ε=0.1(适度探索):

    • 仍主要选择最优动作
    • 保持一定探索概率
    • 通常能发现真正的最优动作
    • 总奖励较高
  3. ε=0.5(强探索):

    • 频繁随机选择
    • 能发现最优动作但利用不足
    • 总奖励中等

学习过程与价值更新

智能体需要通过获得的奖励来更新对各动作价值的估计。常用更新规则为:

Qₙ₊₁ = Qₙ + α(Rₙ - Qₙ)

其中:

  • α是学习率
  • Rₙ是第n次获得的实际奖励
  • Qₙ是第n次的估值

这种更新方式能逐步修正对每个动作价值的估计。

实际应用与扩展

多臂选择器问题虽然简单,但其核心思想广泛应用于:

  • 在线广告投放
  • 医疗试验设计
  • 推荐系统
  • 网络路由选择

理解这一基础问题对掌握更复杂的强化学习算法至关重要。后续可以扩展考虑:

  • 非平稳环境(奖励分布随时间变化)
  • 上下文选择器(加入状态信息)
  • 贝叶斯方法等更复杂的估计方式

通过本教程,我们建立了强化学习中最基础但核心的概念框架,为理解更复杂的RL算法奠定了基础。