2. Multi-armed Bandits

2.1 A $k$-armed Bandit Problem

  • Exploiting
  • Exploring

We care only about balancing them at all.

我们更关心要不要去平衡exploiting && exploring

2.2 Action-value Methods

2.2.1 sample-average

Natural way:计算实际收益的平均值,估计动作的价值

  • $\text { sum of rewards when } a \text { taken prior to } t$:$t$时刻前通过执行动作$a$得到的收益总和

  • $\text{ number of times } a \text{ taken prior to } t$:$t$时刻前执行动作$a$的次数

  • $\mathbb{ 1 }_{ \text { predicate } }$:随机变量,predicate为真时取1,反之为0

分母为0时直接定义为$ Q_t( a ) = 0$

  • By the law of large number,分母趋于$\infin$,$Q_t( a )$收敛到$q_*( a )$

Which is called ==sample-average==.

2.2.2 $\varepsilon - $Greedy

优点:

  • 足够长的采样中,每个动作都会被无限次采样
  • 选择最优动作的概率收敛到大于$1 - \varepsilon$,接近确定性选择

为什么大于?(get)

  • 在每一步的选择中:
    • 每个动作被选择的概率为$\varepsilon / |A|$
    • 选择某个贪心动作的概率为$1 - \varepsilon$
      • 即某个贪心策略被选中的概率为$1 - \varepsilon + \varepsilon / |A|$

2.3 The 10-armed Testbed

  • Reduce $\varepsilon$ over time to get the best of both high and low values
  • $\varepsilon - $greedy对于greedy的优势与任务有关
    • 对于一个确定性任务,greedy更好
    • 对于非确定性、非平稳的任务,显然$\varepsilon - $greedy更好

2.4 Incremental Implementation

  • General form
  • $\text{[ Target - Old Estimate]}$:error in the estimate
  • $\text{Target}$:“目标”,存在噪声
  • $\text{StepSize}$:Change from time step to time step. Action $a$ 对应的第$n$个收益的步长为$\frac{1}{n}$,将步长记为$\alpha_t(a)$
Simple bandit algorithm
Initialize, for $a = 1$ to $k$:
$Q(a) \leftarrow 0$
$N(a) \leftarrow 0$
Loop forever:
$A \leftarrow\left\{\begin{array}{lll}\operatorname{argmax}_a Q(a) & \text { with probability } 1-\varepsilon & \text { (breaking ties randomly) } \\ \text { a random action } & \text { with probability } \varepsilon \end{array}\right.$
$R \leftarrow bandit(A)$
$N(A) \leftarrow N(A) + 1$
$Q(A) \leftarrow Q(A) + \frac{1}{N(A)}[R - Q(A)]$

2.5 Tracking a Nonstationary Problem

对于非平稳问题,give more weight to recent rewards than to long-past rewards.

  • Most popular way:use a constant step-size parameter
  • 对于公式(2):

此时$Q_{n + 1}$成为过去收益 && 初始估计值$Q_1$的加权平均

加权和为$(1 - \alpha)^n + \sum^n_{i = 1}{\alpha(1 - \alpha)^{n - i}} = 1$

  • 权值递减
  • 如果$\alpha = 1$,则所有加权都赋值给$R_n$
  • 如果$\alpha_t(a) = \frac{1}{n}$就是采样平均法

==Stochastic approximation==: $\alpha_t(a)$必须满足以下条件,才能保证$Q_n$收敛到真值

  • 条件1:保证有足够大的步长,最终克服任何初始条件和随机波动
  • 条件2:步长最终变小,保证收敛
  • $\alpha_t(a) = \frac{1}{n}$满足两个条件
    • 收敛很慢,需要大量调试,在理论中常用,在实际应用中很少
  • 常数步长$\alpha$不满足
    • 即永远无法完全收敛,而是随着近期收益变化(这正是非平稳环境的需要

Exercise 2.4:

2.6 Optimistic Initial Values

An useful trick!

从统计学的角度来说,选择的初始值$Q_0$都是有偏的

  • 如果选择采样平均法,当所有动作都被至少选择一次之后,偏差消失
  • 对于常数步长$\alpha$来说,偏差只会减小,不会消失

初始action-value的选择,提供了一种试探方式

假设在10-armed平台中,设置所有的初始值都为$+5$,而$q_*(a)$是按照正态分布选择的,因此无论选择哪个,reward都会小于当前收益,所以会转向其他动作

在平稳问题中很有效,只有暂时的试探驱动力。实际上,所有关注初始值的方法,对非平稳问题的效果很一般。

2.7 Upper-Confidence-Bound Action Selection

UCB置信上界

2.8 Gradient Bandit Algorithms

2.9 Associative Search(Contextual Bandits)

2.10 Summary

  • Greedy:exploiting && exploring,在控制问题中对应的是辨识(或估计)与控制之间的冲突,称为对偶控制问题,即在控制具有不确定性的系统时,需要同时解决辨识和控制两个问题
  • Gradient