Preface

3.1-3.4部分内容在[RL1-Basic concepts]中

3.5-end部分内容在[RL2-Bellman Equation] && [RL3-Bellman Optimality Equation]中

本章主要记录补充内容

3. Finite Markov Decision Processes

3.1 The Agent-Environment Interface

3.2 Target and Rewards

It is “Goal and Rewards” in original book, but I prefer “Target”

All of what we mean by “goal” and “purposes” can be well thought of as: The maximization of the expected value of the cumulative sum of a received scalar signal (called reward).

最大化智能体接收到的标量信号(称之为收益)累积和的概率期望值

使用收益信号来形式化目标是强化学习最显著的特征之一

  • Specificly
    • reward signal不是prior knowledge

3.3 Returns and Episodes

We seek to maximize the ==expected return==

引入discount return

Generally,定义$G_T = 0$,上式适用于$\forall t < T$

一般来说,在计算$G_t$时,从$G_T$开始,从后往前计算

3.4 Unified Notation for Episodes and Continuing Tasks

  • 对于有限步数的任务
    • 把终止状态定义为自循环,到此为止之后的reward为0
    • 把终止状态定义为普通状态,有其他的转移方向(Shiyu Zhao的作法)

3.5 Policies and Value Fuctions

Sutton书中主要使用四参数表达式,来描述BE && BOE

  • $v_\pi$表示$v_\pi$
  • $v_\pi$表示$q_\pi$
  • $q_\pi$表示$v_\pi$
  • $q_\pi$表示$q_\pi$

Exercise 3.14 && 3.15

  1. 收益值的相对大小重要,符号不重要
  2. 在持续性任务中,对每一个收益值加上常数$c$,即对每个状态价值都加一个常数$v_c$,在给定$c, \gamma$的前提下,$G_t \mapsto G_t + \frac{c}{1 - \gamma}$,此时任何状态之间的相对价值不受影响
  3. 在episodic任务中,每个收益都加上常数$c$,具体的影响要分情况讨论

3.6 Optimal Policies and Optimal Value Functions

四参数表达式

  • $v_$表示$v_$
  • $v_$表示$q_$
  • $q_$表示$v_$
  • $q_$表示$q_$
  • $q_$表示$\pi_$
  • $v_$表示$\pi_$

对于$v_*$:

  • 所有贪心动作,都是最优策略,并且是长期的最优策略

局限性:

  • 准确的环境动态信息
  • 足够的计算资源
  • 马尔可夫性

  • 非折扣形式:适用于episodic task

  • 折扣形式:适用于continueing task