Preface
3.1-3.4部分内容在[RL1-Basic concepts]中
3.5-end部分内容在[RL2-Bellman Equation] && [RL3-Bellman Optimality Equation]中
本章主要记录补充内容
3. Finite Markov Decision Processes
3.1 The Agent-Environment Interface
3.2 Target and Rewards
It is “Goal and Rewards” in original book, but I prefer “Target”
All of what we mean by “goal” and “purposes” can be well thought of as: The maximization of the expected value of the cumulative sum of a received scalar signal (called reward).
最大化智能体接收到的标量信号(称之为收益)累积和的概率期望值
使用收益信号来形式化目标是强化学习最显著的特征之一
- Specificly
- reward signal不是prior knowledge
3.3 Returns and Episodes
We seek to maximize the ==expected return==
引入discount return
Generally,定义$G_T = 0$,上式适用于$\forall t < T$
一般来说,在计算$G_t$时,从$G_T$开始,从后往前计算
3.4 Unified Notation for Episodes and Continuing Tasks
- 对于有限步数的任务
- 把终止状态定义为自循环,到此为止之后的reward为0
- 把终止状态定义为普通状态,有其他的转移方向(Shiyu Zhao的作法)
3.5 Policies and Value Fuctions
Sutton书中主要使用四参数表达式,来描述BE && BOE
- $v_\pi$表示$v_\pi$
- $v_\pi$表示$q_\pi$
- $q_\pi$表示$v_\pi$
- $q_\pi$表示$q_\pi$
Exercise 3.14 && 3.15
- 收益值的相对大小重要,符号不重要
- 在持续性任务中,对每一个收益值加上常数$c$,即对每个状态价值都加一个常数$v_c$,在给定$c, \gamma$的前提下,$G_t \mapsto G_t + \frac{c}{1 - \gamma}$,此时任何状态之间的相对价值不受影响
- 在episodic任务中,每个收益都加上常数$c$,具体的影响要分情况讨论
3.6 Optimal Policies and Optimal Value Functions
四参数表达式
- $v_$表示$v_$
- $v_$表示$q_$
- $q_$表示$v_$
- $q_$表示$q_$
- $q_$表示$\pi_$
- $v_$表示$\pi_$
对于$v_*$:
- 所有贪心动作,都是最优策略,并且是长期的最优策略
局限性:
- 准确的环境动态信息
- 足够的计算资源
马尔可夫性
非折扣形式:适用于episodic task
折扣形式:适用于continueing task