Preface

3.1-3.4部分内容在[RL1-Basic concepts]中

3.5-end部分内容在[RL2-Bellman Equation] && [RL3-Bellman Optimality Equation]中

本章主要记录补充内容

3. Finite Markov Decision Processes

3.1 The Agent-Environment Interface

3.2 Target and Rewards

It is “Goal and Rewards” in original book, but I prefer “Target”

All of what we mean by “goal” and “purposes” can be well thought of as: The maximization of the expected value of the cumulative sum of a received scalar signal (called reward).

最大化智能体接收到的标量信号（称之为收益）累积和的概率期望值

使用收益信号来形式化目标是强化学习最显著的特征之一

Specificly
- reward signal不是prior knowledge

3.3 Returns and Episodes

We seek to maximize the ==expected return==

$G_t \dot{=} R_{t + 1} + R_{t + 2} + R_{t + 3} + \cdots + R_{T}$

引入discount return

$\begin{aligned} G_t & \dot{=} R_{t + 1} + \gamma R_{t + 2} +\gamma^2 R_{t + 3} + \cdots = \sum^{\infty}_{k = 0} \gamma^k R_{t + k + 1} \\ & = R_{t + 1} + \gamma G_{t + 1} \\ & = \sum^{\infty}_{k = t + 1} \gamma^{k - t- 1} R_k \end{aligned}$

Generally，定义$G_T = 0$，上式适用于$\forall t < T$

一般来说，在计算$G_t$时，从$G_T$开始，从后往前计算

3.4 Unified Notation for Episodes and Continuing Tasks

对于有限步数的任务
- 把终止状态定义为自循环，到此为止之后的reward为0
- 把终止状态定义为普通状态，有其他的转移方向（Shiyu Zhao的作法）

3.5 Policies and Value Fuctions

Sutton书中主要使用四参数表达式，来描述BE && BOE

$v_\pi$表示$v_\pi$

$v_\pi(s) = \sum_a \pi(a \mid s) \sum_{s^\prime,r} p(s^\prime, r \mid s, a)[r + \gamma v_\pi(s^\prime)], \forall s \in \mathcal{S}$

$v_\pi$表示$q_\pi$

$q_\pi(s, a) = \sum_{s^\prime,r} p(s^\prime, r \mid s, a)[r + \gamma v_\pi(s^\prime)], \forall s \in \mathcal{S}$

$q_\pi$表示$v_\pi$

$v_\pi(s) = \sum_r \pi(a \mid s) q_\pi(s, a)$

$q_\pi$表示$q_\pi$

$q_\pi = \sum_{s^\prime, r} p(s^\prime, r \mid s, a)[r + \gamma \sum_{a^\prime}\pi(a^\prime \mid s^\prime) q_\pi(s^\prime, a^\prime)]$

Exercise 3.14 && 3.15

收益值的相对大小重要，符号不重要

在持续性任务中，对每一个收益值加上常数$c$，即对每个状态价值都加一个常数$v_c$，在给定$c, \gamma$的前提下，$G_t \mapsto G_t + \frac{c}{1 - \gamma}$，此时任何状态之间的相对价值不受影响

在episodic任务中，每个收益都加上常数$c$，具体的影响要分情况讨论

3.6 Optimal Policies and Optimal Value Functions

四参数表达式

$v_$表示$v_$

$v_*(s) = \max_a \sum_{s^\prime, r} p(s^\prime, r \mid s, a)[r + \gamma v_*(s^\prime)]$

$v_$表示$q_$

$q_*(s, a) = \sum_{s^\prime, r} p(s^\prime, r \mid s, a)[r + \gamma v_*(s^\prime)]$

$q_$表示$v_$

$v_*(s) = \sum_a \pi^*(a \mid s) q_*(s, a)$

$q_$表示$q_$

$q_*(s, a) = \sum_{s^\prime, r} p(s^\prime, r \mid s, a)[r + \gamma \max_a q_*(s^\prime, a^\prime)]$

$q_$表示$\pi_$

$\pi_*(a \mid s)=\frac{\mathbb{1}\left\{a=\operatorname{argmax}_{a^{\prime}} q_*\left(a^{\prime}, s\right)\right\}}{\sum_a \mathbb{1}\left\{a=\operatorname{argmax}_{a^{\prime}} q_*\left(a^{\prime}, s\right)\right\}}$

$v_$表示$\pi_$

$\pi_*(a \mid s) = \frac{ \mathbb{1} \left\{ a = \arg\max_{a^\prime} \sum_{s^\prime, r} p(s^\prime, r \mid s, a)[r + \gamma v_*(s^\prime)] \right\} } {\sum_a \mathbb{1} \left\{ a = \arg\max_{a^\prime} \sum_{s^\prime, r} p(s^\prime, r \mid s, a)[r + \gamma v_*(s^\prime)] \right\}}$

对于$v_*$：

所有贪心动作，都是最优策略，并且是长期的最优策略

局限性：

准确的环境动态信息

足够的计算资源

马尔可夫性

非折扣形式：适用于episodic task

折扣形式：适用于continueing task