2-贝尔曼公式

第2课-贝尔曼公式（例子说明Return的重要性）_哔哩哔哩_bilibili

摘要

本节将重点介绍一个核心概念和一个重要工具，它们都是强化学习重要的基础内容.

核心概念: state value (状态值). 用于衡量一个policy的好坏，越好的policy对应的state value相对越大.
基本工具: the Bellman equation (贝尔曼方程). 用于分析state value，描述所有的state value间的关系。解贝尔曼方程就可以获得这些state values，这一过程也被称为policy evaluation (策略评估).

回顾: return (回报)

关于回报 (return)

在介绍state value前，我们首先回顾一个相似的概念：return (回报)。因为return也可以用以衡量一个policy的好坏.

Q1: 为什么回报 (return) 很重要? A1: 回报可以评估一个策略。这是将我们对一个策略好坏的直觉 (intuition) 进行数学化的重要定量工具。只有量化了一个policy我们才能不断改进策略。

Q2: 如何计算回报 (return)? A2:

根据定义: 不断累和，即将此policy实施过程中所有 (discounted) reward加和.
自举法 (Bootstrapping) ¹: 当前state的return依赖于其他state的return，最后循环回到自身。这样将所有的state组合起来就可以通过矩阵形式求解 (也就可以得到一般的 Bellman equation)。

图 1: 一个计算奖励的说明性示例

如图1所示，如果根据定义，就会得到：

v_{1} v_{2} v_{3} v_{4} = r_{1} + γ r_{2} + γ^{2} r_{3} + \dots, = r_{2} + γ r_{3} + γ^{2} r_{4} + \dots, = r_{3} + γ r_{4} + γ^{2} r_{1} + \dots, = r_{4} + γ r_{1} + γ^{2} r_{2} + \dots .

其中 $γ$ 为discounted rate (折扣率)。

但是可以发现，实际上 $v_{1}$ 会依赖于下一个state的reward $v_{2}$ ，依此类推，就可以得到如下系统：

v_{1} v_{2} v_{3} v_{4} = r_{1} + γ (r_{2} + γ r_{3} + \dots) = r_{1} + γ v_{2}, = r_{2} + γ (r_{3} + γ r_{4} + \dots) = r_{2} + γ v_{3}, = r_{3} + γ (r_{4} + γ r_{1} + \dots) = r_{3} + γ v_{4}, = r_{4} + γ (r_{1} + γ r_{2} + \dots) = r_{4} + γ v_{1} .

虽然看似每个量间都相互关联构成循环，因此不可解，但是实际上如果写成如下线性的矩阵-向量方程 (linear matrix-vector equation) 就可以看出只需求逆矩阵即可：

v v_{1} v_{2} v_{3} v_{4} = r r_{1} r_{2} r_{3} r_{4} + γ v_{2} γ v_{3} γ v_{4} γ v_{1} = r r_{1} r_{2} r_{3} r_{4} + γ P 0001100001000010 v v_{1} v_{2} v_{3} v_{4}

v = r + γ P v \Rightarrow v = (I - γ P)^{- 1} r

状态值 (State Value)

从上述关于return的回顾中可以看到return已经可以度量一个policy的好坏了，那么为什么还需要再提出state value的概念呢？–原因在于return只能计算确定的trajectory，无法融入随机性 (stochastic)。例如下图2的例子，在初始点 $s_{1}$ ，此policy有 $p_{1}$ 概率向右，有 $p_{2}$ 概率向下 ( $p_{1} + p_{2} = 1$ )，因此一个简单的想法就是取均值（期望）：

v_{1} = p_{1} (r_{11} + γ r_{2} + γ^{2} r_{3} + γ^{3} r_{3} + \dots) + p_{2} (r_{12} + γ r_{4} + γ^{2} r_{3} + γ^{3} r_{3} + \dots), p_{1} + p_{2} = 1 = p_{1} (r_{11} + γ r_{2}) + p_{2} (r_{22} + γ r_{4}) + r_{3} (γ^{2} + γ^{3} + \dots)

图 2: 一个计算状态值的说明性示例

下面我们形式化地将随机性引入计算过程中，进而介绍state value.

在agent每执行一次动作时，都会相应地到达下一个state并获得一个 (只与当前state和action有关的) reward，也就得到了如下 单步过程:

S_{t} A_{t} R_{t + 1}, S_{t + 1}

其中t是为引入时序性，大写字母是表示随机变量 (random variables)，引入随机性.

$A_{t}$ 由 $π (A_{t} = a ∣ S_{t} = s)$ 决定，即某state采取某action的概率
$S_{t} A_{t} R_{t + 1}$ 由 $p (R_{t + 1} = r ∣ S_{t} = s, A_{t} = a)$ 决定，表示第t-state采取某action后获得某reward的概率
$S_{t} A_{t} S_{t + 1}$ 由 $p (S_{t + 1} = s^{'} ∣ S_{t} = s, A_{t} = a)$ 决定，表示第t-state采取某action后获得变成某state的概率

自然地就可以延伸至如下多步/状态-动作-奖励 (随机) 轨迹:

S_{t} A_{t} R_{t + 1}, S_{t + 1} A_{t + 1} R_{t + 2}, S_{t + 2} A_{t + 2} R_{t + 3}, \dots

如此可以计算随机折扣回报 (random discounted return):

G_{t} = R_{t + 1} + γ R_{t + 2} + γ^{2} R_{t + 3} + \dots

⋆状态值 (State value): 定义为 $G_{t}$ 的期望 (expectation / expected value / mean)，全称状态-值函数 (state-value function):

v_{π} (s) ≜ E [G_{t} ∣ S_{t} = s]

注 1.1:

state value是states的函数，并且依赖于policy $π$
如果 $v_{π} (s)$ 更大，那么说明对于该state此policy较好
state value不依赖于时间步t，当policy给定后，各个state的state value也就确定了

状态值 vs. 回报

Q: 回报 (return) 和状态值 (state value) 之间有什么关系？ A:

state value是所有情况下的return求和后 $G_{t}$ 的期望；return仅针对一个单独的trajectory，而state value需要考虑全部可能的trajectory.
当没有随机性时，即只有一条确定性的trajectory时，return的累和 $G_{t}$ 就与state value相同.
可以看出使用state value作为评判policy好坏较使用return是更好的.

贝尔曼方程 (Bellman Equation)

下面开始介绍重要工具Bellman equation。总的来说，Bellman equation是一组描述所有state values之间关系的方程。解出了Bellman equation也就可以得到相应policy的各state values，进而可以评价该policy。

对于一个state-action-reward trajectory: $S_{t} A_{t} R_{t + 1}, S_{t + 1} A_{t + 1} R_{t + 2}, S_{t + 2} A_{t + 2} R_{t + 3}, \dots$

Discounted return可以写为:

G_{t} = R_{t + 1} + γ R_{t + 2} + γ^{2} R_{t + 3} + \dots = immediate reward R_{t + 1} + γ \cdot future reward G_{t + 1}

进而根据定义，states的state value可以写为：

v_{π} (s) = E [G_{t} ∣ S_{t} = s] = E [R_{t + 1} + γ G_{t + 1} ∣ S_{t} = s] = E [R_{t + 1} ∣ S_{t} = s] + γ E [G_{t + 1} ∣ S_{t} = s]

其中第一项为立即奖励的均值 (mean of immediate rewards)，为：

E [R_{t + 1} ∣ S_{t} = s] = a \in A (s) \sum π (a ∣ s) E [R_{t + 1} ∣ S_{t} = s, A_{t} = a] = a \in A (s) \sum π (a ∣ s) r \in R (s, a) \sum p (r ∣ s, a) \cdot r

其中第一个等号使用了双重期望定理 (law of total expectation)，第二个等式是期望的定义。

第二项为未来奖励的均值 (mean of future rewards)，为：

E [G_{t + 1} ∣ S_{t} = s] law of total expectation s^{'} \in S \sum E [G_{t + 1} ∣ S_{t} = s, S_{t + 1} = s^{'}] p (s^{'} ∣ s) Markov decision process property s^{'} \in S \sum E [G_{t + 1} ∣ S_{t + 1} = s^{'}] p (s^{'} ∣ s) = s^{'} \in S \sum v_{π} (s^{'}) p (s^{'} ∣ s) law of total expectation s^{'} \in S \sum v_{π} (s^{'}) a \in A (s) \sum p (s^{'} ∣ s, a) π (a ∣ s)

将分解式(11)(12)代回式(10)中就可以得到如下的Bellman Equation²:

v_{π} (s) = E [R_{t + 1} ∣ S_{t} = s] + γ E [G_{t + 1} ∣ S_{t} = s] = mean of immediate rewards a \in A (s) \sum π (a ∣ s) r \in R (s, a) \sum p (r ∣ s, a) r + γ mean of future rewards a \in A (s) \sum π (a ∣ s) s^{'} \in S \sum p (s^{'} ∣ s, a) v_{π} (s^{'}) = a \in A (s) \sum π (a ∣ s) r \in R (s, a) \sum p (r ∣ s, a) r + γ s^{'} \in S \sum p (s^{'} ∣ s, a) v_{π} (s^{'}), \forall s \in S

小结

Bellman equation描述了不同state的state-value function间的关系
Bellman equation看似陷入循环、不可解，但其是一族方程，其包含了状态空间 $S$ 中全部state，共 $∣ S ∣$ 个方程，求解方法就是前面介绍的Bootstrapping
$π (a ∣ s)$ 是一个给定的policy，求解Bellman equation可以得到相应的state value。因此求解Bellman equation也被称为policy evalution (策略评估)，即评价一个policy的好坏
$p (r ∣ s, a)$ 和 $p (s^{'} ∣ s, a)$ 表示系统的模型，称为dynamic model / environment model (动态模型/环境模型)，这个model有时已知有时未知，后续会介绍未知情形下如何进行policy evaluation.
根据全概率公式 (law of total probability) $p (s^{'} ∣ s, a) = r \in R \sum p (s^{'}, r ∣ s, a), p (r ∣ s, a) = s^{'} \in S \sum p (s^{'}, r ∣ s, a) .$ Bellman equation (13)也等价地可以写为： $v_{π} (s) = a \in A (s) \sum π (a ∣ s) s^{'} \in S \sum r \in R \sum p (s^{'}, r ∣ s, a) [r + γ v_{π} (s^{'})]$
如果在某些问题中reward只与 $s^{'}$ 相关，那么上述bellman equation又可以进一步写为 $v_{π} (s) = a \in A \sum π (a ∣ s) s^{'} \in S \sum p (s^{'} ∣ s, a) [r (s^{'}) + γ v_{π} (s^{'})]$

贝尔曼方程 – 矩阵-向量形式

之前介绍的Bellman equation (13)实际上是其elementwise form，共有 $∣ S ∣$ 个公式，无法单独求解，但是将他们组合起来就可以得到一组线性方程，即求解一个线性方程组，也就是matrix-vector form。

首先为书写方便，将式(13)改写为：

v_{π} (s) = r_{π} (s) + γ s^{'} \sum p_{π} (s^{'} ∣ s) v_{π} (s^{'})

其中 $r_{π} (s)$ 为average of immediate reward (立即回报的平均值)， $p_{π} (s^{'} ∣ s)$ 为在policy $π$ 下state由 $s$ 转变为 $s^{'}$ 的概率：

r_{π} (s) ≜ a \sum π (a ∣ s) r \sum p (r ∣ s, a) r

p_{π} (s^{'} ∣ s) ≜ a \sum π (a ∣ s) p (s^{'} ∣ s, a)

对于n个状态的状态空间 $S = {s_{1}, s_{2}, \dots, s_{n}}$ ，n个Bellman equation可写为：

v_{π} (s_{i}) = r_{π} (s_{i}) + γ s_{j} \sum p_{π} (s_{j} ∣ s_{i}) v_{π} (s_{j}), i = 1, 2, ..., n

写成matrix-vector form就是：

v_{π} = r_{π} + γ P_{π} v_{π}

其中

$v_{π} = [v_{π} (s_{1}), \dots, v_{π} (s_{n})]^{T} \in R^{n}$
$r_{π} = [r_{π} (s_{1}), \dots, r_{π} (s_{n})]^{T} \in R^{n}$
$P_{π} \in R^{n \times n}$ ，其中 $[P_{π}]_{ij} = p_{π} (s_{j} ∣ s_{i})$ ，为状态转移矩阵 (state transition matrix)

写成矩阵形式就是

v_{π} v_{π} (s_{1}) v_{π} (s_{2}) ⋮ v_{π} (s_{n}) = r_{π} r_{π} (s_{1}) r_{π} (s_{2}) ⋮ r_{π} (s_{n}) + γ P_{π} p_{π} (s_{1} ∣ s_{1}) p_{π} (s_{1} ∣ s_{2}) ⋮ p_{π} (s_{1} ∣ s_{n}) \dots \dots ⋱ \dots p_{π} (s_{n - 1} ∣ s_{1}) p_{π} (s_{n - 1} ∣ s_{2}) ⋮ p_{π} (s_{n - 1} ∣ s_{n}) p_{π} (s_{n} ∣ s_{1}) p_{π} (s_{n} ∣ s_{2}) ⋮ p_{π} (s_{n} ∣ s_{n}) v_{π} v_{π} (s_{1}) v_{π} (s_{2}) ⋮ v_{π} (s_{n})

矩阵 $P_{π}$ 有如下两个特点：

所有元素非负。因为显然概率 $0 \leq [P_{π}]_{ij} = p_{π} (s_{j} ∣ s_{i}) \leq 1$
行和为1，即 $P_{π} 1 = 1$ ，其中 $1 = [1, 1, \dots, 1]^{T}$ 。因为 $\sum_{j} p_{π} (s_{j} ∣ s_{i}) = 1$

贝尔曼方程: 求解状态值

第一种求解方式就是直接求其闭式解 (closed-form solution)，为
$v_{π} = (I - γ P_{π})^{- 1} r_{π}$
虽然此解数学形式直接，但是实际中大规模矩阵求逆矩阵很困难，仍然需要使用特殊的数值方法（且仍然难以求解）。

矩阵 $I - γ P_{π}$ 实际上有如下性质：
1. $I - γ P_{π}$ 可逆。证明需要使用Gershgorin circle theorem，详见附录A。
2. $(I - γ P_{π})^{- 1} \geq I$ 。因为 $(I - γ P_{π})^{- 1} = I + γ P_{π} + γ^{2} P_{π}^{2} + \dots \geq I \geq 0$ .
3. $(I - γ P_{π})^{- 1} r \geq r \geq 0, \forall r \geq 0$ 。因为直接利用性质2即可.
第二种方法是迭代法找其迭代解 (iterative solution)：
$v_{k + 1} = r_{π} + γ P_{π} v_{k}, k = 0, 1, 2, \dots$
最终可以证明³ (证明过程详见附录A)
$v_{k} k \to \infty v_{π} = (I - γ P_{π})^{- 1} r_{π}$

注 2.1:

计算state value可以评价一个policy好不好
不同的policy也可以得到相同的state value

动作值 (Action Value)

Action value也是强化学习中的一个重要概念，放在这里才提出是因为其定义需要和state value相联系。Action value是指在某state下采取相应的某action后能够获得的平均回报 (average return)，即

q_{π} (s, a) ≜ E [G_{t} ∣ S_{t} = s, A_{t} = a]

$q_{π} (s, a)$ 是state-action pair $(s, a)$ 的函数，而不仅依赖于action
$q_{π} (s, a)$ 依赖于policy $π$

State value与Action value辨析

state value 是指一个agent从一个state出发能得到的average return，定义为 $v_{π} (s) = E [G_{t} ∣ S_{t} = s]$
action value 是指一个agent从一个state出发并且做出一个action后能得到的average return，定义为 $q_{π} (s, a) ≜ E [G_{t} ∣ S_{t} = s, A_{t} = a]$

由于

v_{π} (s) E [G_{t} ∣ S_{t} = s] = a \sum q_{π} (s, a) E [G_{t} ∣ S_{t} = s, A_{t} = a] π (a ∣ s) = a \sum π (a ∣ s) q_{π} (s, a) [r \sum p (r ∣ s, a) r + γ s^{'} \sum p (s^{'} ∣ s, a) v_{π} (s^{'})]

因此

v_{π} (s) = a \sum π (a ∣ s) q_{π} (s, a)

q_{π} (s, a) = r \sum p (r ∣ s, a) r + γ s^{'} \sum p (s^{'} ∣ s, a) v_{π} (s^{'})

式(21a)和(21b)就像一个硬币的两面，式(21a)说明可以从action value获得state value，式(21b)说明可以从state value获得action value。

注 3: 当一个确定性的policy中在某个state只有一个action时，其他的action产生的action value并不是0，而是也可以计算，此时的immediate reward一般为0，但是仍然有future reward。这样就可以与这个确定的action比较看是否这个action是好的.

附录A. 证明

贝尔曼方程迭代解的收敛性

$v_{k} k \to \infty v_{π} = (I - γ P_{π})^{- 1} r_{π}$

证明: 首先定义残差 $δ_{k} = v_{k} - v_{π}$ ，我们只需要证明 $δ_{k} \to 0$ 即可。将 $v_{k + 1} = δ_{k + 1} + v_{π}$ , $δ_{k} = v_{k} - v_{π}$ 代入 $v_{k + 1} = r_{π} + γ P_{π} v_{k}$ 中得到

δ_{k + 1} + v_{π} δ_{k + 1} = r_{π} + γ P_{π} (δ_{k} + v_{π}) = - v_{π} + r_{π} + γ P_{π} δ_{k} + γ P_{π} v_{π} = γ P_{π} δ_{k} - v_{π} + (r_{π} + γ P_{π} v_{π})

因为 $v_{π} = r_{π} + γ P_{π} v_{π}$ ，所以

δ_{k + 1} = γ P_{π} δ_{k}

因此有

δ_{k + 1} = γ P_{π} δ_{k} = γ^{2} P_{π}^{2} δ_{k - 1} = \dots = γ^{k + 1} P_{π}^{k + 1} δ_{0} .

已知 $0 \leq [P_{π}]_{ij} = p_{π} (s_{j} ∣ s_{i}) \leq 1$ ，因此 $0 \leq [P_{π}^{k}]_{ij} \leq 1$ ，且 $γ < 1 \Rightarrow γ^{k} \to 0$ ，从而有

δ_{k + 1} = γ^{k + 1} P_{π}^{k + 1} δ_{0} k \to \infty 0

闭式解的可逆性

$I - γ P_{π}$ 可逆

证明: 根据格尔什戈林圆盘定理，矩阵 $I - γ P_{π}$ 的所有特征值至少落在一个格尔什戈林圆盘中，其中第i个格尔什戈林圆盘中心为 $[I - γ P_{π}]_{ii} = 1 - γ p_{π} (s_{i} ∣ s_{i})$ ，半径为 $R_{i} = \sum_{j \neq = i} ∣ [I - γ P_{π}]_{ij} ∣ = \sum_{j \neq = i} γ p_{π} (s_{j} ∣ s_{i})$ 。

由于 $0 < [I - γ P_{π}]_{ii} = 1 - γ p_{π} (s_{i} ∣ s_{i}) < 1$ ， $0 < γ < 1$ ，故

[I - γ P_{π}]_{ii} - R_{i} = 1 - γ p_{π} (s_{i} ∣ s_{i}) - j \neq = i \sum γ p_{π} (s_{j} ∣ s_{i}) = 1 - γ j \sum p_{π} (s_{j} ∣ s_{i}) = 1 - γ > 0

因此所有的格尔什戈林圆盘都在复平面的右半边，不包含原点。自然地，所有的特征值都严格大于0，因此矩阵可逆。

定理 1 (格尔什戈林圆盘定理). 令 $A = [a_{ij}]$ 为 $n \times n$ 的复矩阵， $R_{i}$ 为第 $i$ 行除对角元外所有元素绝对值之和：
$R_{i} ≜ j \neq = i \sum ∣ a_{ij} ∣$
令 $D (a_{ii}, R_{i}) \subseteq C$ 表示中心为 $a_{ii}$ ，半径为 $R_{i}$ 的闭圆盘 (disc)，称之为格尔什戈林圆盘 (Gershgorin disc)。那么，A的所有特征值至少落在一个格尔什戈林圆盘 $D (a_{ii}, R_{i})$ 中。

Bootstrapping来源于统计抽样，其思想是通过一些方法作用于一个系统就可以只利用该系统本身来获取其自身信息 ↩
这是elementwise form (元素形式)的Bellman equation，下面会讲解matrix-vector form (矩阵-向量形式)的Bellman equation ↩
如果熟悉的话这其实就是一个不动点迭代的证明，使用Banach不动点定理 ↩

Quartz 4

Explorer

2-贝尔曼公式

摘要

目录:

回顾: return (回报)

关于回报 (return)

状态值 (State Value)

状态值 vs. 回报

贝尔曼方程 (Bellman Equation)

小结

贝尔曼方程 – 矩阵-向量形式

贝尔曼方程: 求解状态值

动作值 (Action Value)

State value与Action value辨析

附录A. 证明

贝尔曼方程迭代解的收敛性

闭式解的可逆性

Graph View

Table of Contents

Quartz 4

Explorer

2-贝尔曼公式

摘要

目录:

回顾: return (回报)

关于回报 (return)

状态值 (State Value)

状态值 vs. 回报

贝尔曼方程 (Bellman Equation)

小结

贝尔曼方程 – 矩阵-向量形式

贝尔曼方程: 求解状态值

动作值 (Action Value)

State value与Action value辨析

附录A. 证明

贝尔曼方程迭代解的收敛性

闭式解的可逆性

Footnotes

Graph View

Table of Contents