3-贝尔曼最优公式

Outline

本节将介绍一个核心概念和一个重要工具：

1 core concepts: optimal state value (进而定义 Optimal Policy)
1 fundamental tool: Bellman optimality equation(BOE) (求解 optimal state value)

本节内容将回答如下问题：

什么是 optimal state, optimal policy
optimal policy 是否一定存在？若存在长什么样？
怎么求解 optimal state, optimal policy

Optimal state values and optimal policies

Optimal Policy

State value可以衡量一个policy的好坏，因此比较不同的policy需要使用state value. 首先回忆state value的定义：

v_{π} (s) = E [G_{t} ∣ S_{t} = s]

定义 1 (Better policy). 对于两个policy $π_{1}, π_{2}$ ，若他们的state value有如下关系：

v_{π_{1}} (s) ⩾ v_{π_{2}} (s), \forall s \in S

则称policy $π_{1}$ 好于 $π_{2}$ ，其中 $S$ 为state space.

定义 2 (optimal policy & optimal state value). 若policy $π^{*}$ 的state value有：

v_{π^{*}} (s) ⩾ v_{π} (s), \forall s \in S, \forall π

则称policy $π^{*}$ 为optimal policy. 称 $π^{*}$ 的state values为optimal state values.

这就产生了如下问题（都可以用贝尔曼最优公式回答）：

Existence & Uniqueness: optimal policy是否存在？若存在，是否唯一？
Stochasticity: optimal policy是确定性的(deterministic)还是随机性的(stochastic)？
Algorithm: 如何得到optimal policy和optimal state values？

Bellman optimality equation

Bellman optimality equation(BOE)

分析optimal policy和optimal state values的重要工具是Bellman optimality equation (BOE)，与Bellman equation相似，通过求解BOE就可以得到optimal policy和optimal state values.下面先回忆Bellman equation :

v_{π} (s) = mean of immediate rewards a \in A \sum π (a ∣ s) r \in R \sum p (r ∣ s, a) r + γ mean of future rewards a \in A \sum π (a ∣ s) s^{'} \in S \sum p (s^{'} ∣ s, a) v_{π} (s^{'})

= a \in A \sum π (a ∣ s) [r \in R \sum p (r ∣ s, a) r + γ s^{'} \in S \sum p (s^{'} ∣ s, a) v_{π} (s^{'})], \forall s \in S

Bellman optimality equation则是将policy $π$ 固定为最优的（取max）：

v (s) = π max a \in A \sum π (a ∣ s) (r \in R \sum p (r ∣ s, a) r + γ s^{'} \in S \sum p (s^{'} ∣ s, a) v (s^{'})), \forall s \in S

≜ π max a \in A \sum π (a ∣ s) q (s, a) (1)

式(1)是elementwise form的BOE.写成matrix-vector form就是：

v = π max (r_{π} + γ P_{π} v) (2)

[r_{π}]_{s} ≜ a \in A \sum π (a ∣ s) r \in R \sum p (r ∣ s, a) r, [P_{π}]_{s, s^{'}} ≜ p (s^{'} ∣ s) ≜ a \in A \sum π (a ∣ s) s^{'} \in S \sum p (s^{'} ∣ s, a) (3)

其中

m a x_{π} v_{π} (s_{1}) v_{π} (s_{2}) . . . v_{π} (s_{n}) π max v_{π} = max_{π} v_{π} (s_{1}) max_{π} v_{π} (s_{2}) . . . max_{π} v_{π} (s_{n})

Note 1.1.

$p (r ∣ s, a), p (s^{'} ∣ s, a)$ 作为模型均已知

$v (s), v (s^{'})$ 均为需求解的未知量

Bellman equation中policy固定，但BOE(1)中需要求解出最优policy

同样地，也产生了如下问题：

Existence & Uniqueness: BOE是否有解？若有解是否唯一？
Algorithm: 如何求解BOE？
Optimality: BOE的解与optimal policy有何关系？

Solving an optimal policy from the BOE

How to maximize the right-hand side of BOE

由式(2)可以看出，式中有两个未知量需要求解，即v和π，也就是说一个式子求两个未知量：

v = π max (r_{π} + γ P_{π} v)

解决方式是先固定住v，将其看作常量，然后对式子整体求π能让整个式子达到最大的取值，记为 $\overset{π}{^}$ ，固定之后得到方程 $v = r_{\overset{π}{^}} + γ P_{\overset{π}{^}} v$ ，即可求解得到v.

Note 2. 下面给出一个简单的例子说明求解过程，例如：
$x = a max (2 x - 1 - a^{2})$
首先固定x，显然当a= 0时整个式子才可能有最大值，那么就得到
$x = 2 x - 1 \Rightarrow x = 1$

在式(1)中，实际上会对 $v (s^{'})$ 赋予初始值，这样实际上 $q (s, a)$ 就是已知的，那么只需要确定出 $π (a ∣ s)$ 即可. 由于 $\sum_{a \in A} π (a ∣ s) = 1$ ，记 $max_{a \in A (s)} q (s, a) = q (s, a^{*})$ 由于

q (s, a^{*}) = (a \in A \sum π (a ∣ s)) \cdot q (s, a^{*}) ⩾ a \in A \sum π (a ∣ s) \cdot q (s, a)

那么实际上只需取最大的 $q (s, a)$ 即可：

π max a \in A \sum π (a ∣ s) q (s, a) = a \in A (s) max q (s, a)

π (a ∣ s) = {1, 0, a = a^{*} a \neq = a^{*}, a^{*} = ar g a max q (s, a) .

此时由于π选择了最大的q值，因此被称为greedy policy.

Solve the BOE

根据我们最大化BOE右端项的思想，我们先固定v不动，再找到能够使整个式子最大的π，最后整个式子只剩下一个变量v，此时我们将其记为

f (v) ≜ π max (r_{π} + γ P_{π} v) (4)

这样BOE就变成

v = f (v), [f (v)]_{s} = π max a \in A \sum π (a ∣ s) q (s, a), s \in S

根据压缩映射原理(Contraction Mapping Theorem) /不动点定理(Fixed Point Theorem)，对于形如 $x = f (x)$ 的方程，若f是压缩映射（见附录A），那么有如下结论：

存在唯一不动点满足 $x^{*} = f (x^{*})$ ，即方程的解是存在唯一的
算法 $x_{k + 1} = f (x_{k})$ 可以不断逼近此不动点，且以指数速率收敛

事实上，BOE中的映射f刚好是一个压缩映射，即定理1(证明见附录B).

Theorem 1 (Contraction property of f(v)). BOE中的映射f(v)是一个压缩映射， $\forall v_{1}, v_{2} \in R^{∣ S ∣}$ ，满足

∥ f (v_{1}) - f (v_{2}) ∥_{\infty} \leq γ ∥ v_{1} - v_{2} ∥_{\infty}

其中 $γ \in (0, 1)$ 为discount rate， $∥ \cdot ∥_{\infty}$ 为maximum norm(取绝对值最大者).

那么自然地就可以得到如下重要定理：

Theorem 2 (Existence, Uniqueness, and Algorithm). 对于BOE $v = f (v) = max_{π} (r_{π} + γ P_{π} v)$ ，总存在唯一解，且该解可以被如下方式迭代逼近：

v_{k + 1} = f (v_{k}) = π max (r_{π} + γ P_{π} v_{k})

且产生的序列 ${v_{k}}$ 指数收敛至不动点 $v^{*}$ ，收敛速率由 $γ$ 控制.

Policy optimality

当我们求出了最优policy $v^{*}$ 后， $v^{*}$ 显然满足

v^{*} = π max (r_{π} + γ P_{π} v^{*})

注意此时的π都是固定的最优的，不妨将其记为 $π^{*}$ ，那么为达到max，其满足

π^{*} = ar g π max (r_{π} + γ P_{π} v^{*})

这样就将BOE转化为一个特殊的BE：

v^{*} = r_{π^{*}} + γ P_{π^{*}} v^{*} (5)

因此说BOE是特殊情形的BE. 关于BOE解的最优性，有如下结论(证明见附录C)：

Theorem 3. $v^{*}$ 是最优state value， $π^{*}$ 是最优的policy，即

v^{*} = v_{π^{*}} ⩾ v_{π}, \forall π, \forall v

Theorem 4 (Greedy Optimal Policy). $\forall s \in S$ ，BOE的最优policy (也称为deterministic greedy policy)为：

π^{*} (a ∣ s) = {10 if a = a^{*} (s) if a \neq = a^{*} (s) (6)

其中

a^{*} (s) = ar g a max q^{*} (a, s)

q^{*} (s, a) := r \in R \sum p (r ∣ s, a) r + γ s^{'} \in S \sum p (s^{'} ∣ s, a) v^{*} (s^{'})

此外还有两点说明：最优策略的唯一性和最优策略的随机性 Uniqueness of optimal policies: 最优的state value $v^{*}$ 是唯一确定的，但是optimal policy并不一定，有可能出现两个policy均为最优. Stochasticity of optimal policies: 从optimal policy并不一定唯一就可以看出optimal policy既可以是随机的也可以是确定性的，但根据定理4可以确定的是一定存在一个确定性的optimal policy.

Analyzing optimal policies

对于BOE

v (s) = π max a \in A \sum π (a ∣ s) (r \in R \sum p (r ∣ s, a) r + γ s^{'} \in S \sum p (s^{'} ∣ s, a) v (s^{'}))

黑色部分是未知并需求解的量，红色部分为已知量，可能对最终结果造成影响，其中

r: 预先设计的reward
p(r|s,a), p(s’|s,a): 概率模型/系统模型(system model)
γ: discount rate

由于系统的模型一般难以改变，所以下面仅分析r和γ的改变对BOE结果的影响. 根据一些简答的例子（详见textbook）可以发现：

当γ比较大时，agent会比较“远视”，重视未来的reward；较小时，会比较“近视”(short-sighted)，重视较近的reward. (a) 当reward较小时，agent会倾向于避免冒险，更多地选择眼前看起来较好的action. (b) 当reward = 0时，agent甚至不能成功抵达目标，因为此时只选择最大的immediate reward而不是最大的total reward. (c) discount rate的存在使得一些无意义的绕远路(meaningless detour)的策略被pass，因为这样的reward会被延后且“打折”
当对所有的reward作线性变换r→ar+b时，optimal policy并不会改变(定理5，证明见附录D)，因为重要的是不同reward相互间的相对差异(relative value)，而不是绝对差异

Theorem 5 (Optimal Policy Invariance). 考虑一个马尔可夫决策过程，其中 $v^{*} \in R^{∣ S ∣}$ 是满足 $v^{*} = max_{π \in Π} (r_{π} + γ P_{π} v^{*})$ 的最优状态值。如果每个奖励 $r \in R$ 都经过一个仿射变换 $α r + β$ ，其中 $α, β \in R$ 且 $α > 0$ ，那么相应的最优状态值 $v^{'}$ 也将是 $v^{*}$ 的一个仿射变换：

v^{'} = α v^{*} + \frac{β}{1 - γ} 1,

其中 $γ \in (0, 1)$ 是折扣率，且 $1 = [1, ..., 1]^{T}$ 。因此，从 $v^{'}$ 导出的最优策略在奖励的仿射变换下保持不变。

A Contraction Mapping Theorem

Contraction Mapping Theorem

定义 3 (fixed point). 对于方程 $f (x), f : R^{d} \to R^{d}$ ，点 $x^{*}$ 被称为不动点(fixed point)若

f (x^{*}) = x^{*}

定义 4 (contraction mapping / contractive function). 函数 $f : R^{d} \to R^{k}$ 被称为压缩映射(contraction mapping / contractive function)，若 $\exists γ \in (0, 1)$ ，使得

∥ f (x_{1}) - f (x_{2}) ∥ ⩽ γ ∥ x_{1} - x_{2} ∥

Theorem 6 (Contraction mapping theorem). 对于方程 $f (x) = x$ ，若f为压缩映射，那么存在唯一不动点作为解满足 $f (x^{*}) = x^{*}$ .且可以设计如下算法迭代逼近不动点 $x^{*}$ :

x_{k + 1} = f (x_{k})

满足 $x_{k} k \to \infty x^{*}$ ，且以指数速率收敛.

Proof. 由于在完备赋范线性空间（即Banach空间）中，Cauchy序列必收敛，因此需先证明序列 ${x_{k} = f (x_{k - 1})}_{k = 1}^{\infty}$ 是Cauchy列.即 $\forall ε > 0, \exists N > 0$ , s.t. $\forall m, n > N, ∥ x_{m} - x_{n} ∥ < ε$ .然后再证明该收敛点为唯一不动点.

先证明序列 ${x_{k} = f (x_{k - 1})}_{k = 1}^{\infty}$ 是Cauchy列.根据压缩性，有
$∥ x_{n + 1} - x_{n} ∥ = ∥ f (x_{n}) - f (x_{n - 1}) ∥ ⩽ γ ∥ x_{n} - x_{n - 1} ∥ = γ ∥ f (x_{n - 1}) - f (x_{n - 2}) ∥$ $⩽ γ^{2} ∥ x_{n - 1} - x_{n - 2} ∥ = γ^{2} ∥ f (x_{n - 2}) - f (x_{n - 3}) ∥ ⩽ \dots ⩽ γ^{n} ∥ x_{1} - x_{0} ∥$
$\forall ε > 0$ ，取 $N$ 足够大，那么 $\forall m, n > N$ 有
$∥ x_{m} - x_{n} ∥ ⩽ ∥ x_{m} - x_{m - 1} ∥ + \dots + ∥ x_{n + 1} - x_{n} ∥ ⩽ (γ^{m - 1} + \dots + γ^{n}) ∥ x_{1} - x_{0} ∥$ $= \frac{γ ^{n} ( 1 - γ ^{m - n} )}{1 - γ} ∥ x_{1} - x_{0} ∥ ⩽ \frac{γ ^{n}}{1 - γ} ∥ x_{1} - x_{0} ∥ ⩽ ε$
因此 ${x_{k} = f (x_{k - 1})}_{k = 1}^{\infty}$ 是Cauchy列.
设Cauchy列 ${x_{k} = f (x_{k - 1})}_{k = 1}^{\infty}$ 收敛至 $x^{*}$ .由于 $∥ f (x_{k}) - x_{k} ∥ = ∥ x_{k + 1} - x_{k} ∥ ⩽ γ^{k} ∥ x_{1} - x_{0} ∥ k \to \infty 0$ ，因此取极限 $k \to \infty$ 后有 $f (x^{*}) = x^{*}$ .因此 $x^{*}$ 是不动点.
证明不动点的唯一性.使用反证法，若不动点不唯一，设 $x_{1}^{*}, x_{2}^{*}$ 均为不动点，那么就有
$∥ x_{2}^{*} - x_{1}^{*} ∥ = ∥ f (x_{2}^{*}) - f (x_{1}^{*}) ∥ ⩽ γ ∥ x_{2}^{*} - x_{1}^{*} ∥ < ∥ x_{2}^{*} - x_{1}^{*} ∥$
显然矛盾.

综上所述，方程 $f (x) = x$ 存在唯一解.

B Contraction property of f(v)

Contraction property of f(v)

Theorem 7. BOE中的映射f(v)是一个压缩映射， $\forall v_{1}, v_{2} \in R^{∣ S ∣}$ ，满足

∥ f (v_{1}) - f (v_{2}) ∥_{\infty} \leq γ ∥ v_{1} - v_{2} ∥_{\infty}

其中 $γ \in (0, 1)$ 为discount rate， $∥ \cdot ∥_{\infty}$ 为maximum norm.

Proof. 根据定义， $f (v) ≜ max_{π} (r_{π} + γ P_{π} v)$ . $\forall v_{1}, v_{2} \in R^{∣ S ∣}$ ，假设 $π_{1}^{*} ≜ ar g max_{π} (r_{π} + γ P_{π} v_{1})$ , $π_{2}^{*} ≜ ar g max_{π} (r_{π} + γ P_{π} v_{2})$ ，那么就有

f (v_{1}) = π max (r_{π} + γ P_{π} v_{1}) = r_{π_{1}^{*}} + γ P_{π_{1}^{*}} v_{1} ⩾ r_{π_{2}^{*}} + γ P_{π_{2}^{*}} v_{1},

f (v_{2}) = π max (r_{π} + γ P_{π} v_{2}) = r_{π_{2}^{*}} + γ P_{π_{2}^{*}} v_{2} ⩾ r_{π_{1}^{*}} + γ P_{π_{1}^{*}} v_{2},

其中 $⩾$ 为逐元素比较.这样就可以得到

f (v_{1}) - f (v_{2}) = r_{π_{1}^{*}} + γ P_{π_{1}^{*}} v_{1} - (r_{π_{2}^{*}} + γ P_{π_{2}^{*}} v_{2}) \leq r_{π_{1}^{*}} + γ P_{π_{1}^{*}} v_{1} - (r_{π_{1}^{*}} + γ P_{π_{1}^{*}} v_{2}) = γ P_{π_{1}^{*}} (v_{1} - v_{2}) .

同理可得

γ P_{π_{2}^{*}} (v_{1} - v_{2}) ⩽ f (v_{1}) - f (v_{2}) ⩽ γ P_{π_{1}^{*}} (v_{1} - v_{2})

对于任意状态 $s$ ，有

∣ [f (v_{1}) - f (v_{2})]_{s} ∣ \leq γ max (s^{'} \sum [P_{π_{1}^{*}}]_{s, s^{'}} (v_{1} - v_{2})_{s^{'}}, s^{'} \sum [P_{π_{2}^{*}}]_{s, s^{'}} (v_{1} - v_{2})_{s^{'}})

\leq γ max (s^{'} \sum [P_{π_{1}^{*}}]_{s, s^{'}} ∣ (v_{1} - v_{2})_{s^{'}} ∣, s^{'} \sum [P_{π_{2}^{*}}]_{s, s^{'}} ∣ (v_{1} - v_{2})_{s^{'}} ∣)

由于 $∣ (v_{1} - v_{2})_{s^{'}} ∣ \leq ∥ v_{1} - v_{2} ∥_{\infty}$ 且 $\sum_{s^{'}} [P_{π}]_{s, s^{'}} = 1$ ，

∣ [f (v_{1}) - f (v_{2})]_{s} ∣ \leq γ max (∥ v_{1} - v_{2} ∥_{\infty}, ∥ v_{1} - v_{2} ∥_{\infty}) = γ ∥ v_{1} - v_{2} ∥_{\infty}

从而

∥ f (v_{1}) - f (v_{2}) ∥_{\infty} = s max ∣ [f (v_{1}) - f (v_{2})]_{s} ∣ \leq γ ∥ v_{1} - v_{2} ∥_{\infty}

C Optimality

Optimality

Theorem 8. $v^{*}$ 是最优state value， $π^{*}$ 是最优的policy，即

v^{*} = v_{π^{*}} ⩾ v_{π}, \forall π, \forall v

Proof. 已知 $v_{π} = r_{π} + γ P_{π} v_{π}$ ，根据定义

v^{*} = π max (r_{π} + γ P_{π} v^{*}) = r_{π^{*}} + γ P_{π^{*}} v^{*} ⩾ r_{π} + γ P_{π} v^{*}

\Rightarrow v^{*} - v_{π} ⩾ (r_{π} + γ P_{π} v^{*}) - (r_{π} + γ P_{π} v_{π}) = γ P_{π} (v^{*} - v_{π})

迭代该不等式：

v^{*} - v_{π} ⩾ γ P_{π} (v^{*} - v_{π}) ⩾ γ P_{π} (γ P_{π} (v^{*} - v_{π})) = γ^{2} P_{π}^{2} (v^{*} - v_{π}) ⩾ \dots ⩾ γ^{n} P_{π}^{n} (v^{*} - v_{π})

\Rightarrow v^{*} - v_{π} ⩾ n \to \infty lim γ^{n} P_{π}^{n} (v^{*} - v_{π}) = 0

最后的不等式是由于 $γ < 1$ ，且 $P_{π}$ 是随机矩阵，其幂的范数有界.

D Optimal Policy Invariance

Optimal Policy Invariance

r^{'} = α r + β \Rightarrow v^{'} = α v^{*} + \frac{β}{1 - γ} 1

Proof. 根据matrix form BOE，令 $r_{π} = [..., r_{π} (s_{k}), ...]^{⊤}$ ，其中

r_{π} (s) = a \in A \sum π (a ∣ s) r \in R \sum p (r ∣ s, a) r, s \in S

由于 $r^{'} = α r + β$ ，那么 $r_{π}^{'} (s) = α r_{π} (s) + β \Rightarrow r_{π}^{'} = α r_{π} + β 1$ ，其中 $1 = [1, ..., 1]^{⊤}$ .这样得到

v^{'} = π \in Π max (α r_{π} + β 1 + γ P_{π} v^{'}) (7)

不妨设 $v^{'} = α v^{*} + c 1$ ，带入式(7)中就得到

α v^{*} + c 1 = π \in Π max (α r_{π} + β 1 + γ P_{π} (α v^{*} + c 1))

由于 $P_{π} 1 = 1$

α v^{*} + c 1 = π \in Π max (α r_{π} + β 1 + α γ P_{π} v^{*} + c γ 1)

= π \in Π max (α r_{π} + α γ P_{π} v^{*}) + β 1 + c γ 1

= α π \in Π max (r_{π} + γ P_{π} v^{*}) + (β + c γ) 1

= α v^{*} + (β + c γ) 1

进而得到

c 1 = (β + c γ) 1 \Rightarrow c = β + c γ \Rightarrow c (1 - γ) = β \Rightarrow c = \frac{β}{1 - γ}

因此得到

v^{'} = α v^{*} + \frac{β}{1 - γ} 1

Quartz 4

Explorer