Outline

本节将介绍一个核心概念和一个重要工具:

  1. 1 core concepts: optimal state value (进而定义 Optimal Policy)
  2. 1 fundamental tool: Bellman optimality equation(BOE) (求解 optimal state value)

本节内容将回答如下问题:

  1. 什么是 optimal state, optimal policy
  2. optimal policy 是否一定存在?若存在长什么样?
  3. 怎么求解 optimal state, optimal policy

Optimal state values and optimal policies

Optimal Policy

State value可以衡量一个policy的好坏,因此比较不同的policy需要使用state value. 首先回忆state value的定义:

定义 1 (Better policy). 对于两个policy ,若他们的state value有如下关系:

则称policy 好于 ,其中 为state space.

定义 2 (optimal policy & optimal state value). 若policy 的state value有:

则称policy 为optimal policy. 称 的state values为optimal state values.

这就产生了如下问题(都可以用贝尔曼最优公式回答):

  1. Existence & Uniqueness: optimal policy是否存在?若存在,是否唯一?
  2. Stochasticity: optimal policy是确定性的(deterministic)还是随机性的(stochastic)?
  3. Algorithm: 如何得到optimal policy和optimal state values?

Bellman optimality equation

Bellman optimality equation(BOE)

分析optimal policy和optimal state values的重要工具是Bellman optimality equation (BOE),与Bellman equation相似,通过求解BOE就可以得到optimal policy和optimal state values.下面先回忆Bellman equation :

Bellman optimality equation则是将policy 固定为最优的(取max):

式(1)是elementwise form的BOE.写成matrix-vector form就是:

其中

Note 1.1.

  1. 作为模型均已知
  2. 均为需求解的未知量
  3. Bellman equation中policy固定,但BOE(1)中需要求解出最优policy

同样地,也产生了如下问题:

  1. Existence & Uniqueness: BOE是否有解?若有解是否唯一?
  2. Algorithm: 如何求解BOE?
  3. Optimality: BOE的解与optimal policy有何关系?

Solving an optimal policy from the BOE

How to maximize the right-hand side of BOE

由式(2)可以看出,式中有两个未知量需要求解,即v和π,也就是说一个式子求两个未知量:

解决方式是先固定住v,将其看作常量,然后对式子整体求π能让整个式子达到最大的取值,记为,固定之后得到方程,即可求解得到v.

Note 2. 下面给出一个简单的例子说明求解过程,例如:

首先固定x,显然当a= 0时整个式子才可能有最大值,那么就得到

在式(1)中,实际上会对赋予初始值,这样实际上就是已知的,那么只需要确定出即可. 由于 ,记 由于

那么实际上只需取最大的即可:

此时由于π选择了最大的q值,因此被称为greedy policy.

Solve the BOE

根据我们最大化BOE右端项的思想,我们先固定v不动,再找到能够使整个式子最大的π,最后整个式子只剩下一个变量v,此时我们将其记为

这样BOE就变成

根据压缩映射原理(Contraction Mapping Theorem) /不动点定理(Fixed Point Theorem),对于形如的方程,若f是压缩映射(见附录A),那么有如下结论:

  1. 存在唯一不动点满足,即方程的解是存在唯一的
  2. 算法可以不断逼近此不动点,且以指数速率收敛

事实上,BOE中的映射f刚好是一个压缩映射,即定理1(证明见附录B).

Theorem 1 (Contraction property of f(v)). BOE中的映射f(v)是一个压缩映射,,满足

其中为discount rate,为maximum norm(取绝对值最大者).

那么自然地就可以得到如下重要定理:

Theorem 2 (Existence, Uniqueness, and Algorithm). 对于BOE ,总存在唯一解,且该解可以被如下方式迭代逼近:

且产生的序列指数收敛至不动点,收敛速率由控制.

Policy optimality

当我们求出了最优policy 后,显然满足

注意此时的π都是固定的最优的,不妨将其记为,那么为达到max,其满足

这样就将BOE转化为一个特殊的BE:

因此说BOE是特殊情形的BE. 关于BOE解的最优性,有如下结论(证明见附录C):

Theorem 3. 是最优state value,是最优的policy,即

Theorem 4 (Greedy Optimal Policy). ,BOE的最优policy (也称为deterministic greedy policy)为:

其中

此外还有两点说明:最优策略的唯一性和最优策略的随机性 Uniqueness of optimal policies: 最优的state value 是唯一确定的,但是optimal policy并不一定,有可能出现两个policy均为最优. Stochasticity of optimal policies: 从optimal policy并不一定唯一就可以看出optimal policy既可以是随机的也可以是确定性的,但根据定理4可以确定的是一定存在一个确定性的optimal policy.

Analyzing optimal policies

对于BOE

黑色部分是未知并需求解的量,红色部分为已知量,可能对最终结果造成影响,其中

  1. r: 预先设计的reward
  2. p(r|s,a), p(s’|s,a): 概率模型/系统模型(system model)
  3. γ: discount rate

由于系统的模型一般难以改变,所以下面仅分析r和γ的改变对BOE结果的影响. 根据一些简答的例子(详见textbook)可以发现:

  1. 当γ比较大时,agent会比较“远视”,重视未来的reward;较小时,会比较“近视”(short-sighted),重视较近的reward. (a) 当reward较小时,agent会倾向于避免冒险,更多地选择眼前看起来较好的action. (b) 当reward = 0时,agent甚至不能成功抵达目标,因为此时只选择最大的immediate reward而不是最大的total reward. (c) discount rate的存在使得一些无意义的绕远路(meaningless detour)的策略被pass,因为这样的reward会被延后且“打折”
  2. 当对所有的reward作线性变换r→ar+b时,optimal policy并不会改变(定理5,证明见附录D),因为重要的是不同reward相互间的相对差异(relative value),而不是绝对差异

Theorem 5 (Optimal Policy Invariance). 考虑一个马尔可夫决策过程,其中 是满足 的最优状态值。如果每个奖励 都经过一个仿射变换 ,其中 ,那么相应的最优状态值 也将是 的一个仿射变换:

其中 是折扣率,且 。因此,从 导出的最优策略在奖励的仿射变换下保持不变。


A Contraction Mapping Theorem

Contraction Mapping Theorem

定义 3 (fixed point). 对于方程,点被称为不动点(fixed point)若

定义 4 (contraction mapping / contractive function). 函数被称为压缩映射(contraction mapping / contractive function),若,使得

Theorem 6 (Contraction mapping theorem). 对于方程,若f为压缩映射,那么存在唯一不动点作为解满足.且可以设计如下算法迭代逼近不动点:

满足,且以指数速率收敛.

Proof. 由于在完备赋范线性空间(即Banach空间)中,Cauchy序列必收敛,因此需先证明序列是Cauchy列.即, s.t. .然后再证明该收敛点为唯一不动点.

  1. 先证明序列是Cauchy列.根据压缩性,有

    ,取足够大,那么

    因此是Cauchy列.

  2. 设Cauchy列收敛至.由于,因此取极限后有.因此是不动点.

  3. 证明不动点的唯一性.使用反证法,若不动点不唯一,设均为不动点,那么就有

    显然矛盾.

综上所述,方程存在唯一解.


B Contraction property of f(v)

Contraction property of f(v)

Theorem 7. BOE中的映射f(v)是一个压缩映射,,满足

其中为discount rate,为maximum norm.

Proof. 根据定义,. ,假设, ,那么就有

其中为逐元素比较.这样就可以得到

同理可得

对于任意状态,有

由于

从而


C Optimality

Optimality

Theorem 8. 是最优state value,是最优的policy,即

Proof. 已知,根据定义

迭代该不等式:

最后的不等式是由于,且是随机矩阵,其幂的范数有界.


D Optimal Policy Invariance

Optimal Policy Invariance

Proof. 根据matrix form BOE,令,其中

由于,那么 ,其中.这样得到

不妨设,带入式(7)中就得到

由于

进而得到

因此得到