FF's Notes
← Home

Model Based Method 0.5

Oct 31, 2020

Description

一旦我们知道了环境动力学模型,那么我们就可以使用前面学到的知识进行动作的选择和规划了。 最 Naive 的方法如下:

lec-11-1.png

如果有精心设计的初始策略,以及环境动力学函数(dynamics representation),将会大大提高这种方法的成功性。

但这种方法对于训练集(随机策略探索到的数据)中没有的状态,无法作出很好的判断。 如下图所示,假设随机策略探索到的只有红色线条的部分,它据此构建的模型为“越往右得分越高”。 但真正的模型其实是“往右走时,得分先增高然后减小”。由于探索数据中没有很多的信息导致模型的不准确。

lec-11-3.png