← Home

Model Based Method 0.5

Oct 31, 2020

rl mbrl

Description

一旦我们知道了环境动力学模型，那么我们就可以使用前面学到的知识进行动作的选择和规划了。最 Naive 的方法如下：

如果有精心设计的初始策略，以及环境动力学函数（dynamics representation），将会大大提高这种方法的成功性。

但这种方法对于训练集（随机策略探索到的数据）中没有的状态，无法作出很好的判断。如下图所示，假设随机策略探索到的只有红色线条的部分，它据此构建的模型为“越往右得分越高”。但真正的模型其实是“往右走时，得分先增高然后减小”。由于探索数据中没有很多的信息导致模型的不准确。