Description
一旦我们知道了环境动力学模型,那么我们就可以使用前面学到的知识进行动作的选择和规划了。 最 Naive 的方法如下:

如果有精心设计的初始策略,以及环境动力学函数(dynamics representation),将会大大提高这种方法的成功性。
但这种方法对于训练集(随机策略探索到的数据)中没有的状态,无法作出很好的判断。 如下图所示,假设随机策略探索到的只有红色线条的部分,它据此构建的模型为“越往右得分越高”。 但真正的模型其实是“往右走时,得分先增高然后减小”。由于探索数据中没有很多的信息导致模型的不准确。
