Model Based RL

无模型的强化学习不需要知道环境动力学方程,只要不断的进行试错和更新策略的过程就可以很好的进行训练了。 但基于模型的强化学习需要用到环境动力学方程, 在此基础上,对未来进行规划,从而达到加速训练和提高训练结果的效果。

分类

基于模型的强化学习按照环境的状态空间类型和 Plan 的方式可以分为以下三类: Deterministic Case, Stochastic Open Loop, Stochastic Close Loop 。

如何利用模型

假设我们有模型,如何利用模型来求解最优路径呢?

基于模型的强化学习算法

如果要利用模型去生成最优路径,那如何来生成一个好的模型?

与策略相结合

能不能把模型和策略的方法结合起来呢?