Model Based RL
无模型的强化学习不需要知道环境动力学方程,只要不断的进行试错和更新策略的过程就可以很好的进行训练了。 但基于模型的强化学习需要用到环境动力学方程, 在此基础上,对未来进行规划,从而达到加速训练和提高训练结果的效果。
分类
基于模型的强化学习按照环境的状态空间类型和 Plan 的方式可以分为以下三类: Deterministic Case, Stochastic Open Loop, Stochastic Close Loop 。
如何利用模型
假设我们有模型,如何利用模型来求解最优路径呢?
基于模型的强化学习算法
如果要利用模型去生成最优路径,那如何来生成一个好的模型?
与策略相结合
能不能把模型和策略的方法结合起来呢?