FF's Roam Notes

❯

Model Based Method 0.5

Model Based Method 0.5

Jun 05, 20252 min read

rl
mbrl

Description

一旦我们知道了环境动力学模型，那么我们就可以使用前面学到的知识进行动作的选择和规划了。最 Naive 的方法如下：

![](/ox-hugo/lec-11-1.png” width=“100%)

如果有精心设计的初始策略，以及环境动力学函数（dynamics representation），将会大大提高这种方法的成功性。

但这种方法对于训练集（随机策略探索到的数据）中没有的状态，无法作出很好的判断。如下图所示，假设随机策略探索到的只有红色线条的部分，它据此构建的模型为“越往右得分越高”。但真正的模型其实是“往右走时，得分先增高然后减小”。由于探索数据中没有很多的信息导致模型的不准确。

![](/ox-hugo/lec-11-3.png” width=“100%)

Graph View

Backlinks

Model Based RL

Created with Quartz v4.5.1 © 2025

Portfolio