Description

模型学习的好坏还与环境的复杂性有关。有些环境是部分可观测的,状态是高维的且存在较多冗余信息。 这节将考虑如何从结构设计的角度使得模型的学习变得简单容易。 我们需要考虑训练的模型有:

![](/ox-hugo/lec-11-9.png” width=“100%)

在全部可观测模型中,我们通常做的是对网络的输出做最大似然化:

但现在我们没有 ,只能对其期望做最大似然化:

其中,

这个分布需要这么复杂吗?

![](/ox-hugo/lec-11-10.png” width=“100%)

这里我们使用简单的方法,使用:

为了简化讨论,这里的 observation model 是确定性的,

我们的目标函数也就转换为:

最后,在目标函数中加入关于奖励函数的优化:

整理一下,得到算法:

![](/ox-hugo/lec-11-11.png” width=“100%)