Description
模型学习的好坏还与环境的复杂性有关。有些环境是部分可观测的,状态是高维的且存在较多冗余信息。
这节将考虑如何从结构设计的角度使得模型的学习变得简单容易。
我们需要考虑训练的模型有:

在全部可观测模型中,我们通常做的是对网络的输出做最大似然化:
ϕmaxN1i=1∑Nt=1∑Tlogpϕ(st+1,i∣st,i,at,i)
但现在我们没有 st ,只能对其期望做最大似然化:
latent space model: ϕmaxN1i=1∑Nt=1∑TE[logpϕ(st+1,i∣st,i,at,i)+logpϕ(ot,i∣st,i)]
其中,
expectation w.r.t. (st,st+1)∼p(st,st+1∣o1:T,a1:T)
这个分布需要这么复杂吗?

这里我们使用简单的方法,使用:
expectation w.r.t. st∼qψ(st∣ot),st+1∼qψ(st+1∣ot+1)
为了简化讨论,这里的 observation model 是确定性的,
qψ(st∣ot)=δ(st=gψ(ot))⇒st=gψ(ot)
我们的目标函数也就转换为:
ϕ,ψmaxN1i=1∑Nt=1∑Tlogpϕ(gψ(ot+1,i)∣gψ(ot,i),at,i)+logpϕ(ot,i∣gψ(ot,i))
最后,在目标函数中加入关于奖励函数的优化:
ϕ,ψmaxN1i=1∑Nt=1∑Tlogpϕ(gψ(ot+1,i)∣gψ(ot,i),at,i)+logpϕ(ot,i∣gψ(ot,i))+logpϕ(rt,i∣gψ(ot,i))
整理一下,得到算法:
