Latent Model

Description

模型学习的好坏还与环境的复杂性有关。有些环境是部分可观测的，状态是高维的且存在较多冗余信息。这节将考虑如何从结构设计的角度使得模型的学习变得简单容易。我们需要考虑训练的模型有：

![](/ox-hugo/lec-11-9.png” width=“100%)

在全部可观测模型中，我们通常做的是对网络的输出做最大似然化：

ϕ max \frac{1}{N} i = 1 \sum N t = 1 \sum T lo g p_{ϕ} (s_{t + 1, i} ∣ s_{t, i}, a_{t, i})

但现在我们没有 $s_{t}$ ，只能对其期望做最大似然化：

latent space model: ϕ max \frac{1}{N} i = 1 \sum N t = 1 \sum T E [lo g p_{ϕ} (s_{t + 1, i} ∣ s_{t, i}, a_{t, i}) + lo g p_{ϕ} (o_{t, i} ∣ s_{t, i})]

其中，

expectation w.r.t. (s_{t}, s_{t + 1}) \sim p (s_{t}, s_{t + 1} ∣ o_{1 : T}, a_{1 : T})

这个分布需要这么复杂吗？

![](/ox-hugo/lec-11-10.png” width=“100%)

这里我们使用简单的方法，使用：

expectation w.r.t. s_{t} \sim q_{ψ} (s_{t} ∣ o_{t}), s_{t + 1} \sim q_{ψ} (s_{t + 1} ∣ o_{t + 1})

为了简化讨论，这里的 observation model 是确定性的，

q_{ψ} (s_{t} ∣ o_{t}) = δ (s_{t} = g_{ψ} (o_{t})) \Rightarrow s_{t} = g_{ψ} (o_{t})

我们的目标函数也就转换为：

ϕ, ψ max \frac{1}{N} i = 1 \sum N t = 1 \sum T lo g p_{ϕ} (g_{ψ} (o_{t + 1, i}) ∣ g_{ψ} (o_{t, i}), a_{t, i}) + lo g p_{ϕ} (o_{t, i} ∣ g_{ψ} (o_{t, i}))

最后，在目标函数中加入关于奖励函数的优化：

ϕ, ψ max \frac{1}{N} i = 1 \sum N t = 1 \sum T lo g p_{ϕ} (g_{ψ} (o_{t + 1, i}) ∣ g_{ψ} (o_{t, i}), a_{t, i}) + lo g p_{ϕ} (o_{t, i} ∣ g_{ψ} (o_{t, i})) + lo g p_{ϕ} (r_{t, i} ∣ g_{ψ} (o_{t, i}))

整理一下，得到算法：

![](/ox-hugo/lec-11-11.png” width=“100%)