Stochastic Open Loop Case
Description
当状态和动作确定时,下一状态无法确定,但有一定的分布概率。 在已知状态转移方程的条件下,Agent 依据模型生成一系列的动作。
\begin{array}{c}
pθ≤ft(\mathbf{s}1, \ldots, \mathbf{s}T \mid \mathbf{a}1, \ldots, \mathbf{a}T\right)=p≤ft(\mathbf{s}1\right) ∏t=1T p≤ft(\mathbf{s}t+1 \mid \mathbf{s}t, \mathbf{a}t\right)
\mathbf{a}1, \ldots, \mathbf{a}T=arg max _{\mathbf{a}1, \ldots, \mathbf{a}T} E≤ft[∑t r≤ft(\mathbf{s}t, \mathbf{a}t\right) \mid \mathbf{a}1, \ldots, \mathbf{a}T\right]
\end{array}
但其实这种设定是不合理的。即使你知道状态转移方程,由于环境自身的随机性你还是无法判断下个状态。