Stochastic Close Loop Case
Description
当状态和动作确定时,下一状态无法确定。Agent 可以依据模型生成一个策略,即每走一步,生成一步的动作。
\begin{array}{c}
p≤ft(\mathbf{s}1, \mathbf{a}1, \ldots, \mathbf{s}T, \mathbf{a}T\right)=p≤ft(\mathbf{s}1\right) ∏t=1T π≤ft(\mathbf{a}t \mid \mathbf{s}t\right) p≤ft(\mathbf{s}t+1 \mid \mathbf{s}t, \mathbf{a}t\right)
π=arg max π Eτ ∼ p(τ)≤ft[∑t r≤ft(\mathbf{s}t, \mathbf{a}t\right)\right]
\end{array}