FF's Notes
← Home

Stochastic Close Loop Case

Oct 31, 2020

Description

当状态和动作确定时,下一状态无法确定。Agent 可以依据模型生成一个策略,即每走一步,生成一步的动作。

lec-10-3.png

\begin{array}{c} p≤ft(\mathbf{s}1, \mathbf{a}1, \ldots, \mathbf{s}T, \mathbf{a}T\right)=p≤ft(\mathbf{s}1\right) ∏t=1T π≤ft(\mathbf{a}t \mid \mathbf{s}t\right) p≤ft(\mathbf{s}t+1 \mid \mathbf{s}t, \mathbf{a}t\right)
π=arg max π Eτ ∼ p(τ)≤ft[∑t r≤ft(\mathbf{s}t, \mathbf{a}t\right)\right]

\end{array}