Description

交叉熵方法一般适用于状态空间连续的环境,分布函数一般选择高斯分布。

  1. 使用高斯分布 生成动作序列
  2. 计算
  3. 选取上诉计算结果中表现最好( 值最高)的几组动作序列 ,其中
  4. 修改高斯分布参数,使得此高斯分布更加贴合 ,返回 1 步继续执行