Description 交叉熵方法一般适用于状态空间连续的环境,分布函数一般选择高斯分布。 使用高斯分布 p(A) 生成动作序列 A1,…,AN 计算 J(A1),…,J(AN) 选取上诉计算结果中表现最好(J(Ai) 值最高)的几组动作序列 Ai1,…,AiM ,其中 M<N 修改高斯分布参数,使得此高斯分布更加贴合 Ai1,…,AiM ,返回 1 步继续执行