Description

  1. 随便找一个分布函数(distribution),使用此分布函数选择不同状态的动作序列
  2. 根据上诉公式选取使得 最大的动作序列