Description

基于高斯过程的环境模型能够衡量环境的不确定性, 在少量数据上也可以有很好的拟合效果。缺点是无法有效的对高维环境建模。

基于神经网络的环境模型能够对高维环境很好建模, 但缺点是容易在少量数据中产生过拟合,且一般的 NN 难以对不确定性进行评价。

使用多个概率环境模型的 Ensemble 来作为总体的环境模型。 其中的每个概率模型输出的方差可以用来衡量数据不确定性(aleatoric uncertainty), 多个模型之间的采样方差来衡量模型不确定性(epistemic uncertainty).

Bootstrap ensembles 训练多个模型,那么其结果的期望可以近似看作多个模型的均值。 模型在不同参数 下的期望为:( 的概率由 确定 )

现在,目标函数就变成了:

整体算法流程为:

![](/ox-hugo/lec-11-8.png” width=“100%)