FF's Roam Notes

❯

Monte Carlo Tree Search(MCTS)

Monte Carlo Tree Search(MCTS)

Jun 05, 20252 min read

rl
mbrl

Description

MCTS 适用于离散动作空间和连续动作空间，这里以离散动作空间举例。

初始状态为 $s_{1}$ ，如果遍历了所有从 $s_{1}$ 出发的路径，那么自然可以选出哪条路径是最佳路径。这样做的缺陷是遍历空间太大，而且浪费时间。我们需要选择那些有较高奖励（这个目的很明显）的状态，同时也会选经过很少次的状态（经过很少，说明对这个状态探索很少）。具体算法如下： MCTS:

使用 TreePolicy(s_1) 得到一个叶子节点（新状态） $s_{l}$
使用 DefaultPolicy(s_l) 计算叶子节点的得分（Q 值）
更新从 $s_{1}$ 到 $s_{l}$ 之间的所有 Q 值，从 s_1 选取最佳动作

TreePolicy( $s_{t}$ ): 如果 $s_{t}$ 没有完全被探索，那么就选取新动作 $a_{t}$ ；否则选取具有最优 Q 值的动作。

Q (s_{t}) = \frac{Q ( s _{t} )}{N ( s _{t} )} + 2 C \frac{2 ln N ( s _{t - 1} )}{N ( s _{t} )}

Graph View

Backlinks

Model Based RL

Created with Quartz v4.5.1 © 2025

GitHub
Discord Community