Trust Region Policy Optimization

Preliminaries

考虑一个无限长度的马尔科夫决策过程（MDP） $(S, A, P, r, ρ_{0}, γ)$ , 其中， $S$ 是关于状态的有限集， $A$ 是关于动作的有限集， $P : S \times A \times S$ 是条件转移概率分布， $r : S \to R$ 是奖励函数， $ρ_{0} : S \to R$ 是初始状态的分布， $γ \in (0, 1)$ 是折扣因子。

令 $π : S \times A \to [0, 1]$ 为随机策略， $η (π)$ 为期望折扣奖励：

η (π) = E_{s_{0}, a_{0}, \dots} [t = 0 \sum \infty γ^{t} r (s_{t})]

其中， $s_{0} \sim ρ_{0} (s_{0}), a_{t} \sim π (a_{t} ∣ s_{t}), s_{t + 1} \sim P (s_{t + 1} ∣ s_{t}, a_{t})$

定义状态-动作值函数 $Q_{π}$ ，值函数 $V_{π}$ ，奖励函数 $A_{π}$ ：

\begin{array}{l} Q_{\pi}\left(s_{t}, a_{t}\right)=\mathbb{E}_{s_{t+1}, a_{t+1}, \ldots}\left[\sum_{l=0}^{\infty} \gamma^{l} r\left(s_{t+l}\right)\right] \\ V_{\pi}\left(s_{t}\right)=\mathbb{E}_{a_{t}, s_{t+1}, \ldots}\left[\sum_{l=0}^{\infty} \gamma^{l} r\left(s_{t+l}\right)\right] \\ A_{\pi}(s, a)=Q_{\pi}(s, a)-V_{\pi}(s), \text { where } \\ a_{t} \sim \pi\left(a_{t} \mid s_{t}\right), s_{t+1} \sim P\left(s_{t+1} \mid s_{t}, a_{t}\right) \text { for } t \geq 0 \end{array}

下面这个式子表示随着步长积累的另一个策略 $\tilde{π}$ 与当前策略 $π$ 的关系：

η (\tilde{π}) = η (π) + E_{s_{0}, a_{0}, \dots \sim \tilde{π}} [t = 0 \sum \infty γ^{t} A_{π} (s_{t}, a_{t})]

上面的期望表明动作是取样自 $a_{t} \sim \tilde{π} (\cdot ∣ s_{t})$ 。

证明如下：

\begin{equation*} \begin{split} &\mathbb{E}_{\tau \sim \tilde{\pi}}\left[\sum_{t=0}^{\infty} \gamma^{t} A_{\pi}\left(s_{t}, a_{t}\right)\right] \\ &=\mathbb{E}_{\tau \sim \tilde{\pi}}\left[\sum_{t=0}^{\infty} \gamma^{t}\left(r\left(s_{t}\right)+\gamma V_{\pi}\left(s_{t+1}\right)-V_{\pi}\left(s_{t}\right)\right)\right] \\ &=\mathbb{E}_{\tau \sim \tilde{\pi}}\left[-V_{\pi}\left(s_{0}\right)+\sum_{t=0}^{\infty} \gamma^{t} r\left(s_{t}\right)\right] \\ &=-\mathbb{E}_{s_{0}}\left[V_{\pi}\left(s_{0}\right)\right]+\mathbb{E}_{r \mid \tilde{\pi}}\left[\sum_{t=0}^{\infty} \gamma^{t} r\left(s_{t}\right)\right] \\ &=-\eta(\pi)+\eta(\tilde{\eta}) \end{split} \end{equation*}

令 $ρ_{π}$ 表示状态的折扣访问频率：

ρ_{π} (s) = P (s_{0} = s) + γ P (s_{1} = s) + γ^{2} P (s_{2} = s) + \dots

其中， $s_{0} \sim ρ_{0}$ ，动作取样自 $π$ 。

将等式（1）展开：

η (\tilde{π}) = η (π) + t = 0 \sum \infty s \sum P (s_{t} = s ∣ \tilde{π}) a \sum \tilde{π} (a ∣ s) γ^{t} A_{π} (s, a) = η (π) + s \sum t = 0 \sum \infty γ^{t} P (s_{t} = s ∣ \tilde{π}) a \sum \tilde{π} (a ∣ s) A_{π} (s, a) = η (π) + s \sum ρ_{\tilde{π}} (s) a \sum \tilde{π} (a ∣ s) A_{π} (s, a)

从上式可以看出，如果每次策略的更新 $π \to \tilde{π}$ 中，每个状态 $s$ 都有非负期望优势 $A$ ，即 $\sum_{a} \tilde{π} (a ∣ s) A_{π} (s, a) \geq 0$ ，那么就可以确保策略的期望回报是不断增加的。但是在训练过程中，我们很难保证每个状态的期望优势都是非负的。由于 $ρ_{\tilde{π}} (s)$ 使等式二变得更复杂，因此我们做第一次近似：

L_{π} (\tilde{π}) = η (π) + s \sum ρ_{π} (s) a \sum \tilde{π} (a ∣ s) A_{π} (s, a)

$L_{π}$ 忽视了由于策略改变引起的状态访问频率的变化，那么我们可以保证对 $L_{π}$ 的优化等同于对 $η$ 的优化吗？

可以发现：

\begin{aligned} L_{\pi_{\theta_{0}}}\left(\pi_{\theta_{0}}\right) &=\eta\left(\pi_{\theta_{0}}\right) \\ \left.\nabla_{\theta} L_{\pi_{\theta_{0}}}\left(\pi_{\theta}\right)\right|_{\theta=\theta_{0}} &=\left.\nabla_{\theta} \eta\left(\pi_{\theta}\right)\right|_{\theta=\theta_{0}} \end{aligned}

即，在 $π_{θ_{0}}$ 作一个很小的改变，如果提高 $L_{π}$ ，那么也会提高 $η$ 。但这个式子并没有给出步长应该走多少。

为了解决这个问题，Kakade 和 Langford 给出了一个策略更新方法——conservative policy iteration，提供了一个能够提高 $η$ 的明确的下限。令 $π_{o l d}$ 表示当前策略， $π^{'} = ar g max_{π^{'}} L_{π_{o l d}} (π^{'})$ ，新的策略为：

π_{n e w} (a ∣ s) = (1 - α) π_{o l d} (a ∣ s) + α π^{'} (a ∣ s)

下限为：

η (π_{new}) \geq L_{π_{old}} (π_{new}) - \frac{2 ϵ γ}{( 1 - γ ) ^{2}} α^{2} where ϵ = s max E_{a \sim π^{'} (a ∣ s)} [A_{π} (s, a)]

等式（3）表明，对等式右边的提升可以确保左边的提升。我们的主要理论结果是，通过用 $π$ 和 $\tilde{π}$ 之间的距离替换 $α$ ，并适当更改常数 $ε$ 使等式（3）中策略改进范围扩展到一般随机策略，而不仅仅是混合策略（ $π_{(} n e w)$ ）。我们使用 total variation divergence 来衡量两个策略之间的距离。对于离散环境， $D_{T V} (p ∣∣ q) = \frac{1}{2} \sum_{i} ∣ p_{i} - q_{i}$ ，连续环境中使用密度函数。

D_{T V}^{m a x} = s max D_{T V} (π (\cdot ∣ s) ∣∣ \tilde{π} (\cdot ∣ s))

令 $α = D_{T V}^{m a x} (π_{o l d}, π_{n e w})$ ，下限为：

η (π_{new}) \geq L_{π_{old}} (π_{new}) - \frac{4 ϵ γ}{( 1 - γ ) ^{2}} α^{2} where ϵ = max_{s, a} ∣ A_{π} (s, a) ∣

可以发现 TV 散度和 KL 散度之间的关系为： $D_{T V} (p ∣∣ q)^{2} \leq D_{K L} (p ∣∣ q)$ 。令 $D_{K L}^{m a x} (π, \tilde{π}) = max_{s} D_{K L} (π_{(} \cdot ∣ s) ∣∣ \tilde{π} (\cdot ∣ s))$ ，等式（4）可以写成：

η (\tilde{π}) \geq L_{π} (\tilde{π}) - C D_{KL}^{m a x} (π, \tilde{π}) where C = \frac{4 ϵ γ}{( 1 - γ ) ^{2}}

算法 1 描述了基于等式（5）的策略梯度更新算法：

![](/ox-hugo/algo_1.png” caption=“<span class=“figure-number”>Figure 1: Algorithm 1)

使用算法 1 可以使策略回报随着时间变化而递增， $η (π_{0}) \leq η (π_{2}) \leq \dots$ ，令 $M_{i} (π) = L_{π_{i}} (π) - C D_{K L}^{m a x} (π_{i}, π)$ ，

η (π_{i + 1} \geq M_{i} (π_{i + 1})) b y Eq u a t i o n (5) η (π_{i}) = M_{i} (π_{i}), t h ere f ore, η (π_{i + 1}) - η (π_{i}) \geq M_{i} (π_{i + 1}) - M (π_{i})

通过在每一步最大化 $M_{i}$ ，我们可以确保目标 $η$ 是非递减的。

接下来介绍的 TRPO 算法是算法 1 的近似，通过对 KL 散度加约束而不是使用它作为惩罚项，来获得最大程度的更新。

Optimization of Parameterized Policies

对前面的标记做个简化： $η (θ) := η (π_{θ}), L_{θ} (\tilde{θ}), D_{K L} (θ ∣∣ \tilde{θ}) := D_{K L} (π_{θ} ∣∣ π_{\tilde{θ}})$ 。

之前得到的不等式为 $η (θ) \geq L_{θ_{o l d}} (θ) - C D_{K L}^{m a x} (θ_{o l d}, θ)$ ， $θ = θ_{o l d}$ 时等式成立。通过实现下式来保证目标不断被优化：

θ max [L_{θ_{o l d}} (θ) - C D_{K L}^{m a x} (θ_{o l d}, θ)]

在实际运算时，理论算法可能会有问题。

更新步长太小

如果我们使用推导的 $C$ 作为更新步长，更新步幅是很小的。但上诉问题可以转化为约束问题，把 KL 散度当成约束，这样更新步幅就会变大了：

θ maximize L_{θ_{old}} (θ) subject to D_{KL}^{m a x} (θ_{old}, θ) \leq δ

计算复杂度很高

理论上的 KL 散度是对所有状态空间的策略都要进行计算，我们使用平均 KL 散度进行替代。

D_{K L}^{ρ} (θ_{1}, θ_{2}) := E_{s \sim ρ} [D_{K L} (π_{θ_{1}} (\cdot ∣ s) ∣∣ π_{θ_{2}} (\cdot ∣ s))]

我们的优化函数变成了这样：

θ maximize L_{θ_{old}} (θ) subject to \overset{ˉ}{D}_{KL}^{ρ_{θ old}} (θ_{old}, θ) \leq δ

Sample-Based Estimation of the Objective and Constraint

将上诉优化函数展开：

θ maximize \sum_{s} ρ_{θ_{old}} (s) \sum_{a} π_{θ} (a ∣ s) A_{θ_{old}} (s, a) subject to \overset{ˉ}{D}_{KL}^{ρ_{old}} (θ_{old}, θ) \leq δ

接下来我们对上式做三处近似：

使用期望 $\frac{1}{1 - γ} E_{s \sim ρ_{θ_{o l d}}} [\dots]$ 来近似 $\sum_{s} ρ_{θ_{o l d}} (s) [\dots]$
使用 Q 值 $Q_{θ_{o l d}}$ 近似 $A_{θ_{o l d}}$
使用重要性采样估计 $\sum_{a} [\dots]$

a \sum π_{θ} (a ∣ s_{n}) A_{θ_{old}} (s_{n}, a) = E_{a \sim q} [\frac{π _{θ} ( a ∣ s _{n} )}{q ( a ∣ s _{n} )} A_{θ_{old}} (s_{n}, a)]

得到了最后的优化方程： \begin{equation}

\begin{array}{l} \underset{\theta}{\operatorname{maximize}} \mathbb{E}_{s \sim \rho_{\theta \mathrm{old}}, a \sim q}\left[\frac{\pi_{\theta}(a \mid s)}{q(a \mid s)} Q_{\theta_{\mathrm{old}}}(s, a)\right] \\ \text { subject to } \mathbb{E}_{s \sim \rho_{\theta \mathrm{old}}}\left[D_{\mathrm{KL}}\left(\pi_{\theta_{\mathrm{old}}}(\cdot \mid s) \| \pi_{\theta}(\cdot \mid s)\right)\right] \leq \delta \end{array}

\begin{equation}

Single Path

先取样第一个状态 $s_{0} \sim ρ_{0}$ ，然后用策略 $π_{θ_{o l d}}$ 生成一条轨迹： $s_{0}, a_{0}, s_{1}, a_{1}, \dots, s_{T - 1}, a_{T - 1}, s_{T}$ 。因此 $q (a ∣ s) = π_{θ_{o l d}} (a ∣ s)$ ，Q 值是在每次轨迹结束之后计算的折扣奖励和。

Vine

先取样第一个状态 $s_{0} \sim ρ_{0}$ ，然后用策略 $π_{θ_{i}}$ 生成一系列轨迹。然后，从这些轨迹中选 N 个状态 $s_{1}, s_{2}, \dots, s_{N}$ 组成 rollout 集。对 rollout 集中每一个状态 $s_{n}$ ，使用 $q$ 进行动作采样 $a_{n, k} \sim q (\cdot ∣ s_{n})$ 。对每个在 $s_{n}$ 采样到的动作 $a_{n, k}$ ，对其继续采样一个短的轨迹，来计算其 Q 值 $\hat{Q} (s_{n}, a_{n}, k)$ 。

Practical Algorithm

使用 Single-Path 或 Vine 方法进行采样
计算最终优化函数中的目标值的期望
近似的去解这个优化问题来更新策略参数 $θ$ 。

FF's Roam Notes

Explorer