FF's Roam Notes

❯

REINFORCE

Jun 05, 20252 min read

rl

Description

在策略梯度中，我们提到了策略梯度的目标函数，即：

J (θ) = E_{τ \sim p (τ)} [R (τ)]

其梯度为：

\nabla_{θ} J (θ) = E_{τ \sim π (θ)} [R (τ) \cdot \nabla_{θ} t = 0 \sum T lo g π_{θ} (a_{t} ∣ s_{t})]

REINFORCE 算法（又称 Monte-Carlo 梯度估计算法），是非确定性策略算法，即策略网络输出的是分布，而不是确定的动作。根据分布获得具体的动作。使用从真实环境中采样的样本去估计 $R (τ)$ 的期望。

即：

E_{τ \sim p (τ)} [R (τ)] = N \to \infty lim \frac{1}{N} i = 1 \sum N R (τ)

同理，其梯度也可以用样本去估计，

\nabla_{θ} J (θ) = N \to \infty lim \frac{1}{N} i = 1 \sum N [R (τ) \cdot \nabla_{θ} t = 0 \sum T lo g π_{θ} (a_{t} ∣ s_{t})]

$π_{θ} (a_{t} ∣ s_{t})$ 表示策略在 $s_{t}$ 状态执行 $a_{t}$ 的概率。

因此，我们得到了最简单的强化学习策略梯度算法：

初始化策略网络
循环
- 使用策略 $π_{θ}$ 生成一条轨迹 $τ$ ，计算其奖励 $R (τ)$
- 更新参数 $θ \leftarrow θ + α [R (τ) \cdot \nabla_{θ} \sum_{t = 0}^{T} lo g π_{θ} (a_{t} ∣ s_{t})]$

Summary

优点：

如果当前奖励很大，那么当前轨迹的的概率（或者是当前一连串动作生成的概率）就会变大。它能保证轨迹的更新与奖励梯度的方向相同，这就确保了它可以达到局部最优。

缺点：

使用蒙特卡洛采样估计，可能会具有很大的方差，因此学习缓慢。
数据利用率低。作为一种在线（online）学习方法，每一回合的数据只能使用一次。
只能找到局部最优解，很难找到全局最优解。

Unfortunately, the variance of the gradient estimator scales unfavorably with the time horizon, since the effect of an action is confounded with the effects of past and future actions.

From GAE paper.

Reference

https://towardsdatascience.com/policy-gradient-methods-104c783251e0

Graph View

Description
Summary
Reference

Backlinks

Actor Critic
Off Policy Actor Critic
Reinforcement Learning is Supervised Learning on Optimized Data

Created with Quartz v4.5.1 © 2025

Portfolio