> 文章列表 > PPO算法-理论篇

PPO算法-理论篇

文章列表

PPO算法-理论篇

1. Policy Gradient

【李宏毅深度强化学习笔记】1、策略梯度方法（Policy Gradient）
李宏毅深度强化学习-B站

2. PPO

PPO算法更新过程如下：

初始化policy参数 $θ0\\theta^0$
在每一步迭代中：
- 使用 $θk\\theta^k$ 与环境交互来收集数据 ${s_t, a_t\\}$ ，然后计算优势函数 $Aθk(st,at)A^{\\theta^{k}}(s_t, a_t)$ ， $θk\\theta^k$ 是前一轮迭代得到的参数
- 优化目标函数 $JPPO(θ)J_{PPO}(\\theta)$ ，注意这里与policy gradient 不同，更新完参数可以继续训练，一直优化该目标函数，但是policy gradient更新完参数后必须重新采样

policy gradient 应该是每个mini batch更新参数后就要重新采样，而PPO可以跑完一个epoch再重新采样
PPO算法-理论篇