PPO阅读笔记 | freesix blog

Proximal Policy Optimization Algorithms论文阅读笔记

这是一种新的策略梯度算法，标准策略梯度算法是对每个样本数据进行一次梯度更新，而本文的近端策略梯度法可对小批量样本重复梯度更新。

主要贡献是提出了截断的代理目标函数和自适应KL散度惩罚来控制策略更新的幅度，提高了训练的稳定性和数据利用率。

策略梯度方法回顾

策略梯度方法

策略梯度方法直接是对策略进行参数化，通过最大化预期回报来优化策略。常用的策略梯度估计器为：

信赖域梯度优化（TRPO）

为了解决策略更新不稳定的问题，TRPO被提出，思想是在策略更新时加入约束，限制新旧策略之间的差异。

近端策略优化（PPO）

PPO引入了用于截断的代理目标函数，首先定义概率比率：有此，在TRPO中，优化的目标函数就变为了：为了避免策略的过度更新，PPO引入了截断函数，定义新的目标函数为：另外一种控制策略更新的方式就是加入KL散度惩罚项，并自适应调整惩罚系数：自适应调整，当实际KL散度小于目标值的1.5倍时，减小，允许更大的策略更新。当大于的1.5倍时，增大，限制策略更新的幅度。

策略梯度方法回顾

你的赏识是我前进的动力