Proximal Policy Optimization Algorithms论文阅读笔记
这是一种新的策略梯度算法,标准策略梯度算法是对每个样本数据进行一次梯度更新,而本文的近端策略梯度法可对小批量样本重复梯度更新。
主要贡献是提出了截断的代理目标函数和自适应KL散度惩罚来控制策略更新的幅度,提高了训练的稳定性和数据利用率。
策略梯度方法回顾
- 策略梯度方法
策略梯度方法直接是对策略进行参数化,通过最大化预期回报来优化策略。常用的策略梯度估计器为:
- 信赖域梯度优化(TRPO)
为了解决策略更新不稳定的问题,TRPO被提出,思想是在策略更新时加入约束,限制新旧策略之间的差异。
- 近端策略优化(PPO)
PPO引入了用于截断的代理目标函数,首先定义概率比率: