PPO阅读笔记
发表于:2025-11-25 | 分类: 论文阅读笔记
字数统计: 384 | 阅读时长: 1分钟 | 阅读量:

Proximal Policy Optimization Algorithms论文阅读笔记

这是一种新的策略梯度算法,标准策略梯度算法是对每个样本数据进行一次梯度更新,而本文的近端策略梯度法可对小批量样本重复梯度更新。

主要贡献是提出了截断的代理目标函数和自适应KL散度惩罚来控制策略更新的幅度,提高了训练的稳定性和数据利用率。

策略梯度方法回顾

  • 策略梯度方法

策略梯度方法直接是对策略进行参数化,通过最大化预期回报来优化策略。常用的策略梯度估计器为:

  • 信赖域梯度优化(TRPO)

为了解决策略更新不稳定的问题,TRPO被提出,思想是在策略更新时加入约束,限制新旧策略之间的差异。

  • 近端策略优化(PPO)

PPO引入了用于截断的代理目标函数,首先定义概率比率: 有此,在TRPO中,优化的目标函数就变为了: 为了避免策略的过度更新,PPO引入了截断函数,定义新的目标函数为: 另外一种控制策略更新的方式就是加入KL散度惩罚项,并自适应调整惩罚系数: 自适应调整,当实际KL散度小于目标值的1.5倍时,减小,允许更大的策略更新。当大于的1.5倍时,增大,限制策略更新的幅度。

上一篇:
强化学习知识点
下一篇:
slam知识点