200字范文,内容丰富有趣,生活中的好帮手!
200字范文 > DPPO算法(顺便对比PG TRPO PPO PPO2以及A3C算法)

DPPO算法(顺便对比PG TRPO PPO PPO2以及A3C算法)

时间:2024-04-27 05:27:34

相关推荐

DPPO算法(顺便对比PG TRPO PPO PPO2以及A3C算法)

强化学习(9):TRPO、PPO以及DPPO算法:/zuzhiang/article/details/103650805

DPPO深度强化学习算法实现思路(分布式多进程加速): /weixin_43145941/article/details/116764574

[DPPO]:再看我的影分身之术(附代码及代码分析):/p/111346592

PPO

TRPO

PPO(Proximal Policy Optimization) 是一种解决 PG 算法中学习率不好确定的问题的算法,因为如果学习率过大,则学出来的策略不易收敛, 反之,如果学习率太小,则会花费较长的时间。PPO 算法利用新策略和旧策略的比例,从而限制了新策略的更新幅度,让 PG 算法对于稍微大一点的学习率不那么敏感。

TRPO 与 PPO 之间的区别在于 TRPO 使用了 KL 散度作为约束条件, PPO 在原目标函数的基础上添加了 KL 散度部分

PPO2 在 PPO 的基础上去除了 KL 散度损失函数,但是引入了 Clip 损失函数

DPPO(Distributed Proximal Policy Optimization)简单来说就是多线程并行版的 PPO。

那么A3C就是worker又与环境交互又更新局部梯度,然后推送到全局梯度,再将worker的梯度更新;而DPPO就是worker只与环境交互,由global更新梯度.

在A3C,我们需要跑数据并且计算好梯度,再更新全局网络。这是因为AC是一个在线的算法,所以在更新的时候,产生数据的策略和更新的策略需要时同一个网络。所以我们不能把worker产出的数据,直接给全局网络计算梯度用。

但PPO解决了离线更新策略的问题,所以DPPO的工人只需要提供数据给全局网络,由全局网络从数据中直接学习。

DPPO

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。