200字范文,内容丰富有趣,生活中的好帮手!
200字范文 > 李宏毅深度强化学习(国语)课程() 笔记(二)Proximal Policy Optimization(PPO)

李宏毅深度强化学习(国语)课程() 笔记(二)Proximal Policy Optimization(PPO)

时间:2024-08-05 22:39:00

相关推荐

李宏毅深度强化学习(国语)课程() 笔记(二)Proximal Policy Optimization(PPO)

李宏毅深度强化学习(国语)课程()_哔哩哔哩_bilibili

on-policy:要learn的agent和环境互动的agent是同一个,即agent一边跟环境互动,一边学习;

off-policy:要learn的agent和环境互动的agent是同一个,即在旁边看别人玩。

on-policy→off-policy的目的是为提高数据利用效率。

on-policy→off-policy的公式推导:实现从p分布的policy中sample data→q分布的policy中sample data。

实际操作中,p分布和q分布还是不能差太多,否则会导致一些问题出现。这是因为期望相等,方差Variance不一定相等,公式推导如下。

如果sample的次数不够多,就会出现问题,如下图。

由于跟环境做互动的是θ',而不是θ,因此,θ' sample出来的数据和θ没有关系。进而,可以实现θ'跟环境做互动产生一大堆数据以后,θ可以update很多次。Train到一定程度以后,θ'重新跟环境做互动。

是Accumulated Reward 减去 bias,用来估测动作的相对好坏,如果正就增加动作几率,如果负,就减少几率。

这里有个假设,和分布是差不多的,可以抵消,另外的原因是因为算不出来的。

前面的假设是与不能差太多,否则结果会不准确。那么,如何避免差太多,就是PPO要做的事情,就是在training的时候,多加了一个constraint。这个constraint就是θ和θ'这两个model 输出的action的KL散度,KL Divergence。TRPO是PPO的前身,constraint的位置不同是两者的区别。

注意:PPO比TRPO在实操上容易多,效果差不多。KL Divergence并不是θ和θ'参数的距离,是行为上的距离,即给同一个state的时候,action几率分布之间的差距。

PPO算法流程:

PPO 2 公式复杂,但是操作起来简单。

式中,clip函数的含义

式中,min函数的含义

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。