200字范文,内容丰富有趣,生活中的好帮手!
200字范文 > ICLR | 近期必读强化学习精选论文

ICLR | 近期必读强化学习精选论文

时间:2021-03-05 15:39:59

相关推荐

ICLR  | 近期必读强化学习精选论文

强化学习(Reinforcement learning)是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。

1.论文名称:Off-Dynamics Reinforcement Learning: Training for Transfer with Domain Classifiers

论文链接:/pub/5ef476b991e01165a63bbd0d?conf=iclr

简介:我们提出了一种简单,实用和直观的方法来进行强化学习中的领域适应。我们的方法源于这样的想法,即代理在源域中的经验应类似于其在目标域中的经验。基于RL的概率视图,我们正式表明,可以通过修改奖励函数来补偿动态差异来实现此目标。通过学习将源域转换与目标域转换区分开的辅助分类器,可以轻松估算此修改后的奖励函数。凭直觉,修改后的奖励功能对探员访问源和在源域中采取在目标域中不可能执行的动作的行为进行了惩罚。换句话说,对代理进行惩罚以进行过渡,该过渡将指示代理正在与源域而不是目标域进行交互。我们的方法适用于具有连续状态和动作的领域,不需要学习动态的显式模型。在离散和连续控制任务上,我们说明了这种方法的原理,并展示了其对高维任务的可扩展性

2.论文名称:Robust Reinforcement Learning using Adversarial Populations

论文链接:/pub/5f2be2ae91e011b36ba9cfaf?conf=iclr

简介:强化学习(RL)是用于控制器设计的有效工具,但可能会遇到鲁棒性问题,当底层系统动态受到干扰时,灾难性地失败。健壮的RL公式通过向动力学中添加最坏情况的对抗性噪声并将噪声分布构造为零和最小极大游戏的解决方案来解决此问题。但是,现有的针对鲁棒RL公式的学习解决方案的工作主要集中在针对单个对手训练单个RL代理。在这项工作中,我们证明了使用单个对手并不能始终如一地在对手的标准参数设置下产生对动态变化的鲁棒性。由此产生的政策很容易被新的对手利用。我们建议对Robust RL公式进行基于人群的扩充,在该公式中,我们在训练过程中随机初始化对手的人群并从该人群中均匀采样。我们在各种机器人技术基准上进行实证验证,即对抗性人群的使用会导致制定更强大的政策,从而改善分布外的概括性。最后,我们证明了这种方法在这些基准测试中提供了可比的鲁棒性和泛化性,如域随机化,同时避免了普遍存在的域随机化失败模式。

3.论文名称:OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement Learning

论文链接:/pub/5f980a2191e0112e0cda7ecb?conf=iclr

简介:强化学习(RL)在各种在线设置中均取得了骄人的成绩,在这种设置中,座席查询环境以获取过渡和奖励的能力实际上不受限制。但是,在许多实际应用中,情况恰恰相反:代理可能有权访问大量无方向的脱机体验数据,而对联机环境的访问受到严重限制。在这项工作中,我们专注于此离线设置。我们的主要见解是,当使用由各种行为组成的离线数据呈现时,一种有效利用此数据的方法是,在将这些原语用于下游任务学习之前,提取连续的和临时扩展的原语行为空间。以这种方式提取的基元有两个目的:它们描述了数据支持的行为与不支持的行为,从而有助于避免离线RL中的分布偏移。并且它们提供了一定程度的时间抽象,从而降低了有效视野,从而在理论上产生了更好的学习效果,并在实践中改善了离线RL。除了有益于脱机策略优化外,我们还表明,以这种方式执行脱机原始学习还可以用于改进几次模仿学习以及在各种基准域上进行在线RL的探索和转移。。

4.论文名称:Decoupling Representation Learning from Reinforcement Learning

论文链接:/pub/5f6488cf91e011f934ad258c?conf=iclr

简介:为了克服基于奖励的特征学习在图像深度增强学习(RL)中的局限性,我们提出将表示学习与策略学习分离。为此,我们引入了一种新的无监督学习(UL)任务,称为增强时空对比度(ATC),该任务训练卷积编码器以在图像增强和使用对比损失的情况下关联由短时间差分隔开的观察对。在在线RL实验中,我们表明在大多数环境中,仅使用ATC匹配或优于端到端RL训练编码器即可。此外,我们通过在专家演示中对编码器进行预训练并在RL代理中冻结权重后使用编码器,对几种领先的UL算法进行基准测试;我们发现,使用经过ATC训练的编码器的代理要优于其他代理。我们还针对来自多个环境的数据训练多任务编码器,并展示了对不同下游RL任务的概括。最后,我们消除了ATC的组件,并引入了新的数据增强功能,以在RL需要增强时从预训练的编码器中重放(压缩的)潜像。

5.论文名称:Maximum Reward Formulation In Reinforcement Learning

论文链接:/pub/5f802d3691e01119a5df72fc?conf=iclr

简介:强化学习(RL)算法通常用于最大化预期的累积回报(折扣或未折扣,有限或无限范围)。但是,现实世界中的一些关键应用(例如药物发现)不适合该框架,因为RL代理仅需要识别在轨迹内获得最高奖励的状态(分子),而无需针对预期进行优化 累积收益。在这项工作中,我们制定了一个目标函数,使沿着轨迹的预期最大报酬最大化,得出了Bellman方程的新颖函数形式,引入了相应的Bellman算子,并提供了收敛的证明。使用这种配方,我们在模拟现实世界中的药物发现流程的分子生成任务上获得了最先进的结果。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。