200字范文 > 干货！对抗深度强化学习策略的训练和理论保障

干货！对抗深度强化学习策略的训练和理论保障

时间：2020-11-21 22:12:11

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

在一个两人深度强化学习任务中，最近的研究表明，攻击者可以学习一种敌对策略，这种策略会触发目标代理表现不佳，甚至以不希望的方式做出反应。然而，它的有效性在很大程度上依赖于两人博弈中的零和假设。在这项工作中，我们提出了一种新的对抗式学习算法。它通过在学习过程中重置优化目标和设计新的代理优化函数来解决该问题。我们的实验表明，与现有的攻击相比，我们的方法显著提高了对手代理的可利用性。此外，我们还发现我们的方法可以增强代理滥用目标博弈不公平性的能力。最后，我们证明了针对我们的对抗性代理进行对抗性重新训练的代理可以获得更强的对抗性。

本期AI TIME PhD直播间，我们邀请到宾州州立大学博士——郭文博，为我们带来报告分享《对抗深度强化学习策略的训练和理论保障》。

郭文博：

宾州州立大学博士，研究方向主要是机器学习和安全，并在相关领域的顶级期刊与会议上发表论文多篇，包括ICML，NeurIPS， CCS， USENIX Security， NDSS等。获得ACM CCS Outstanding Paper Awards，， IBM PhD， Fellowship Award，以及Facebook/Baidu Ph.D. Fellowship finalists, 。

背景

深度学习在计算机视觉、自然语言处理、恶意软件检测等领域的表现都享有主导地位，近年来整合深度学习的强化学习（DRL）在许多决策任务上都有优异的表现，具体可参考下图的三篇工作。DRL在游戏中也有很广泛的应用，比如AlphaGo、扑克、星际争霸、Dota等。

下面简单介绍一下强化学习背景。参考下图，在一个环境中有一个agent，这个agent根据环境（environment）发出的观察结果（observation）在每个时间段输出一个动作（action）。Environment会接收agent的action，转移到下一个状态，并对agent的action做出reward评估，然后发出下一个观察结果。

强化学习算法的目标是学习一个最优策略（Policy），根据该策略，agent可以在一段时间内获得最大数量的reward。

方法

首先我们介绍一下本文如何学习一个agent。

我们用Policy网络为Policy建模，输入是环境给出的observation，输出是agent给出的action，通过Policy gradient法来训练Policy 网络。Value网络用于近似一个值函数，使得最终Policy网络产生的action可以获得最大数量的reward。在每次迭代中通过最小化近似误差来更新Value网络，通过最大化Value函数更新Policy网络。

现有的DRL攻击能够通过Threat Model来干扰observation并迫使DRL agent采取次优action。下图在Observation加入背景扰动攻击，input几乎无变化，但是由于这个攻击的存在，会使得最终的action变化很大。

另外，背景扰动攻击有时是不切实际的，比如自动驾驶场景下，无法改变天空等环境的observation。有一篇ICML的文章（Gleave, et al, ）提出一种可以不改变环境的attack：将受害者agent视为环境的一部分，训练对抗agent以获得最大reward（即，在受害者agent参与的情况下，使对抗agent的价值函数最大化）。这篇工作的缺点是无法证明非零和设置的有效性，对抗agent无法有效阻止受害者agent获得奖励，也无法完成任务。

因此，本文提出了一个attack方法，在最大化对抗reward的同时防止受害者获得奖励——在学习目标函数中明确设计这两个目标，如下图。该目标函数最大化了对抗agent的值函数，同时最小化了受害agent的值函数。这里，是一个联合策略。

但在这个目标函数有个挑战，看过TRPO文章的应该了解到，如果要训练一个有效的强化学习agent，在训练过程中，目标函数的值是单调变化的，即保证下面的单调性。

那我们是如何保证这个单调性的呢？我们将Markov game退化为单个agent的环境，受TRPO设计的启发，我们通过设计预期reward差的近似值——M函数来解决上述单调性挑战。

实验

我们使用五个选定的游戏（即四个MuJoCo游戏和星际争霸II）来评估我们提出的学习算法。

Exploitability评估结果：

对抗性agent对受害者agent的性能比较。对抗性agent通过两种不同的方法获得——本文提出的方法（红线）和现有的方法（蓝线）（Glave等人，）。请注意，较暗的实线表示平均获胜（加平局）率，而较亮的条带表示最大和最小获胜（加平局）率之间的相应变化。突出显示的y轴标签是迭代总量中最高的平均获胜/非失败率。

Adversary Resistance评估结果：

使用我们提出的目标函数，针对我们的对抗性agent对受害者agent进行再训练。下图的表现说明attack可以帮助提升鲁棒性。

与我们的对抗性agent和通过现有攻击获得的对抗agent一起，扮演针对我们的对抗agent重新训练的受害者，反之亦然。

下面的实验是为了比较一下本文方法与ICML文章（Glave等人，）相比，在鲁棒性方面的表现。表中的数字是经过再训练的受害者agent的胜负加平局。实验结果符合我们的假设：attack可以帮助提升鲁棒性，当攻击者越强，模型鲁棒性相应地会越强。

提

醒

论文链接：

http://www.personal.psu.edu/wzg13/publications/icml21_1.pdf

论文题目：

Adversarial Policy Learning in Two-player Competitive Games

点击“阅读原文”，即可观看本场回放

整理：AI Timer