200字范文 > AlphaStar再升级：多智能体强化学习玩《星际争霸2》排名超99.8%人类玩家

AlphaStar再升级：多智能体强化学习玩《星际争霸2》排名超99.8%人类玩家

时间：2019-04-21 21:13:34

【进群了解最新免费公开课、技术沙龙信息】

作者 | DeepMind 译者|刘畅编辑 | Jane 出品 | AI科技大本营（ID：rgznai100） AlphaStar是第一个在没有任何游戏限制的条件下进入电竞顶级联赛的AI。《星际争霸2》是有史以来最持久、最受欢迎的实时策略视频游戏之一。今年1月，AlphaStar的初步版本挑战了《星际争霸2》中的两个世界顶级玩家。从那以后，我们进行了更大的挑战：在经过专业批准的条件下，与大师级别的玩家进行对抗游戏。我们的最新研究在几个关键方面上与先前的工作有所不同：1、AlphaStar现在有和人类一样的约束——包括通过摄像机观察世界，以及对其动作频率有着更强的限制。 2、AlphaStar现在可以和神族、人族和虫族进行一对一的对战，这三个种族在星际争霸2中都有出现。每一个神族、人族和虫族都是一个单一的神经网络。 3、联盟的训练是完全自动化的，只从监督学习训练的代理开始，而不是从以前实验中训练的代理开始。 4、AlphaStar在官方游戏服务器上进行游戏，使用与人类玩家相同的地图和条件。所有的比赛回放都可以被观看。我们选择使用通用的机器学习技术（包括神经网络，通过强化学习进行自我游戏，多智能体学习和模仿学习），直接从游戏数据中学习。根据我们在《自然》杂志上发表的文章，AlphaStar在上的玩家排名超过99.8%，并在《星际争霸2》的三个种族:神族、人族和虫族中都达到了大师级别。我们期望这些方法可以应用到许多其他的领域。基于学习的系统和自我游戏是优雅的研究概念，它们促进了人工智能的显著进步。1992年，IBM的研究人员开发了TD-Gammon，将基于学习的系统与神经网络结合起来玩西洋双陆棋。TD-Gammon不是根据硬编码规则或启发式游戏，而是利用强化学习，通过反复试验，找出如何在游戏中最大化获胜概率。

开发者使用了自我游戏的概念来使系统更加健壮:通过与自己的版本进行游戏，系统在游戏中变得越来越熟练。当结合起来，基于学习的系统和自我游戏的概念提供了一个开放学习的强大范例。此后的许多进展表明，这些方法可以扩展到逐渐具有挑战性的领域。例如，AlphaGo和AlphaZero证明，一个系统可以在围棋、国际象棋和围棋上获得超人的表现，OpenAI Five和DeepMind的FTW在《Dota 2》和《Quake III》的现代游戏中展示了自我发挥的力量。在DeepMind里面，我们感兴趣的是了解开放式学习的潜力和局限性，这使我们能够开发出强大而灵活的代理，以应对复杂的现实世界领域。像《星际争霸》这样的游戏是推进这些方法的绝佳训练场地，因为玩家必须使用有限的信息来做出动态且困难的决定，而这些决定将在多个关卡和时间尺度上产生影响。

AlphaStar的游戏玩法令人印象深刻——该系统非常擅长评估其战略位置，并准确地知道何时与对手交战或脱离。虽然阿尔法星拥有出色而精确的控制能力，但它感觉不到超人的存在——当然不会达到人类理论上无法达到的水平。总的来说，这感觉很公平——就像在玩一款“真正的”星际争霸游戏。尽管这种游戏取得了成功，但它也存在着众所周知的缺陷。最突出的一个是遗忘：一个与自己作对的对手可能会不断改进，但它也可能忘记如何战胜自己以前的版本。遗忘会造成一个代理人“追逐自己的尾巴”的循环，永远不会趋同或取得真正的进步。例如，在“石头-剪刀-布”游戏中，代理当前可能更喜欢玩“石头”。随着自我游戏的进展，一个新的代理将会选择转换到纸上，就像它战胜了石头一样。稍后，代理将切换到剪刀，并最终回到石头，创建一个循环。应对这一挑战的一种解决方案是假想的自我游戏——与所有先前策略的组合进行游戏。在第一次将《星际争霸2》开源作为研究环境后，我们发现即使是虚构的自玩技术也不足以产生强大的代理，所以我们开始开发一个更好的通用解决方案。我们最近发表在《自然》杂志上的一篇论文的一个中心思想是，将虚拟自我游戏的概念扩展到一群代理人——联盟。通常在自我博弈中，每个个体都最大化自己战胜对手的概率；然而，这只是解决方案的一部分。

在现实世界中，想要提高《星际争霸》的玩家可能会选择与朋友合作，这样他们就可以训练特定的策略。因此，他们的训练伙伴不是为了赢得每一个可能的对手，而是暴露他们朋友的缺点，帮助他们成为一个更好的和更强大的球员。的关键洞见联盟是玩赢是不够的:相反,我们需要两个主要代理的目标是赢得和每个人，和剥削者代理商，致力于帮助暴露其缺陷主要代理发展壮大，而不是最大化自己的赢率对所有球员。使用这种训练方法，联盟将以一种端到端的、完全自动化的方式学习所有复杂的星际争霸2战略。探索是星际争霸等复杂环境中的另一个关键挑战。在每一步中，我们的一个代理可以使用多达1026种可能的操作，并且代理必须在学习它是否赢得或输掉游戏之前执行数千种操作。在如此庞大的解决方案空间中，找到制胜策略是一项挑战。即使有一个强大的自我游戏系统和一个多样化的联盟的主要和开发代理人，几乎没有机会的系统开发成功的战略在这样一个复杂的环境没有一些事先的知识。

学习人类的策略，并确保智能体在自我游戏中不断探索这些策略，是解开AlphaStar表现的关键。为了做到这一点，我们使用模仿学习——结合先进的神经网络架构和用于语言建模的技术——来创建一个初始策略，它比84%的活跃玩家玩得更好。我们还使用了一个潜在的变量，它决定了策略的条件，并编码了人类游戏中开放动作的分布，这有助于保持高级策略。AlphaStar随后在自我游戏中采用了一种升华的形式，对人类策略进行了偏见性的探索。这种方法使AlphaStar能够在单个神经网络中表示许多策略(每个种族一个)。在评估过程中，神经网络不以任何特定的开口动作为条件。此外，我们发现许多之前的强化学习方法在《星际争霸》中是无效的，因为它有巨大的动作空间。特别是，AlphaStar使用了一种新的策略外强化学习算法，这种算法允许它从旧策略玩的游戏中有效地更新策略。

利用基于学习的主体和自我游戏的开放式学习系统在越来越具有挑战性的领域取得了令人印象深刻的成果。由于模仿学习、强化学习和联盟方面的进步，我们能够在没有任何修改的情况下训练AlphaStar Final，即在《星际争霸2》完整游戏中达到大师级别的代理，如上述视频所示。这名特工匿名在线玩游戏，使用游戏平台，并通过所有3个星际争霸2种族获得了特级大师级别。AlphaStar使用的是一个摄像头界面，其信息与人类玩家所拥有的信息相似，并对其动作速度进行了限制，以使其与人类玩家相媲美。界面和限制是由专业玩家批准的。

最终，这些结果提供了强有力的证据，证明通用学习技术可以扩展人工智能系统，使之在复杂、动态的、涉及多个参与者的环境中工作。我们用于开发AlphaStar的技术将有助于进一步提高人工智能系统的安全性和鲁棒性，我们希望，这些技术可能有助于我们在现实世界领域的研究。

参考资料：

/blog/article/AlphaStar-Grandmaster-level-in-StarCraft-II-using-multi-agent-reinforcement-learning

/deepmind-media/research/alphastar/AlphaStar_unformatted.pdf

/articles/s41586-019-1724-z

（*本文为 AI科技大本营编译文章，转载请微信联系 1092722531）

◆

精彩推荐

◆

中国大数据技术大会（BDTC）再度来袭！豪华主席阵容及百位技术专家齐聚，15 场精选专题技术和行业论坛，超强干货+技术剖析+行业实践立体解读，深入解析热门技术在行业中的实践落地。5 折票倒计时 1 天！