200字范文 > 观点|基础模型产业发展路在何方？李飞飞等共话基础模型未来趋势

观点|基础模型产业发展路在何方？李飞飞等共话基础模型未来趋势

时间：2020-06-25 20:14:11

【专栏：前沿进展】8月，美国斯坦福大学李飞飞等学者联名发布「基础模型：机遇和挑战」的综述文章。8月23日，上述学者在纽约召开「Workshop of Foundation Models」研讨会，来自美国高校和科研机构的专家学者们参会并分享了他们的研究成果。

参加本次研讨的有：斯坦福大学教授李飞飞、斯坦福大学教授Chris Manning、华盛顿大学教授、AI2研究院高级研究经理Yejin Choi、斯坦福大学副教授Percy Liang、斯坦福大学助理教授马腾宇、香港科技大学教授Pascale Fung、OpenAI联合创始人兼首席科学家Ilya Sutskever等。

研讨会分两天进行，第一日主要对基础模型进行介绍，参与研讨的嘉宾主要就这些模型带来的机遇、技术机理等进行讨论；第二日的主题则涉及工业应用、社会伦理等方面的议题。本文是对研讨会一些重点内容的梳理。

研讨会视频回看可访问智源社区官网：https://hub./view/9439

整理：赵言、秦红川、程庆、马瑞军、牛梦琳

审校：戴一鸣

一、什么是Foundation Model

在开篇演讲中，李飞飞首先介绍了斯坦福大学新成立的基础模型研究中心（CRFM），这是一个横跨多个学科多个领域的研究中心，研究中心的目标是在基础模型研究的开发和部署方面取得根本性进展，采取以人为本的方法来帮助人工智能的进一步发展。

李飞飞提出，要实现最终的目标，离不开各个领域之间深入的跨学科合作，包括学，历数学，物理学，经济史学，医学，法学，政治学，神经学，哲学等等，学者们致力于探索进行人工智能研究和教育的新蓝图。

以下内容为李飞飞和Percy Liang的演讲内容，智源社区进行了整理。

1. 基础模型：技术涌现和研发同质化

Liang认为，人工智能正在经历一场范式转变。当前出现的基础模型，如GPT3等，是这一范式转变的开始，这种转变将对人工智能技术的发展和应用产生深远的影响。

基础模型基于几十年前的自监督学习的理念。Percy Liang用了两个词来描述基础模型，即涌现和同质化。所谓「涌现」，意味着一个系统的行为是隐性推动的，而不是以显式的方式构建的；所谓「同质化」，即基础模型的能力是智能的核心，大模型的任何一点改进会迅速覆盖整个社区，而其自身的缺陷也会被所有下游模型所继承。

1.1 基础模型的涌现

涌现是指基础模型改变了AI解决任务的方式。在以往的工作中，研究者首先会设计、建立一个AI系统，然后完成一些任务，如机器翻译。有了基础模型后，大量的工作将关注于建立基础模型（即基础模型的涌现），然后再去发掘基础模型的能力，从某种意义上来说，这和工程已经脱离了关系，而是更多的科学发现的过程。

1.2 基础模型的同质化发展

同质化这一现象和社会学更为相关。AI的每一项任务都有他自己的主题和独特的解决方法，比如问答系统，翻译，句法分析，情感分类等等，但是人工智能的主旨一直是同质化的（建立模型，然后解决任务）。从机器学习到基础模型的发展过程中，同质化正在逐渐实现。基础模型没有接受过任何特定任务的训练，但是却可以有效地将其应用到一系列下游任务中（这已经是很多研究都在尝试使用的方法）。

2.基础模型存在的缺点和潜在问题

2.1 基础模型的缺点

目前，基础模型仍有一些问题。首先是模型缺乏对世界的常识，例如，GPT-3可能会认为铅笔比烤面包机重；其次，模型缺乏内部一致性，可能会得到错误的结果和不正确的信息。例如，GPT-3知道1000加上4000等于5000，但如果从输入中删除一部分信息，它得到的答案是错误的。

现有的基础模型尽管令人印象深刻，但仍然显示出对事物深层理解能力的不足，这种缺点在用于一些工程领域上时，可能有致命的问题，尤其是飞机制造业、桥梁建筑业等。

2.2 基础模型的潜在危害

更让人担心的是，基础模型可能会给社会带来危害，尤其是社会边缘人群。例如，GPT-3的行为是由训练数据决定的，而这些数据大都来自互联网，这会导致隐私问题，也可能会产生大规模的虚假信息。

由于基础模型的独特优势，大型技术公司都在开发基础模型，并进行大规模部署。例如谷歌搜索已经使用BERT作为排序算法的一部分；自底以来，Facebook一直在使用RoBERTa、XLM等模型，智源研究院发布悟道2.0等，基础模型有很多原始的潜力。

但是驱动公司使用这些模型，背后都存在着巨大的经济利益，但是市场又缺乏规范的监管政策，相关从业者应当需要行动起来，确保模型可以合法合理地开发和部署，提升社会效益，将风险降至最低。

3. 基础模型的发展需求

3.1 模型训练需求

基础模型的发展需要遵循开放的原则。深度学习和人工智能变革是由开放的文化和生态驱动的，但是在基础模型领域，这种开放文化正在被数据集和代码等方面的因素影响，研究活动变得越来越私密。

开放是科学诚信的基本要求，开放使学者们可以互相学习、批判、验证彼此的工作。对于基础模型而言，开放是必要条件，但是不是充分条件，因为训练大型模型需要工程师专业知识和大量的算力资源，是团队共同努力才能达到的成果。

模型的易用性也非常重要，仅仅改进核心方法的或者使用较小的模型去部署是不够的，只有扩大模型规模时，才能看到大模型应有的潜力。

另外，仅仅使用一个基础模型，可能从根本上限制了能够解决的问题，这也就失去了同质化研究的优点。机器学习是关于数据的过程，只有在现有的基础上，对学习方法不断地研究和改进，才能真正去理解模型，而不是只看别人训练的模型。

最后是多样性。现在的人们对于基础模型在鲁棒性问题上存在很深的偏见，我们需要重新解决这些问题，这需要很庞大的计算资源，如何缩小（研发机构之间的）资源差距是一个非常重要的问题。

另外的问题是，研究者现在也不希望由少数几个组织来决定未来AI技术发展的方向，而且当前还缺乏基本的行业规范，比如什么时候发布模型是安全的，是否应该在训练前过滤有害内容，是否应该建立基础模型等。

为了回答这些问题，从业者们就需要采纳更多不同的看法。想要了解多样性差异，就要确保利益相关者（特别是受影响的少数群体），在人群中有代表性，才能为这些模型的未来走向作出预测。

另外还需要研发机构本身的构成更为多元，最后，考虑到模型的高度社会化和技术性，基础模型研究的学科也应该具有多样性，团队不仅要包括人工智能研究人员，甚至还应当有法律、政治学、经济学、信息科学和社会学的专家。

3.2 社会和环境对基础模型的要求

基础模型需要从两个方面着手规范技术的发展。首先是基础模型的构建工作。训练大型模型需要的工具和专业知识，使这些模型可以支持广泛的研究项目。开发者需要将开源工具与不同领域的专家结合起来，使模型的训练过程更加开放和便捷，便于研究者根据已有数据训练自己的模型。

其次是建立基础模型的社区，帮助人们互相了解、分享和进步，从彼此的项目中获得更多灵感。现在Percy教授的团队建立的社区有很多不同领域的组织和学生，每周会定期研讨和交流，可以吸收来自不同领域的人的意见、知识，向来自各行各业的人学习。

4. 基础模型的发展趋势

目前为止，基础模型正在朝着所有人都不了解的方向发展。如果要想了解开发的技术对社会可能会产生什么定向影响，就需要与社会科学家等其他领域的研究者共同合作，弄清楚我们真正想要建立一个什么样的社会，从而保证基础模型的发展。

这里有一些几点未来基础模型发展的可能性。首先未来基础模型的训练任务可能会集中在某一个组织上，该组织有强大的算力资源和数据，这在某种程度上可以减少安全性和滥用等方面的问题。

其次是将这种集中化扩展到数据层面，比如联邦学习。如果每一个用户都可以训练模型，训练数据的隐私和安全问题将是一大挑战。如果从数据的角度考虑整个生态系统的构成，应当有更为清晰的描述数据集和模型属性的规范，就像规格表一样，所以数据处理是非常重要的工作。

业界现在有非常大的数据集，但是这不一定是必要的，最近一些研究表明，即使是生成的数据，也可以让基础模型从中获得一些好处，从而减轻模型对于训练数据的需求。

总结而言，目前我们还处于基础模型的早期阶段，这些模型的发展之快令人难以置信，他们看起来很简单，只不过是大规模的自监督学习模型，但是正是这种看起来的简单的系统才让未来变得很不确定。

基础模型的出现意味着，基于基础模型整个人工智能生态系统的压力很大，风险也更高，如果能打好基础，就能打造更高效、公平、稳健的系统。反之，我们AI生态可能会处于一种非常不稳定的状态。因此，要想打造更好的基础模型，使其服务社会和人类，需要人工智能社区和相关人员的共同努力。

二、基础模型的技术讨论

为了推进人工智能研究的发展，8月23日来自华盛顿大学计算机科学与工程学院的教授Yejin Chio和Tengyu Ma等人参加了在纽约召开的Workshop of Foundation Models的研讨会，会上讨论了当前人工智能中基础模型所面临的机遇与挑战。本文将对Yejin Chio和马腾宇的课题进行简要说明。

1. 超大规模模型的参数增长问题

Yejin Chio演讲的课题名称是David V.S. Goliath: the Art of Leaderboarding in the Era of Extreme -Scale Neural Models。作者首先抛出两个问题：1）我们真的不能利用小模型来达到AGI吗？2）没有大规模的计算量，就不能对学术界的研究产生影响吗?

考虑到以上两点，Yejin Chio表示，在现在的AI领域的各大排行榜上，已经演变为模型、数据和计算量等方面的规模之战。我们可以不断的去为模型设计新的、多样的、更难的测试环境、让AI解决的任务更具有真实意义，通过更智能的算法和更大量的数据去影响我们的日常生活和科技发展。

本次演讲围绕着“模型是否越小越好”这一主题展开讨论，主要包括3D世界的学习交互、复杂的多模态模型、Symbolic知识和无监督推理算法。

1.1 真实世界交互学习

第一个部分是关于在三维世界中通过神经符号互动的语言模型，目的是解决所有的象征性基础问题。需要做的是以某种方式改变我们的神经元结构，以便从实际交互中学习，并在实际环境中学习因果、逻辑等常识性的知识。

举个例子，比如在室温下有一个鸡蛋，在t时刻它还没有煮熟，在t+1时刻，也许鸡蛋现在熟了，温度是热的，这就启发我们可以将这种物理性质的动态变化，整合到语言学习模型的的典型架构中。

另外，模型越小性能不一定差，因为小模型可以便于调整优化。从GPT3和T5-11B的对比就可以看出，T5-11B比GPT3小近100倍，但精度却很优越，就像 Thor three 3D的环境，较大的型号并不总是表现良好。

总结一下这部分，在解决问题时，应该利用因果、逻辑的常识信息去测试大规模的模型，因为逻辑对于大规模语言模型去理解学习来说，并不是一件容易的事情，它们无法接触到事物的逻辑层面，而我们确实证明了可以用更小的数据、更小的模型来将任务完成的更好。

1.2 多模态表示学习

第二部分是多模态表示学习，目的是通过学习多模态信息来获得大规模的知识。举个例子，对于Youtube上的600万个视频，如果想不吃不喝不睡的看完这些视频，可能也需要几十年的时间，而若是利用模型去学习到结合图像帧、音频，还有很多超越了图像的信息内容，则可以大幅度减少在时间上的消耗。

因此，我们可以结合这些丰富数据来确定新的学习目标。通过以下三种方法提取数据的高阶信息：

帧内容文本匹配；

对文本的Mask LM 掩码语言模型；

打乱帧顺序。

总结一下这部分，我们可以通过多模态表示学习去识别高阶知识。如果从头开始训练模型，已经能够获得相当水平的zero-shot常识。实验表明，通过一些视觉纹理和因果推理，我们可以在13个不同的任务上获得新的SOTA；并且性能已经比绝大部分工业模型更加优越。

1.3 知识学习

第三部分是另一种学习类型：知识，特别是符号性的知识信息。这要从简单的知识蒸馏说起，简单来说，就是从现有的语言模型中提炼出更精准的因果常识。

我们通常会考虑将较大的语言模型压缩为较小的模型，要做的就是将大规模模型利用因果知识转换为小模型的特殊操作。目的就是将一般的模型转换成知识模型。

总结一下这部分，我们通过蒸馏将模型压缩到更小，将GPT-3和ATMOIC相结合，提出COMET distill，该模型更小，但是推理性能更好。

1.4 推理算法

这一部分更侧重于推理和算法。很多时候我们使用序列来对模态进行排序，任何产生语言、翻译、对话的模型，都能生成或者图像字幕。比如，通过大量的训练数据来进行微调监督，实现用一组单词来生成句子。

2. 基础模型理论和分析框架

马腾宇的演讲名称是Theory For Foundation Models: Analysis Framework, Recent Results, and Challenges。课题研究的四个主要目的：1）能够预测来自真实现实世界中的数据，而不是实验条件下有局限的数据；2) 减少模型的计算量；3）引导模型从逻辑角度出发去做智能决策；4）激励采用新的方法新的思路去大胆尝试。

马腾宇指出，短期的目标先是跟踪问题、然后分析现有的理论方法、最后解释观察到的现象。

2.1 评价基础模型的理论框架

在会议上，马腾宇分析说，当人们在谈论AI模型时，如果真的能理解它的原理以及应用领域就再好不过了，但是事实是人们不理解为什么模型会产生特定的输出，这归因于所谓的“黑箱”模型，人类的认知仍然受到很多限制，尤其是在理解语言上。

那么我们应该如何思考去改变未来的模型架构？以及这个架构如何能更加倾向于人类的思考方式？想要实现这一点，在短时间内是非常困难的，但是可以肯定的是，我们想要的模型不仅仅是去记住数据，更应该保证它确实在学习，并且拥有一定的泛化能力，可以去正确处理来源于现实生活中的数据。

将GPT-2和GPT-3相比较来看，我们首先来探讨是否应该从架构上对模型做出改变，相比于GPT-2，GPT-3拥有更多的数据和更大规模的模型参数，马腾宇认为架构上的推动才应该是未来应该做的，现如今的预训练模型虽然为我们提供了很多遍历，但是一味的增大数据量，增加模型的参数规模，并不能更好的应对未来的挑战。

由于采用监督学习可能造成较大的偏差，因此，构建理论框架的方法应尽可能地减少监督学习。使用语言模型的参数量是根据损失大小而定的，并且需要首先确定一个参数子集，然后评估一个整体的数据分布情况。

那么如何基于理论框架来减少监督学习呢？可以基于特殊的规定法则、函数和实际数据分布等来实现这一点。出于时间考虑，马腾宇并没有给出一些具体的做法，也许在未来会进行深入研究。

2.2 认知学习

接下来主要探讨认知学习，这个算法的原理就是试图通过将相同图像表示在高位空间上推得更近，同时也将不同图像表示推得更远。所以在我们的语言中，这是一种对比鲜明的分界线。而适应损失是一个带有自适应参数的分类律，这意味着表示它必须有一定的几何结构。

举个例子，比如有一些采用固有距离定义的不同方式的灰色流形，使得两张相同图像之间的距离很近，但它们的距离很小，因为它们可以通过相邻图像上的图像序列来进行；另一方面，假设你有狗和猫的数据，却不能用一系列的自然图像对狗和猫进行实验，因为它们的空间距离很大。

2.3 基础模型的技术挑战

在未来，马腾宇认为还有很多技术挑战：

对数据的总体分布需要有正确且现实的假设；

需要更多的数学工具来处理这些数据分布和描述模型的内部工作；

如何建立一个框架来进行情境学习；

需要不同的机制和理论来对上下文学习。

最后，指出该团队的最终目标就是建立一些理论来帮助相关研究在未来创造新的事物，虽然目前没有达到SOTA，但在不久的将来是可能的，希望有一天能有更好的理论来引导未来更好的方法。

三、基础模型的应用

与会嘉宾和学者针对基础模型潜在的应用机会、领域和场景进行了讨论。该Panel部分的讨论内容整理如下：

1. 基础模型的应用机会和挑战

1.1对话系统

基础模型应用于可应答的会话AI系统中，使系统产生巨大的改进。AI的对话方式将更加流畅，更像人类。但同时，由于用户并不能很好地控制系统，基础模型有时又会以一种类似人类的方式，给出不负责任的答案。如何确保这些模型的安全性是一个巨大的挑战，也是人们使用基础模型时的主要阻碍。

目前，会话AI系统远远没有达到人类的水准。实际上，它并没有充足的长期记忆，甚至不能回答真实会话中的多天数、多线程问题。而实现个性化是需要一致性的。基础模型虽然使系统的回答很流畅，但是从一段会话转移到另一段时，并没有体现出一致性。

另外，多跳推理对于对话AI非常重要。基础模型虽然增加了系统问答的流利性，但系统并没有因此学会更复杂的逻辑。只进行句子间的会话时，它的回答是有逻辑的。可一旦面对更长时间，更复杂的对话问题，会话AI系统的逻辑性就会变得非常脆弱。

1.2 自然科学研究

现在一些人认为基础模型或能够推动AI在生物学、化学等自然科学领域应用。但一些与会专家认为，在对纯粹复合物的生物或生化过程的预测方面，基础模型仍然无法开发足够强大的预测模型或者满足计算要求的理论。

实际上，目前的基础模型很难得到广泛的应用。通过基础模型得到“最佳”结果只能保证它在技术上的最优，但在社会生活中，获得数据的过程本身可能会与个人的隐私保护等问题产生巨大的冲突。

1.3 编程

当GPT-3问世时，人们发现：从GPT-3中提取的代码可以自主运行，并根据语言描述生成小段的代码。这解决了困扰编程领域多年的一个问题：如何实自动化的综合性编程。通过代码模型（Code models），用户可以慢慢训练自己的文本，使它运行并产生正确的代码来解决许多复杂问题。

与GPT-3这种文本到文本的模型不同，代码模型写出的代码可以在电脑上运行，在输入文本后，计算机会执行这些文本中的命令。这是最能令人感到随心所欲的一个应用。另外，模型越完善，它们的可控性越高，可实现性也会越强。这一点对应用来说非常重要。然而，在语义和安全性方面，基础模型仍然存在许多问题，这可能会导致模型应用失败的原因。

2. 改善基础模型能力的方法

2.1 基础模型的学习方式和人类不同

基础模型似乎并不以人类的方式学习，这一点很重要。如果把语言模型和人作对比，人类可能只知道一个细致的词汇和一些细节，而系统的知识储备更为广阔。这就是为什么人们认为基础系统很聪明，但由于某种缺失，它们仍然会出错。同时，随着模型变得更完善和复杂，系统当前的效率会被更新，它会变得更加精确，然后产生新的结果。

基础模型出错的概率的确存在，但错误的分布通常与人们的期望不同。事实上，这些模型的学习方式与人类不同，所以它们的错误也与我们不同。所以问题在于，我们何时才能将系统交付于一个没有培训经验，没有训练直觉的用户手中进行应用。

2.2 提升对基础模型的信任很重要

如果代码的执行和循环过程中没有人类参与，就需要Codex解释为什么这个代码是正确的。然而有时，Codex准确地执行了正确的代码，但人类却无法理解。这需要考虑如何合理地适应这些模型。

要信任一段代码，需要确保它适用于所有的可能性。从实践标准来看，则需要一位软件开发人员，通过代码的架构尝试推断这段代码是否适用于所有可能。

一般来说，对于需要解释的代码，它对应的模型通常运行良好。可以通过修改表层模型使代码转回简明的描述。如果再添加上搜索组件，那么可解释性会变得更强。

但从更广泛的角度来说，要“信任”这些模型必须基于统计数据。比如，给出出错概率，然后根据某些应用程序确定模型是否可信。这意味着我们将能够追踪这种错误概率，并决定我们在哪些情况下可以信任该模型。

2.3 基于基础模型建立有效的应用体系

对于基础模型这种新兴技术，以往的应用经验是有限的。这是一个非常复杂的领域，某些情况下肯定缺乏正式可验证性（formal verifiability ）的概念。

在提升基础模型性能的研究方面，当前人们主要尝试研究表征失败的模型，并表征这些失败数据的分布，以便仔细考虑在特定过程中使用这些系统的激活措施，同时，通过自然的方式与用户建立信任。

此外，统计正确性对于基础模型而言非常重要。对那些对安全性要求较低的应用，统计措施非常有用。那么我们如何将这些统计组件放入黑匣子中？一是构建全新的应用程序；二是在现有规范中建立系统。

某些情况下，这些模型可能会失控，所以必须明确规范的方法。如果要探索和建立新的规范，必须弄清楚人类如何能够以架构师的方式对基础模型的系统进行调整，并确保可控性。

欢迎点击阅读原文参与文章讨论。

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。