200字范文 > ACL 杰出论文奖是怎么炼成的？

ACL 杰出论文奖是怎么炼成的？

时间：2019-04-30 18:42:10

相关推荐

ACL 杰出论文奖是怎么炼成的？

论文作者：上科大、达摩院联合团队

论文链接：/.acl-long.173.pdf
GitHub链接：/vickywu1022/OntoProbe-PLMs

ACL (Association for Computational Linguistics）会议是计算语言学和自然语言处理领域的顶级国际会议，同时也是CCF-A 类推荐会议。第61届ACL会议于7月9日至14日在加拿大多伦多举行。本文*Do PLMs Know and Understand Ontological Knowledge?*荣获ACL 杰出论文奖。

摘要

本体知识（ontological knowledge）包括类、属性及其关系，是构建世界知识（world knowledge）必不可少的部分。我们关注预训练语言模型是否存储了本体知识，及是否能够理解这些知识的语义。为了探究预训练语言模型对本体知识的记忆，我们研究了预训练语言模型是否编码下列知识：（1）实体的类型；（2）类和属性的层级关系；（3）属性的领域（domain）和范围（range）约束。为了进一步探究预训练语言模型是否真正理解了这些知识，我们综合考察了它们是否能够遵循本体知识推理规则进行正确的逻辑推理。我们的探测结果表明，预训练语言模型能够记忆一定的本体性知识，并在推理中利用记忆的知识；然而，无论是记忆还是推理的效果都不够完美，说明预训练语言模型的记忆和理解能力仍然较为局限。

一、背景介绍

近年来，研究者们通过设计探针（probing）任务对预训练语言模型（Pretrained Language Models, PLMs）进行测试，通过模型在任务上的表现，证明语言模型在预训练阶段学习到了大量知识。然而现有的知识探针工作主要关注事实性知识（例如，模型是否知道足球巨星莱昂内尔·梅西是一名阿根廷人），但缺乏对本体知识的系统性探索。

什么是本体知识呢？本体知识描述了类和属性、以及它们之间的关系，是构建知识系统和启发知识的重要基石。如下就是一个本体知识图谱。

本体知识可以帮助模型更好地理解现实世界中的对象及其关系，在问答等许多NLP任务中起着至关重要的作用。因此，探究预训练语言模型是否记忆和理解本体知识，能够拓展学术界对语言模型认知能力的认识，在这个大模型快速发展的时代具有重要意义。

二、探针方法

我们研究了基于编码器的预训练语言模型BERT和RoBERTa，以及基于解码器的大模型ChatGPT。对于编码器结构模型，我们使用基于提示词（prompt）的探针方法，探究模型是否能够根据未被遮盖的上下文预测出正确的答案；而对于解码器结构模型，我们则将需要填空的提示词转化成多项选择题，探究模型是否能够给出正确的选择。

2.1 记忆任务

记忆任务由五个子任务组成，每个子任务探测预训练语言模型对一种本体关系的记忆：

给定实例的类型。

给定类的超类。

给定属性的超属性。

给定属性的领域约束。

给定属性的范围约束。

我们使用人工提示和可训练的软提示（soft prompt）进行探针测试，为每种本体关系设计了如下提示词。

模型基于对数概率对每个候选词进行打分。给定一个候选词，它被分词器（tokenizer）分割成个词，即，其中是模型的词汇表。我们使用个[MASK]或者单个[MASK]让模型进行预测，获得模型预测每个词的对数概率，再通过取平均、最大值、或是取第一个词概率的方法，计算出整个候选词被预测的对数概率。

2.2 推理任务

我们根据资源描述框架模式（Resource Description Framework Schema, RDFS）中规定的规则构建推理任务，每个推理子任务探索预训练语言模型按照一条三段论规则进行推理的能力。对于每个前提，我们区分模型输入中是否明确包含前提，并利用记忆任务的探针结果进一步区分这个前提是否被模型记忆，探究前提的不同形式对模型推理的影响。

为了防止模型通过对假设的记忆而非推理过程得出正确结论，我们使用生造词替换假设提示中包含的特定实例、类和属性。对于编码器结构的模型，我们通过创建没有特殊语义的词嵌入来获得预训练语言模型的生造词。

具体而言，我们在[MASK]的给定距离处采样词嵌入，因为[MASK]可用于预测词汇表中的所有单词，并且可以出现在句子的任何位置。采样距离应小于[MASK]和静态嵌入空间中任何其他词之间的最小L2距离，即:其中，代表词的静态词嵌入，为系数。

三、实验结果与发现

3.1 记忆任务

通过对实验数据的分析，我们发现：

BERT和RoBERTa模型可以记忆一定的本体知识，但并不完美。

BERT和RoBERTa在记忆任务中击败了一个较强的频率基线模型。这表明，在预训练过程中，语言模型不仅学习了关于实体的事实性知识，而且学习了事实背后更加抽象的本体关系，这对于模型更好地组织对于世界的认识至关重要。然而，模型在五个子任务上的准确率还有很大提升空间，表明模型对本体知识记忆的局限性。

ChatGPT 相比于BERT模型，在记忆任务中准确率有了显著提升。

由于多项选择与填空的难度并不直接可比，我们将多项选择形式的提示词输入给BERT-base-uncased模型，并与ChatGPT进行比较。从下表可以看出，在大多数与本体知识相关的记忆任务中，ChatGPT在准确性方面明显优于BERT-base-uncased，展现出更强的本体知识记忆能力。

3.2 推理任务

通过对实验数据的分析，我们发现：

BERT和RoBERTa模型对本体知识的理解也是比较有限的。

下图展示了对所有推理规则和BERT与RoBERTa模型取平均之后的推理表现。当输入文本中明确给出时，模型能够显著提高正确答案的排名。由于包含了需要预测的正确答案，这就使人怀疑表现的提升并非通过逻辑推理获得的，而是因为模型倾向于预测输入中出现的词及相关词汇。当前提被隐式给定时，MRR高于前提未给定时。这意味着一定程度上，预训练语言模型可以利用编码的本体知识，选择正确的推理规则进行推理。但是，所有的前提组合都不能给出近乎完美（MRR接近1）的推理表现，说明预训练语言模型对本体知识的理解能力仍具有局限性。

ChatGPT具有更强大的推理和理解本体知识的能力。

当模型输入中包含前提，另一个前提在被明确包含在输入中或是模型记忆的情况下，ChatGPT展现出了很高的准确性。同时在显式推理方面，ChatGPT显著优于BERT-base-uncased（97.1% vs 88.2%）。

四、总结

在本研究中，我们对预训练语言模型是否能够在预训练过程中对本体知识进行有效编码以及是否能够深入理解语义内容进行了全面系统的探讨，发现语言模型确实具备一定的能力来记忆和理解本体知识，并且能够根据这些隐含的知识遵循本体知识推理规则进行一定程度的推理。然而，模型的记忆和推理都具有局限性。同时，ChatGPT在两个任务上的亮眼表现证明了模型对本体知识的记忆和理解仍具有进一步提升的可能。

最后插播两则招聘信息：

达摩院NLP团队招聘研究型实习生，从事大模型方向的研究，有兴趣的同学欢迎投递邮箱：yongjiang.jy@alibaba-

上科大屠可伟老师课题组招收硕士研究生（推免生）、博士生（名额待定）、博士后和研究助理。请访问屠老师主页：

http://faculty.sist./faculty/tukw/

一起交流

想和你一起学习进步！『NewBeeNLP』目前已经建立了多个不同方向交流群（机器学习 / 深度学习 / 自然语言处理 / 搜索推荐 / 图网络 / 面试交流 /等），名额有限，赶紧添加下方微信加入一起讨论交流吧！（注意一定o要备注信息才能通过）

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。