200字范文 > AAAI'23 | 利用大规模辅助数据提升端到端语音翻译系统

AAAI'23 | 利用大规模辅助数据提升端到端语音翻译系统

时间：2024-05-16 04:57:57

每天给你送来NLP技术干货！

作者 |张裕浩

单位|东北大学自然语言处理实验室

来自 | 机器翻译学堂

【导读】本文由论文原作者撰写，介绍作者团队设计的一种多阶段的预训练方法，利用有标注和无标注数据来提升端到端的语音翻译系统性能。利用设计了降噪的方式以及对比学习结合适配的设计减少了预训练模型之间的差异。

论文题目：Improving End-to-end Speech Translation by Leveraging Auxiliary Speech and Text Data

论文机构：东北大学自然语言处理实验室

论文作者：张裕浩，许晨，胡博杰，张春良，肖桐，朱靖波

论文链接：/pdf/2212.01778.pdf

-01-

引言

近年来，随着经济全球化的发展，人们越来越希望不同语言之间的交流可以更加高效和便捷。机器翻译无疑是绝大多数人在国外的出行和日常交流的必备工具，同时随着基于神经网络技术的新一代神经机器翻译的快速发展，其翻译性能有了质的提升，已经完全能够对于日常交流实现准确无误地翻译。然而我们在进行交流的时候，首要的也是最方便的媒介不是文本，而是音频，因此，如果只有完全基于文本的翻译系统，那么需要我们首先主动地将音频转录成文本，日常的交流效率则会大打折扣。同时在一些环境下，如国际会议，没有文本的语言翻译，难以实现对翻译工具的利用以及实时性的要求。

为了解决这些问题，以音频为输入最后直接输出翻译结果的语音翻译任务应运而生。一种自然而然的思路是基于成熟的语音识别和文本翻译技术形成级联系统。这种级联的系统首先利用语音识别模型将音频转换为文本，然后再将文本作为源语言送入翻译模型中最后输出目标语。这种思路最大的好处是可以直接利用现有的最优秀的语音和翻译方法构建出语音翻译系统，同时可以随时替换其中的翻译或者语音模块。但是缺点也是显而易见的，主要是两点：其一是错误传播问题，翻译模型是无法对语音模型的输出结果进行修复的，因为翻译模型得到所有的信息都是输入的文本信息，无法获得原始的音频信号，因此如果前者的识别结果出现了错误，那么之后的翻译模型便会基于错误的识别结果翻译出更加错误的文本。其二是效率问题，基于神经网络的模型通常需要进行大量的乘法等高纬度张量计算，同时解码过程也需要进行一些搜索方法，那么基于两个模型的解码过程无疑会使得整个系统的延迟更加严重。当然还有一些语言是不存在对应文本的，如我国少数民族语言的苗语，则无法利用级联模型进行语音翻译。

针对级联系统的弊端，基于端到端方法的语音翻译系统近年来逐渐兴起。这种端到端的方法不再输出中间的语音转录结果，转而直接输出翻译结果。由于整个系统更加紧凑，同时能够直接根据音频的信息进行翻译，进而完全避免了之前级联系统的问题。那么这种又好又快的系统，为什么没有大规模的运用呢?因为问题也是显而易见的，端到端的语言翻译系统要求利用一个系统同时完成跨模态、跨语言，难度无疑是巨大的。雪上加霜的是，当前很多任务的成功都基于海量的有标注数据，如语音识别任务通常训练数据已经达到上万小时，而翻译数据在评测任务中也已经达到几千万甚至上亿平行语料，反观语音翻译任务，由于将原始音频翻译到目标语的标注过程十分困难，很难得到大规模数据。由于任务困难以及标注数据的匮乏，导致了目前端到端系统在性能上和级联系统还存在着不小的差距。

图1 级联模型与端到端模型对比

-02-

相关工作

不少工作针对于这两个问题已经提出了一些解决方法。由于（音频，转录，翻译结果）这种三元组的语音翻译标注数据很难得到，研究工作转而将方向瞄向了如何利用现有的（音频，转录）语音识别二元组数据，以及（源语，目标语）翻译平行语料进行预训练来缓解跨模态跨语言的问题。主流的方法主要分为两大类，一种是利用一个编码器将音频及文本进行建模，通过多种辅助的预训练策略及多任务学习方法将文本语音的表示进行深入的融合，以期模型能够对相同语义的不同模态都能相似的建模[1，2，3]。另一种则是分开预训练的方式，利用语音识别的数据训练音频建模部分完成跨模态的转换，利用翻译数据进行跨语言的转换，然后将部分模块通过迁移学习或者适配器的方式融合到一起[4,5]。

前者的问题主要在于跨模态和跨语言的差距是比较大的，如：音频 ”普京与特朗普在莫斯科会晤” 如果是语音识别任务，在识别“与”这个词时则不需要利用后续的“会晤”的信息，但如果是翻译任务，仅仅是看到前面的这个信息“与”则会被错误翻译成“and”，只有在看到了最后的“会晤”一词时才会被正确翻译成“meet with”。这种差异也导致了利用同一个编码器编码两种任务在最后语音翻译任务上会导致”role mismatch” 问题[6]，即由于跨模态和跨语言之间的冲突导致了两个任务都无法同时完成好，进而没办法构建出统一的表示，最后发挥出预训练的优势。然而后者的建模方式则是利用适配器模块，避免了这个问题，前端的预训练音频模型只负责对语音部分进行跨模态，而之后的任务在使用适配器的方式时，将完成跨模态之后的表转化为跨语言所需要的表示。这种方式的好处是能够语音端只负责语音的建模，文本端只负责翻译的建模，由于两者之间互不干扰，进而两个系统都能达到最优，也很容易利用两个任务各自的先进技术最后进行组合。当然这种方式的缺点也是显而易见的，两个模型在预训练的阶段互相不可见会导致模型之间的差异特别大，尽管有一些优秀的适配器或者一些训练策略能够弥补两个模型之间的差异，但是始终无法保证是无损的转换，特别是在于长度、静音表示、标点转换等方面，两者之间还存在着较大差异。

图2 面向语音翻译的两种预训练范式

图3 跨模态任务的局部依赖与跨语言任务的全局依赖差异

-03-

动机

前文已经描述了基于语音翻译的标注数据十分稀少，这也导致了端到端模型难以直接完成跨模态跨语言的任务。因此，现有的很多工作开始探索如何有效地利用其它的语音识别或者翻译数据来辅助训练。但是，现有工作里大部分都是在探索如何有效利用有标注数据，很少有工作去探索如何有效地利用无标注的音频及文本数据。因此在本工作中，我们尝试设计一种方法能够将所有数据都利用起来，探索其能够在语音翻译领域达到什么样的水平。同时，许多跨模态翻译任务也面临着相似的问题，我们也希望这种探索可以启发其他的跨模态翻译任务。

图4 在端到端语音系统中引入大规模辅助数据

-04-

多阶段预训练方法

前文提到，我们在训练跨模态跨语言任务时存在着不一致的问题，使用类似于mask language model的方式难以对多个任务都达到最优，而这里我们如果还想进一步利用大规模无标注数据则会进一步加剧这个问题，导致模型难以收敛。因此我们转而使用另一种策略--先预训练各个模块再逐步地将各种类型的数据利用起来，进而能够稳定地训练出整个模型。其主要流程分为无标注数据的预训练和有标注数据的预训练。首先利用无标注的音频和文本通过自监督的方式预训练模型，之后在此基础上通过翻译数据和语音识别数据将两个模型训练分别至翻译模型和语音识别模型，分别对应图5中的第1和第2阶段，最后通过语音翻译数据进行微调，对应图中的第3阶段。

图5 多阶段预训练方法总览

无标注数据预训练阶段

文本预训练

面对语音翻译输出可能带来的噪音，目前流行的利用无标注数据进行降噪自编码的方式来减少可能带来的扰动是一种自然而然地办法。由于下游任务会涉及到翻译系统，那么构建多语言的降噪自编码方法能够促使多个语言在同一空间的表示，在增强编码鲁棒性的同时减轻了模型在翻译任务时跨语言的压力。这种自编码的方法也能通过将大量的文本进行恢复，进而促使解码端拥有很强的生成能力。因此，我们可以将大量的无标注源语和目标语文本利用降噪自编码的方式训练出一个适合于下游语音翻译任务的文本模型。

这里我们主要使用mBART来作为降噪自编码器，其主要通过将输入文本加入一些扰动操作，之后通过解码器来复原文本，如图6所示，文本“我吃了一个苹果”，通过乱序，掩码的方式被修改为”_ 了我 _ 苹果”作为模型的输入，同时加入语言标签作为语言的标识。之后要求解码端输出原始的文本。这种见到了大量噪声的模型的编码端具有很强的降噪能力，而解码端具有很强的生成能力。

图6 降噪自编码器（mBART）

语音预训练

传统的语音预训练模型是基于经过转换的音频特征来处理，其通过加窗分帧在经过时域到频域的转换以及一系列频域上的操作得到音频特征，这种特征无疑是高效且易于处理噪声的。但是问题也很明显，音频的信号作为了一个连续的过程，离散化之后，各个帧之间的特征没有了考虑上下文的关系，变成了独立的特征。虽然短时间信号的变化过程是稳定的，但是这种独立的特征不利于基于神经网络处理以及大规模的预训练。因此基于音频预训练的方法被提出，其将纯音频作为模型的输入，将一定时长窗口的信息，结合上下文的信息以及量化的方法将其转化为上下文信息的表示，更利于神经网络的信息提取以及下游任务的处理。这里我们主要使用的是wav2vec 2以及hubert。以wav2vec 2举例，其通过7层卷积网络将50ms窗口内的信息进行了聚合，然后通过码表及对比损失将其量化到有限的空间。

图7 Wav2vec 2模型示意

有标注数据预训练阶段

在使用了大量的无标注数据之后，我们开始将有标注的数据引入到模型中，为了避免两个模型在最后阶段出现较大的差异，我们也设计了一些策略来减缓。

翻译预训练

这一阶段我们开始将翻译平行语料引入到模型中，与直接的翻译训练策略不同，我们需要考虑到下游的语音翻译任务，源语端并不能接收到完全正确的词，而传统的降噪自编码方法是无法完全解决所有音频模型输出的全部问题。举个例子，对于句子 “我吃了一个苹果”，而音频模型输出为”我 <空白> <空白> 要了一苹果苹果”，包含了三种错误，分别是插入（多余的“<空白>”以及“苹果“的引入），删除（”个“没有被预测），修改（”要“应该被改为”吃“）。其中对于删除和修改两种错误而言，自编码方法可以很好地解决，而语音识别文本相较于正常的翻译文本，最大的问题在于插入错误，其中大量的重复词和静音问题编码端在翻译模型训练过程中无法识别，因此需要我们在这一阶段针对这一问题进行处理。

既然模型已经拥有较强的降噪能力，我们针对这一问题引入噪声到源语文本中，类似于一致性训练的方法，我们采样一定数量的句子，在源语中引入静音标签，使其解码端根据带有噪音的文本以及原始文本预测同一目标语。这种方式能够使编码端对静音位置的不再敏感，进而使编码端更能关注到实体词抽取出有用的信息。

图8 翻译预训练

语音识别预训练

为了减少预训练模型之间的差异，我们在语音识别预训练阶段设计多重适配器来弥补音频和文本模型之间的表示不一致问题。从前文我们已经了解到，使用两个预训练模型主要会涉及到表示空间的不一致，以及音频模型的局部依赖同翻译模型全局依赖的不一致问题。

为了解决表示不一致的问题，我们设计了对齐适配器。表示不一致包含了建模粒度的不一致和表示空间的不一致。首先音频编码器的建模粒度小于文本编码器，无法将其直接映射到文本的表示空间，因此同其他语音翻译模型一样，我们引入了卷积网络来对音频特征进行降采样，以确保其能够和文本保持一致的建模粒度。由于无标注音频预训练模型输出的表示为含有上下文的音频特征表示，我们引入了一层conformer结构促使模型实现语音特征到文本的跨模态转换。为了训练对齐编码器，我们使用了CTC 损失将音频编码器输出的特征预测转录文本，同时我们也使用文本模型的词嵌入矩阵，促使跨模态转换的表示对齐到文本预训练模型的表示空间中进而减少预训练模型之间表示空间不一致问题。

解决了表示不一致的问题，我们需要解决两个模型局部建模和全局建模不一致的问题，即如何将音频模型输出的词级别的表示转换为句子级别的表示。这里我们设计了对比学习结合适配器的方法，既然预训练好的文本降噪编码端能够有效地从大量噪音中抽取出有用信息，那么我们也可以利用轻量的适配器学习降噪之后的表示。具体地，我们将一组语音识别标注数据作为正样例，其中的音频输入到语音编码端以及之后的多个适配器，转录文本以及采样其他的音频的转录文本作为负样例送入到文本编码端。之后我们设计对比损失，要求适配器的输出和文本编码端输出的正样例尽可能相似，负样例尽可能不相似。

读者可能会奇怪，由于适配器模块只包含了一层自注意力网络，要求利用对比学习策略输出和文本编码端完全一致的表示是不可能的。这是由于语音编码端的输出包含了太多的噪音，我们反而希望这种轻量的模型过滤掉大量的不重要信息，只保留下全局所必要的信息能够减轻解码端从长序列中找出重要文本信息的压力，我们后续的分析实验也证明了这一点。为了更好地发挥文本降噪编码端的作用以及提供更加容易学习的表示结果，我们结合了知识精炼的方式，将原始的转录文本以及音频编码端解码结果混合送入到降噪文本编码端，促使文本适配器能够学习到更加丰富的信息。

注意这里的文本编码器相当于指导的作用，并不会更新参数，这样保证了最后音频编码端的输出能和翻译模型的编码端保持一致，进而能够直接将其表示送入到解码端中。

图9 语音识别预训练

语音翻译微调阶段

通过多阶段的预训练，我们已经将额外所有的无标注数据和有标注数据利用起来，同时设计的多个适配器能够弥补音频和文本预训练模型之间的多种不一致问题。这一步我们将利用少量的语音翻译数据，即输入为语音输出为翻译结果的平行语料，将模型微调到语音翻译任务。由于整个模型较大为了防止灾难性遗忘的问题，我们使用LNA方法[7]只fine-tune了少量的参数。同时这一步我们也舍去了作为桥梁的文本降噪编码端进而更多地减少了模型参数。

图10 语音翻译fine-tune

实验

我们在标准数据集MuST-C上进行了实验，并且与之前的端到端翻译系统在多个数据集上的结果进行了比较，可以看到明显优于之前的系统，同时由于我们相比之前工作，使用了更多的无标注数据，这也能反应出无标注数据的使用潜力。相较于之前同样使用多种类型额外数据的方式，我们的方法有明显的提升。

表1 模型性能对比

降噪的作用

我们对比了是否使用降噪策略系统的翻译能力。如图12（a）可以看到是否使用降噪策略对于没有被干扰的测试集没有影响，两者的分数基本一致。但是当我们按照音频输出结果来进行翻译的时候，使用了降噪策略的模型并没有受到影响，而没有使用降噪训练的模型产生了明显的退化。我们在语音翻译模型中也进行了实验，如图12（b）所示，当我们不使用对比损失来训练模型时，即没有学习降噪能力的时候，在高噪声的条件下增长很少，但是如果模型从降噪的编码端学习到了对噪音不敏感，性能便会明显提升。

图12降噪的作用

适配器的作用

我们输出适配器的信息来观察适配器是否按照我们的预期设定来工作。图13 显示了对齐适配器的作用。我们期望加入这个适配器之后能够帮助音频端的输出表示对齐到文本表示空间中，我们将对于音频解码结果的表示同文本词嵌入表示进行了对比，发现无论是从跨模态还是跨语言方面，都有了明显的对齐效果。我们对比了使用文本适配器的之后的注意力的变化，可以看到整体对于重复词和静音位置的关注度降低，同时对一些实体词的关注度有了很大的提升。两个适配器都达到了所预期的目的。

图13 对齐适配器的作用

图14 文本适配器作用

IWSLT22 英中评测

我们也将该方法作为了IWSLT英中离线翻译的主干网络，以及在此基础之上结合SATE方法使用了时域频域特征混合模型，如图15所示。系统最后获得端到端英中离线翻译第三名。具体细节可参考评测论文[8]。

图15 时域频域特征混合模型

图16 IWSLT 结果(其中灰色代表端到端系统)

总结

我们设计了一种多阶段的预训练方法，利用有标注和无标注数据来提升端到端的语音翻译系统性能。我们主要设计了降噪的方式以及对比学习结合适配的设计以此来减少预训练模型之间的差异。最后我们也在IWSLT评测任务上应用了我们的系统，也进一步尝试了时域频域结合语音翻译模型。

参考文献

[1] Ye, R.; Wang, M.; and Li, L. . End-to-end Speech Translation via Cross-modal Progressive Training.

[2] Zheng, R.; Chen, J.; Ma, M.; and Huang, L. . Fused Acoustic and Text Encoding for Multimodal Bilingual Pretraining and Speech Translation. In Proc. of ICML.

[3] Zhang, Z.-H.; Zhou, L.; Ao, J.; Liu, S.; Dai, L.; Li, J.; and Wei, F. b. SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder Based Speech-Text Pretraining.

[4] Xu, C.; Hu, B.; Li, Y.; Zhang, Y.; Huang, S.; Ju, Q.; Xiao, T.; and Zhu, J. . Stacked Acoustic-and-Textual Encoding: Integrating the Pre-trained Models into Speech Translation Encoders. [5] Ye, R.;Wang, M.; and Li, L. . Cross-modal Contrastive Learning for Speech Translation.

[6] Wang, C.; Wu, Y.; Liu, S.; Yang, Z.; and Zhou, M. b. Bridging the gap between pre-training and fine-tuning for end-to-end speech translation.

[7] Li, X.; Wang, C.; Tang, Y.; Tran, C.; Tang, Y.; Pino, J.; Baevski, A.; Conneau, A.; and Auli, M. . Multilingual Speech Translation from Efficient Finetuning of Pretrained Models.

[8] Zhang, Y.; Huang, C.; Xu, C.; Liu, X.; Li, B.; Ma, A.; Xiao, T.; and Zhu, J. a. The NiuTrans’s Submission to the IWSLT22 English-to-Chinese Offline Speech Translation Task.

📝论文解读投稿，让你的文章被更多不同背景、不同方向的人看到，不被石沉大海，或许还能增加不少引用的呦~ 投稿加下面微信备注“投稿”即可。

最近文章

COLING'22 | SelfMix：针对带噪数据集的半监督学习方法

ACMMM | 首个针对跨语言跨模态检索的噪声鲁棒研究工作

ACM MM Oral | PRVR: 新的文本到视频跨模态检索子任务

统计机器学习方法 for NLP：基于CRF的词性标注

统计机器学习方法 for NLP：基于HMM的词性标注

点击这里进群—>加入NLP交流群

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。