自然语言处理。2019年业绩和2020年趋势

大家好。经过一段时间的延迟,我决定发布此文章。每年我都会总结自然语言处理领域发生的情况。今年也没有例外。

BERT,BERT无处不在


让我们按顺序开始。如果您过去一年半没有去偏僻的西伯利亚针叶林或果阿度假,那么您一定听过BERT这个词。在过去的时间里,这种模型出现在2018年底,已经如此受欢迎,以至于这样的画面将是正确的:



BERT确实吸引了NLP可以填充的所有内容。它们开始用于分类,识别命名实体,甚至用于机器翻译。简而言之,您不能绕过它们,而您仍然必须告诉它是什么。



该图显示了该场合的英雄(左)与两个声音相同的模型的比较。右边是BERT的直接前身-ELMo模型

抒情离题。
image
« »: , , Elmo, Bert — ; , , , — . . , , .

Allen AI ELMo模型是过去几年该地区整个发展的一种继任者-即双向递归神经网络,以及一些新的启动技巧。OpenAI同事已决定可以做的更好的事情。为此,您只需要将Google一年前提出的Transformer架构应用于此任务即可。我相信在过去的2.5年中,每个人都已经熟悉了这种体系结构,因此我将不对其进行详细介绍。对于那些希望获得圣餐的人,我参考了2017年以来的评论

他们(OpenAI员工)将其称为GPT-2模型。然后,在这个模型上,他们做得很好。但是,让我们留心他们的良知,然后回到我们的羊群中去,那就是模特儿。

ELMo最重要的窍门之一是在一个未分配的大型案例上进行预培训。结果非常好,Google的同事决定我们可以做得更好。除了应用Transformer架构(已经存在于GPT-2中)之外,BERT代表着Transformers的双向编码器表示,即基于Transformer架构的双向编码器的矢量表示,还包含一些其他重要内容。具体而言,最重要的是在大型案例上进行训练的方法。



图片显示了一种标记未分配数据的方法。一次专门显示了两种布局方法。首先,采用一系列标记(单词),例如一个句子,并以此顺序屏蔽一个任意标记([MASK])。并且学习过程中的模型应该猜测伪装了哪种代币。第二种方式-两个句子顺序地或从文本中的任意位置取。并且模型必须猜测这些句子是否是连续的([CLS]和[SEP])。

这种培训的想法非常有效。来自Facebook发誓的朋友的答案是RoBERTa模型,有关该模型的文章称为“可持续优化的BERT培训”。更进一步。

由于无聊的事实,我不会列出所有改进基于Transfomer架构的大型语言模型的训练的方法。也许我只提到香港ERNIE同事的工作在工作中,同事们通过使用知识图来丰富培训。

在继续之前,这里有一些有用的链接:关于BERT的文章以及一训练有素的俄语俄语BERT和ELMo模型。

小模型


但是关于BERT足够了。还有几个更重要的趋势。首先,这是减小模型尺寸的趋势。相同的BERT对资源的要求非常高,许多人开始考虑如何保持(或不会真正失去)质量,减少模型运行所需的资源。 Google同事提出了一个小BERT,我不是在开玩笑-ALBERT:一个小BERT。您会看到,在执行大多数任务时,小型BERT甚至超过了它的老兄,而参数却少了一个数量级。



我的香港同事再次对同一个酒吧提出了另一种方法。他们想出了一个小小的BERT- TinyBERT。 (如果在这一点上您认为名字开始重复,那么我倾向于同意您的观点。)



上述两个模型之间的根本区别在于,如果ALBERT使用棘手的技巧来减少原始BERT模型,例如,通过矩阵分解来共享参数并减少内部矢量表示的维数,则TinyBERT会使用根本不同的方法,即知识的提炼,即存在一个小模型,可以在学习过程中跟随姐姐学习。

小案件


近年来(自1990年左右Internet出现以来),可用建筑物数量有所增加。然后是能够处理如此大的外壳的算法(这就是我们所说的“深度学习革命”,这是自2013年以来的一年)。结果,人们通常开始意识到,为了在某些任务中获得良好的质量,需要大量的标记数据-在我们的案例中是文本语料库。例如,当今学习机器翻译任务的典型案例以成对的句子来衡量。长期以来,很明显,对于许多任务来说,在合理的时间内和合理的金额下组装这种情况是不可能的。长期以来,不清楚如何处理。但是去年(您会想到谁?)BERT出现了。该模型能够对大量未分配的文本进行预训练,并且完成的模型在很小的情况下易于适应任务。



该表中列出的所有任务都有一支训练小组,规模达数千个单位。也就是说,少两个到三个数量级。这也是BERT(及其后代和亲戚)如此受欢迎的另一个原因。

新趋势


好吧,最后,我看到了一些新趋势。首先,这是对文本态度的根本改变。如果在大多数任务中都是以前的时间,则文本仅被视为输入材料,而输出则是有用的东西,例如类标签。现在,社区有机会记住文本主要是一种交流手段,也就是说,您可以与模型“交谈” —提出问题并以人类可读的文本形式获得答案。这就是Google T5的新文章所说的(名称可以翻译为“五次变形金刚”)。



另一个重要趋势是该地区正在重新学习以处理长文本。从20世纪70年代开始,社区就可以使用任意长度的文本-采用相同的TF-IDF。但是这些型号都有自己的质量限制。但是新的深度学习模型无法处理长文本(同一BERT的输入文本长度限制为512个令牌)。但是最近,至少出现了两本书,从不同角度探讨了长文本的问题。 Ruslan Salakhutdinov组的第一个作品叫Transformer-XL。



在这项工作中,这个想法得以复兴,使循环网络变得如此流行-即使您没有及时向后倾斜(BPTT),您也可以保存前一个状态并用它来构建下一个状态。

第二个这项工作适用于勒让德多项式,并在其帮助下可以使用递归神经网络处理成千上万个令牌的序列。

在此,我想结束对已经发生的变化和新趋势的回顾。让我们看看今年会发生什么,我敢肯定会有很多有趣的事情。关于数据树上同一主题的演讲视频:


附注:我们很快将发布一些更有趣的公告,请不要切换!

Source: https://habr.com/ru/post/undefined/


All Articles