🐯 🌋 🕙 自然语言处理。2019年业绩和2020年趋势 🆗 🐤 🏴

大家好。经过一段时间的延迟，我决定发布此文章。每年我都会总结自然语言处理领域发生的情况。今年也没有例外。

BERT，BERT无处不在

让我们按顺序开始。如果您过去一年半没有去偏僻的西伯利亚针叶林或果阿度假，那么您一定听过BERT这个词。在过去的时间里，这种模型出现在2018年底，已经如此受欢迎，以至于这样的画面将是正确的：

BERT确实吸引了NLP可以填充的所有内容。它们开始用于分类，识别命名实体，甚至用于机器翻译。简而言之，您不能绕过它们，而您仍然必须告诉它是什么。

该图显示了该场合的英雄（左）与两个声音相同的模型的比较。右边是BERT的直接前身-ELMo模型。

抒情离题。

« »: , , Elmo, Bert — ; , , , — . . , , .

Allen AI ELMo模型是过去几年该地区整个发展的一种继任者-即双向递归神经网络，以及一些新的启动技巧。OpenAI同事已决定可以做的更好的事情。为此，您只需要将Google一年前提出的Transformer架构应用于此任务即可。我相信在过去的2.5年中，每个人都已经熟悉了这种体系结构，因此我将不对其进行详细介绍。对于那些希望获得圣餐的人，我参考了2017年以来的评论。

他们（OpenAI员工）将其称为GPT-2模型。然后，在这个模型上，他们做得很好。但是，让我们留心他们的良知，然后回到我们的羊群中去，那就是模特儿。

ELMo最重要的窍门之一是在一个未分配的大型案例上进行预培训。结果非常好，Google的同事决定我们可以做得更好。除了应用Transformer架构（已经存在于GPT-2中）之外，BERT代表着Transformers的双向编码器表示，即基于Transformer架构的双向编码器的矢量表示，还包含一些其他重要内容。具体而言，最重要的是在大型案例上进行训练的方法。

图片显示了一种标记未分配数据的方法。一次专门显示了两种布局方法。首先，采用一系列标记（单词），例如一个句子，并以此顺序屏蔽一个任意标记（[MASK]）。并且学习过程中的模型应该猜测伪装了哪种代币。第二种方式-两个句子顺序地或从文本中的任意位置取。并且模型必须猜测这些句子是否是连续的（[CLS]和[SEP]）。

这种培训的想法非常有效。来自Facebook发誓的朋友的答案是RoBERTa模型，有关该模型的文章称为“可持续优化的BERT培训”。更进一步。

由于无聊的事实，我不会列出所有改进基于Transfomer架构的大型语言模型的训练的方法。也许我只提到香港ERNIE同事的工作。在工作中，同事们通过使用知识图来丰富培训。

在继续之前，这里有一些有用的链接：关于BERT的文章。以及一组训练有素的俄语俄语BERT和ELMo模型。

小模型

但是关于BERT足够了。还有几个更重要的趋势。首先，这是减小模型尺寸的趋势。相同的BERT对资源的要求非常高，许多人开始考虑如何保持（或不会真正失去）质量，减少模型运行所需的资源。 Google同事提出了一个小BERT，我不是在开玩笑-ALBERT：一个小BERT。您会看到，在执行大多数任务时，小型BERT甚至超过了它的老兄，而参数却少了一个数量级。

我的香港同事再次对同一个酒吧提出了另一种方法。他们想出了一个小小的BERT- TinyBERT。（如果在这一点上您认为名字开始重复，那么我倾向于同意您的观点。）

上述两个模型之间的根本区别在于，如果ALBERT使用棘手的技巧来减少原始BERT模型，例如，通过矩阵分解来共享参数并减少内部矢量表示的维数，则TinyBERT会使用根本不同的方法，即知识的提炼，即存在一个小模型，可以在学习过程中跟随姐姐学习。

小案件

近年来（自1990年左右Internet出现以来），可用建筑物数量有所增加。然后是能够处理如此大的外壳的算法（这就是我们所说的“深度学习革命”，这是自2013年以来的一年）。结果，人们通常开始意识到，为了在某些任务中获得良好的质量，需要大量的标记数据-在我们的案例中是文本语料库。例如，当今学习机器翻译任务的典型案例以成对的句子来衡量。长期以来，很明显，对于许多任务来说，在合理的时间内和合理的金额下组装这种情况是不可能的。长期以来，不清楚如何处理。但是去年（您会想到谁？）BERT出现了。该模型能够对大量未分配的文本进行预训练，并且完成的模型在很小的情况下易于适应任务。

该表中列出的所有任务都有一支训练小组，规模达数千个单位。也就是说，少两个到三个数量级。这也是BERT（及其后代和亲戚）如此受欢迎的另一个原因。

新趋势

好吧，最后，我看到了一些新趋势。首先，这是对文本态度的根本改变。如果在大多数任务中都是以前的时间，则文本仅被视为输入材料，而输出则是有用的东西，例如类标签。现在，社区有机会记住文本主要是一种交流手段，也就是说，您可以与模型“交谈” —提出问题并以人类可读的文本形式获得答案。这就是Google T5的新文章所说的（名称可以翻译为“五次变形金刚”）。

另一个重要趋势是该地区正在重新学习以处理长文本。从20世纪70年代开始，社区就可以使用任意长度的文本-采用相同的TF-IDF。但是这些型号都有自己的质量限制。但是新的深度学习模型无法处理长文本（同一BERT的输入文本长度限制为512个令牌）。但是最近，至少出现了两本书，从不同角度探讨了长文本的问题。 Ruslan Salakhutdinov组的第一个作品叫Transformer-XL。

在这项工作中，这个想法得以复兴，使循环网络变得如此流行-即使您没有及时向后倾斜（BPTT），您也可以保存前一个状态并用它来构建下一个状态。

第二个这项工作适用于勒让德多项式，并在其帮助下可以使用递归神经网络处理成千上万个令牌的序列。

在此，我想结束对已经发生的变化和新趋势的回顾。让我们看看今年会发生什么，我敢肯定会有很多有趣的事情。关于数据树上同一主题的演讲视频：

附注：我们很快将发布一些更有趣的公告，请不要切换！

自然语言处理。2019年业绩和2020年趋势

BERT，BERT无处不在

小模型

小案件

新趋势

More articles: