👨‍👧 🗒️ 👥 Processamento de linguagem natural. Resultados 2019 e tendências para 2020 🍙 🤮 👨‍🏭

Olá a todos. Com algum atraso, decidi publicar este artigo. Todo ano eu tento resumir o que aconteceu no campo do processamento de linguagem natural. Esse ano não foi exceção.

BERTs, BERTs estão em toda parte

Vamos começar em ordem. Se você não foi para a taiga siberiana remota ou passou férias em Goa no último ano e meio, deve ter ouvido a palavra BERT. Aparecendo no final de 2018, nos últimos tempos, este modelo ganhou tanta popularidade que apenas uma imagem desse tipo será perfeita:

Os BERTs realmente cativaram tudo o que poderia ser preenchido na PNL. Eles começaram a ser usados para classificação, reconhecimento de entidades nomeadas e até para tradução automática. Simplificando, você não pode ignorá-los e ainda precisa dizer o que é.

A imagem mostra uma comparação do herói da ocasião (esquerda) com dois modelos que também soaram. À direita está o antecessor imediato do BERT - o modelo ELMo .

Digressão lírica.

« »: , , Elmo, Bert — ; , , , — . . , , .

O modelo Allen AI ELMo é um tipo de sucessor de todo o desenvolvimento da região nos anos anteriores - a saber, uma rede neural recorrente bidirecional, além de vários novos truques para inicializar. Os colegas da OpenAI decidiram o que pode ser feito melhor. E para isso, basta aplicar a arquitetura Transformer apresentada no ano anterior ao Google a esta tarefa. Acredito que, nos últimos 2,5 anos, todo mundo já conseguiu se familiarizar com essa arquitetura, por isso não vou me aprofundar nisso em detalhes. Para aqueles que desejam receber a comunhão, refiro-me à minha revisão a partir do ano 2017 .

Eles (funcionários da OpenAI) chamaram seu modelo GPT-2 . E então, nesse modelo, eles fizeram um bom trabalho. Mas vamos deixá-lo em consciência e retornar às nossas ovelhas, ou seja, os modelos.

Um dos truques mais importantes do ELMo foi o pré-treinamento em um caso grande e não alocado. Acabou muito bem, e colegas do Google decidiram que podemos fazer ainda melhor. Além de aplicar a arquitetura Transformer (que já estava na GPT-2), o BERT, que significa Representações de codificadores bidirecionais dos transformadores, ou seja, representações vetoriais de um codificador bidirecional baseado na arquitetura do Transformer, continha várias coisas mais importantes. Especificamente, o mais importante era a maneira de treinar em um caso grande.

A imagem mostra um método para marcar dados não alocados. Dois métodos de layout são mostrados especificamente ao mesmo tempo. Primeiro, uma sequência de tokens (palavras) é usada, por exemplo, uma sentença e nessa sequência um token arbitrário ([MASK]) é mascarado. E o modelo no processo de aprendizado deve adivinhar que tipo de token foi disfarçado. A segunda maneira - duas frases são tomadas seqüencialmente ou de lugares arbitrários no texto. E o modelo deve adivinhar se essas sentenças eram seqüenciais ([CLS] e [SEP]).

A ideia desse treinamento foi extremamente eficaz. A resposta dos amigos juramentados do Facebook foi o modelo RoBERTa , um artigo sobre esse modelo é chamado “Treinamento BERT otimizado de forma sustentável”. Além disso.

Não listarei todas as maneiras de melhorar o treinamento de um modelo de linguagem grande com base na arquitetura do Transfomer devido ao fato de ser simplesmente chato. Menciono, talvez, apenas o trabalho dos meus colegas de Hong Kong - ERNIE . Em seu trabalho, os colegas enriquecem o treinamento através do uso de gráficos de conhecimento.

Antes de prosseguir, aqui estão alguns links úteis: um artigo sobre o BERT . Bem como um conjunto de modelos BERT e ELMo treinados para o idioma russo.

Modelos pequenos

Mas chega de BERTs. Existem várias tendências mais importantes. Primeiro de tudo, esta é uma tendência para reduzir o tamanho do modelo. O mesmo BERT é muito exigente em recursos, e muitos começaram a pensar em como manter (ou realmente não perder) a qualidade, reduzir os recursos necessários para o funcionamento dos modelos. Os colegas do Google criaram um pouco de BERT, não estou brincando - ALBERT: Um pouco de BERT . Você pode ver que o pequeno BERT supera seu irmão mais velho na maioria das tarefas, mantendo uma ordem de magnitude menos parâmetros.

Outra abordagem para o mesmo bar foi feita novamente pelos meus colegas de Hong Kong. Eles criaram um pequeno BERT - TinyBERT . (Se nesse momento você pensou que os nomes começaram a ser repetidos, estou inclinado a concordar com você.)

A diferença fundamental entre os dois modelos acima é que, se a ALBERT usar truques complicados para reduzir o modelo BERT original, por exemplo, compartilhamento de parâmetros e redução da dimensão das representações vetoriais internas por meio da decomposição da matriz, o TinyBERT usará uma abordagem fundamentalmente diferente, ou seja, a destilação do conhecimento, ou seja, haverá um pequeno modelo que aprende a repetir após a irmã mais velha no processo de aprendizado.

Casos pequenos

Nos últimos anos (desde cerca de 1990, quando a Internet apareceu), houve um aumento nos edifícios disponíveis. Depois vieram os algoritmos que se tornaram capazes de processar gabinetes tão grandes (isso é o que chamamos de "revolução do aprendizado profundo", este já é o ano desde 2013). E, como resultado, começou a ser percebido normalmente que, para obter boa qualidade em alguma tarefa, são necessárias grandes matrizes de dados marcados - corpus de textos no nosso caso. Por exemplo, casos típicos para aprender tarefas de tradução automática hoje são medidos em milhões de pares de frases. Há muito que é óbvio que, para muitas tarefas, é impossível reunir esses casos em um período de tempo razoável e com uma quantia razoável de dinheiro. Durante muito tempo, não ficou muito claro o que fazer sobre isso. Mas no ano passado (quem você pensaria?), O BERT entrou em cena.Esse modelo foi capaz de pré-treinar em grandes volumes de textos não alocados, e o modelo finalizado foi fácil de adaptar à tarefa com um estojo pequeno.

Todas as tarefas listadas nesta tabela possuem corpo de treinamento no tamanho de vários milhares de unidades. Ou seja, duas a três ordens de magnitude a menos. E essa é outra razão pela qual o BERT (e seus descendentes e parentes) se tornaram tão populares.

Novas tendências

Bem, no final, algumas novas tendências, como eu as vi. Antes de tudo, é uma mudança fundamental de atitude em relação ao texto. Se todo o tempo anterior na maioria das tarefas, o texto era percebido apenas como material de entrada, e a saída era algo útil, por exemplo, um rótulo de classe. Agora a comunidade tem a oportunidade de lembrar que o texto é principalmente um meio de comunicação, ou seja, você pode "conversar" com o modelo - fazer perguntas e receber respostas na forma de um texto legível por humanos. É o que diz o novo artigo do Google T5 (o nome pode ser traduzido como "cinco vezes transformador").

Outra tendência importante é que a região está reaprendendo a trabalhar com textos longos. Desde os anos 70, a comunidade tem maneiras de trabalhar com textos de comprimentos arbitrários - use o mesmo TF-IDF. Mas esses modelos têm seu próprio limite de qualidade. Mas os novos modelos de aprendizado profundo não foram capazes de trabalhar com textos longos (o mesmo BERT tem um limite de 512 tokens do comprimento do texto de entrada). Ultimamente, porém, pelo menos duas obras surgiram que de lados diferentes abordam o problema do texto longo. O primeiro trabalho do grupo de Ruslan Salakhutdinov chamado Transformer-XL.

Neste trabalho, é revivida a idéia que tornou as redes recursivas tão populares - você pode salvar o estado anterior e usá-lo para criar o próximo, mesmo se não reverter o gradiente no tempo (BPTT).

O segundoo trabalho trabalha com os polinômios de Legendre e, com a ajuda deles, permite processar seqüências de dezenas de milhares de tokens com redes neurais recorrentes.

Sobre isso, gostaria de terminar a revisão das mudanças que ocorreram e das tendências emergentes. Vamos ver o que vai acontecer este ano, tenho certeza de que muitas coisas interessantes. Vídeo do meu discurso sobre o mesmo tópico na Árvore de Dados:

PS Em breve teremos alguns anúncios mais interessantes, não mude!

Processamento de linguagem natural. Resultados 2019 e tendências para 2020

BERTs, BERTs estão em toda parte

Modelos pequenos

Casos pequenos

Novas tendências

More articles: