Tradução automática. Da guerra fria ao presente

A tradução automática se tornou muito difundida nos últimos anos. Certamente, a maioria dos meus leitores já usou os serviços Google.Translate ou Yandex.Translation pelo menos uma vez. Também é provável que muitas pessoas se lembrem de que há pouco tempo, cerca de 5 anos atrás, era muito difícil usar tradutores automáticos. Não é fácil no sentido de que eles deram uma tradução de muito baixa qualidade. Sob o corte, há uma história breve e incompleta da tradução automática, a partir da qual será visível nesta tarefa e algumas de suas causas e conseqüências. Primeiro, uma imagem que mostra um conceito importante em relação à tradução automática:



Esse conceito é chamado de "canal barulhento" e veio da engenharia de rádio. Em versões diferentes, isso é atribuído a vários cientistas, Nyquist, Kupfmüller, Shannon, mas nesta disputa estou torcendo pelo nosso compatriota - Vladimir Alexandrovich Kotelnikov, que em seu trabalho de 1933 provou seu famoso teorema. Por si só, esse teorema está fora do escopo deste artigo, por isso estou enviando os interessados na Wikipedia .

Para nós, algo mais é importante. O conceito de canal ruidoso foi aplicado a uma nova direção - tradução automática. Após o fim da Segunda Guerra Mundial, nossos parceiros estrangeiros decidiram que a União Soviética, que havia demonstrado sua força ao derrotar o melhor exército da Europa e do mundo, representava uma ameaça séria. Várias ações foram tomadas para interromper essa ameaça, incluindo o trabalho de tradução automática do russo para o inglês. Isso foi necessário porque a União Soviética produziu muita informação - programas de televisão, palestras no rádio, livros e revistas. E se levarmos em conta as negociações de nossos aliados sobre a organização do Pacto de Varsóvia, a escala do problema já era simplesmente assustadora: não era possível treinar, e mais ainda, manter um exército de tradutores profissionais.E aqui nasceu a idéia - digamos que o texto em russo seja apenas um texto distorcido em inglês, e tentaremos algoritmicamente restaurar o texto "fonte". Foi exatamente isso que foi proposto por Warren Weaver em 1949.

Conceitualmente, parece bonito, mas a questão é como implementá-lo. Fortemente avançando no tempo, isso foi realizado com base na chamada tradução de frases.

Mas vamos em ordem. Qual é a maneira mais fácil de traduzir para a mente? Tradução de dicionário - ou seja, um dicionário pronto é usado e todas as palavras da frase são substituídas por seus equivalentes em outro idioma. Essa abordagem foi proposta pela notória empresa IBM em 1989.. Essa abordagem tem uma desvantagem óbvia: a ordem das palavras em diferentes idiomas pode diferir e, às vezes, muito. O próximo passo neste modelo é permitir a permutação de palavras. E como essas permutações podem ser previstas? No mesmo trabalho, outro modelo foi proposto (se o primeiro for chamado Modelo 1, o segundo será chamado logicamente, Modelo 2). Neste sistema, além do dicionário, existe o chamado modelo de alinhamento - correlação de palavras em duas frases entre si. O alinhamento é aprendido com base nas estatísticas do corpo. A desvantagem óbvia desse modelo é que é preciso muito esforço para preparar o caso em que o alinhamento é realizado. Os tradutores profissionais devem não apenas traduzir o texto, mas também indicar qual palavra é qual tradução.

Vale ressaltar que, além da ordem diferente das palavras, há, por exemplo, o problema de que algumas palavras ficarão completamente sem tradução (por exemplo, os artigos não existem em russo) e algumas exigirão mais de uma tradução palavra (por exemplo, preposição + substantivo). Os colegas da IBM chamaram isso de taxa de fertilidade e construíram modelos para ela também com base em estatísticas. Este é o Modelo 3 (bastante previsível, não é?). No mesmo trabalho, vários outros modelos são descritos, eles desenvolvem as idéias descritas adicionando condições para prever a tradução de uma palavra - por exemplo, à palavra anterior, uma vez que algumas palavras são melhor combinadas entre si e, portanto, são mais comuns. Todo esse grupo de modelos deu origem à chamada tradução baseada em frases.

Essa direção existia e desenvolveu, em particular, uma estrutura aberta para a tradução automática de Moisés foi desenvolvida (no site oficial, você pode ver que ela caiu em decadência). Ao mesmo tempo, esse era o principal meio de tradução automática, embora a tradução automática não fosse tão comum na época. Mas em 2014 aconteceu uma coisa terrível - o aprendizado profundo chegou ao campo da tradução automática. Se você se lembra de um ano antes, ele conseguiu representar representações de palavras em vetor, descrevi este artigo sobre casamentos . E em 2014, um artigo foi publicado por Dmitry Bogdanov (e co-autores, um dos quais era o famoso Yoshua Bengio) intitulado Tradução Automática Neural por Aprendizagem Conjunta de Alinhamento e Tradução(tradução automática mecânica através de treinamento conjunto de alinhamento e tradução). Neste trabalho, Dmitry propôs o uso do mecanismo de atenção para redes neurais recorrentes e, com sua ajuda, conseguiu derrotar o mencionado Moisés em uma quantidade significativa.

Aqui você precisa discordar e falar sobre como medir a qualidade da tradução automática. No trabalho de PapineniEm 2002, foi proposta a métrica BLEU (estudo de avaliação bilíngue - estudo de comparação bilíngue). Essa métrica basicamente compara quantas palavras da tradução automática corresponderam à versão humana. Em seguida, as combinações de palavras de duas palavras, três, quatro são comparadas. Todas essas figuras são calculadas como média e é obtido exatamente uma figura que descreve a qualidade do sistema de tradução automática neste edifício. Essa métrica tem suas desvantagens, por exemplo, pode haver diferentes opções humanas para traduzir um texto, mas surpreendentemente por quase 20 anos, nada melhor foi proposto para avaliar a qualidade de uma tradução.

Mas voltando ao mecanismo de atenção. Deve-se dizer que as redes recorrentes foram propostas 15 anos antes e depois não criaram nenhum furor. Um problema significativo com essas redes era que elas rapidamente esqueceram o que “leram”. Resolva parcialmente esse problema para tradução automática e o mecanismo de atenção ajudou. Aqui está a figura:



O que ele está fazendo? Ele pesa as palavras na entrada para fornecer um vetor de palavra para tradução. Foi isso que possibilitou a criação automática de matrizes de alinhamento com base no texto bruto, sem marcação. Por exemplo, como:

imagem

Depois que todos viram que isso era possível, grandes esforços foram dedicados à tradução automática, que se tornou o campo que mais cresce no processamento de idiomas naturais. Melhorias significativas na qualidade foram alcançadas, inclusive para pares de idiomas distantes, como inglês e chinês ou inglês e russo. As redes recorrentes dominaram a bola por algum tempo pelos padrões modernos - quase 4 anos. Mas no final de 2017, as trombetas soaram anunciando a aproximação de um novo rei da montanha. Era um artigo chamado Atenção é tudo que você precisa (atenção é tudo que você precisa; uma paráfrase do nome da famosa música dos Beatles “Tudo que você precisa é amor”). Este artigo apresentou a arquitetura do transformador, que pouco menos que completamente consistia em mecanismos de atenção. Eu falei mais sobre ela em um artigo sobreResultados de 2017 , então não vou me repetir.

Desde então, muita água fluiu, mas ainda resta muito mais. Por exemplo, há dois anos, no início de 2018, os pesquisadores da Microsoft anunciaram a conquista da igualdade na qualidade com uma tradução humana traduzida do inglês para documentos de notícias chineses. Este artigo foi muito criticado, principalmente do ponto de vista de que a obtenção de números iguais pelo BLEU é um indicador da adequação incompleta da métrica do BLEU. Mas o hype foi gerado.

Outra direção interessante no desenvolvimento da tradução automática é a tradução automática sem dados paralelos. Como você se lembra, o uso de redes neurais nos permitiu abandonar a marcação de alinhamento nos textos traduzidos para ensinar o modelo de tradução automática. Os autores de Tradução automática não supervisionada usando apenas monolíngüe Corpora (uma tradução automática usando apenas dados monolíngües) apresentaram um sistema que, com alguma qualidade, foi capaz de traduzir do inglês para o francês (a qualidade era, é claro, inferior às melhores realizações da época, mas apenas em 10%) . Curiosamente, os mesmos autores melhoraram sua abordagem usando idéias de tradução frasal no final daquele ano.

Finalmente, a última coisa que gostaria de destacar é a chamada tradução não auto-regressiva. O que é isso? Todos os modelos, começando com o IBM Model 3, contam com palavras anteriores já traduzidas ao traduzir. E os autores do trabalho , chamado de tradução automática não-auto-regressiva, tentaram se livrar dessa dependência. A qualidade também se mostrou um pouco menor, mas a velocidade dessa tradução pode ser dezenas de vezes mais rápida do que nos modelos auto-regressivos. Considerando que os modelos modernos podem ser muito grandes e lentos, esse é um ganho significativo, especialmente sob carga pesada.

Escusado será dizer que a região não pára e novas idéias estão sendo propostas, por exemplo, a chamada retrotradução, quando os dados monolíngues traduzidos pelo próprio modelo são usados ​​para treinamento adicional; o uso de redes de convolução, que também é mais rápida que o transformador padrão atualmente; o uso de modelos de linguagem grande pré-treinados (tenho um artigo separado sobre eles ). Infelizmente, tudo não pode ser listado.

Nossa empresa possui um dos principais cientistas no campo da tradução automática - professor Qun Liu. Professor Liu e eu estamos conduzindo um curso de processamento de linguagem natural, no qual é prestada atenção substancial especificamente à tradução automática. Se você estiver interessado nessa área, ainda poderá participar do nosso curso , iniciado há um mês.

E se você sentir a força em si mesmo, teremos o maior prazer em vê-lo entre os participantes da nossa competição para traduzir do chinês para o russo! A competição começará em 14 de abril e durará exatamente um mês. Esperamos que nossos participantes obtenham novos resultados nesta tarefa e sejam capazes de avançar em todo o campo da tradução automática. A competição será realizada na plataforma MLBootCamp, e somos muito gratos à equipe do MLBootCamp e pessoalmente a Dmitry Sannikov por sua ajuda na organização.

Link da competição

All Articles