机器翻译。从冷战到现在

机器翻译近年来变得非常普遍。当然,我的大多数读者都至少曾经使用过Google.Translate或Yandex.Translation服务。许多人还可能记得不久前,即大约5年前,使用自动翻译器非常困难。从他们的翻译质量很差的角度来讲,这并不容易。削减的内容是机器翻译的简短且不完整的历史,从中可以清楚地看到该机器翻译及其某些原因和后果。首先,这张图显示了有关机器翻译的重要概念:



这个概念称为“噪声信道”概念,它来自无线电工程。在不同的版本中,它归因于各种科学家,奈奎斯特(Nyquist),库普缪勒(Kuffmüller)和香农(Shannon),但在这场争执中,我为我们的同胞弗拉基米尔·亚历山德罗维奇·科捷尔尼科夫(Vladimir Alexandrovich Kotelnikov)加油,他在1933年的工作中证明了他的著名定理。就其本身而言,该定理不在本文讨论范围之内,因此,我向对Wikipedia感兴趣的人员发送了该定理

对于我们来说,还有其他重要的事情。噪声通道的概念已被应用到一个新的方向-自动机器翻译。第二次世界大战结束后,我们的海外合作伙伴决定,通过击败欧洲和世界上最好的军队而表现出实力的苏联构成了严重威胁。采取了各种措施来阻止这种威胁,包括将俄语自动翻译成英语的工作。这是必要的,因为苏联产生了非常多的信息-电视节目,广播谈话,书籍和杂志。而且,如果考虑到同盟国就《华沙条约》的组织进行的谈判,那么问题的规模已经简直令人恐惧:不可能训练,甚至更不能维持一支如此专业的翻译队伍。这个想法就此诞生了-假设俄语文本只是英语的扭曲文本,我们将尝试通过算法恢复“源”文本。这正是沃伦·韦弗(Warren Weaver)在1949年提出的。

从概念上讲,它看起来很漂亮,但问题是如何实现它。在时间上有很强的领先优势,这是在所谓的短语翻译的基础上实现的。

但是,让我们按顺序进行。转换为思维最简单的方法是什么?字典翻译-即使用现成的字典,并将句子中的所有单词替换为另一种语言的等效单词。这种方法是由臭名昭著的IBM公司于1989年提出的。。这种方法有一个明显的缺点:不同语言中的单词顺序可能会有所不同,有时会非常不同。此模型的下一步是允许单词置换。以及如何预测这些排列?在同一工作中,提出了另一个模型(如果第一个模型称为Model 1,那么第二个模型在逻辑上称为Model 2)。在该系统中,除了字典外,还有一个所谓的对齐模型-两个句子中的单词彼此相关。对齐是根据身体统计信息学习的。该模型的明显缺点是,需要花很多精力来准备对齐的情况,专业翻译人员不仅必须翻译文本,还必须指出哪个单词是哪个翻译。

值得注意的是,除了单词的顺序不同之外,还有一个问题,就是有些单词将完全不翻译(例如,俄语中不存在文章),而有些单词将需要不止一次翻译字词(例如介词+名词)。 IBM同事将此称为生育率,并基于统计数据为其建立了模型。这是Model 3(完全可以预测,不是吗?)。在同一工作中,还描述了多个模型,它们通过添加用于预测单词翻译的条件(例如,对先前单词的翻译)来发展所描述的思想,因为某些单词彼此之间可以更好地组合,因此更为常见。整个模型组产生了所谓的基于短语的翻译。

这个方向的存在和发展,特别是开发了一个开放的Moses机器翻译框架(在官方网站上您可以看到它已经逐渐衰落)。曾经,这是机器翻译的主要手段,尽管在那时机器翻译并不那么普遍。但是在2014年,发生了一件可怕的事情-深度学习进入了机器翻译领域。如果您还记得一年前必须对单词进行向量表示的方法,那么我就介绍了有关嵌入的这篇文章。 2014年,Dmitry Bogdanov(和合著者之一,其中著名的Yoshua Bengio)发表了一篇题为《通过联合学习对齐和翻译的神经机器翻译》的文章。(或-通过对齐和翻译的联合训练来进行神经机器翻译)。在这项工作中,德米特里(Dmitry)建议将注意力机制用于循环神经网络,在他的帮助下,他能够击败上述的摩西。

在这里,您需要讨论并讨论如何衡量机器翻译的质量。在Papineni工作中在2002年,提出了BLEU指标(双语评估研究-双语比较研究)。该指标基本上比较了机器翻译中的单词与人工版本中的单词匹配的数量。然后比较两个,三个,四个单词的单词组合。对所有这些数字进行平均,并获得一个准确的数字,该数字描述了该建筑物上机器翻译系统的质量。此度量标准有其缺点,例如,翻译一个文本可能有不同的人工选择,但是令人惊讶的是,近20年以来,没有人提出过更好的评估翻译质量的建议。

但是回到注意力机制。应该说,循环网络是在15年前提出的,但是并没有引起任何轰动。这些网络的一个重要问题是它们很快忘记了“阅读”的内容。对于机器翻译部分解决了这一问题,并且注意力机制得到了帮助。如图所示:



他在做什么?它对输入中的单词进行加权,以给出一个单词向量进行翻译。这就是可以基于原始文本自动构建对齐矩阵而无需标记的原因。例如,这样:

图片

在所有人都看到了可能性之后,机器翻译投入了巨大的精力,机器翻译成为自然语言处理发展最快的领域。已经实现了显着的质量改进,包括针对远程语言对,例如英语和中文或英语和俄语。循环网络以现代标准统治了相当长的一段时间-将近4年。但在2017年底,吹响了号角,宣布了一位新的山王之路。这是一篇名为《注意就是你所需要的》(关注就是你所需要的;披头士乐队著名歌曲“你需要的就是爱”的措辞)。本文介绍了变压器的体系结构,该体系结构几乎完全由注意力机制组成。我在一篇关于2017年的成绩,所以我不再重复。

从那时起,已经有大量的水流了,但是仍然有更多的水残留。例如,两年前,即2018年初,微软研究人员宣布通过将英语翻译成中文新闻稿进行人工翻译来实现质量平等。这篇文章受到了很多批评,主要是从BLEU达到相等数字是BLEU度量标准不完全的指标的角度出发。但是大肆宣传。

机器翻译开发中的另一个有趣方向是没有并行数据的机器翻译。您还记得,神经网络的使用使我们可以放弃翻译文本中的对齐标记来教授机器翻译模型。仅使用单语语料库无监督机器翻译使用单语数据的机器翻译)的作者提出了一种系统,该系统具有一定的质量,可以将英语翻译为法语(当然,质量低于当时的最佳成绩,但仅降低了10%) 。有趣的是,当年晚些时候,同一作者使用短语翻译的思想改进了他们的方法

最后,我要强调的最后一件事是所谓的非自回归翻译。这是什么?从IBM Model 3开始的所有模型都依赖于翻译时已翻译的先前单词。这项工作的作者,即所谓的非自回归机器翻译,试图摆脱这种依赖性。结果也证明质量稍差,但是这种翻译的速度可以比自回归模型快几十倍。考虑到现代模型可能很大而又很慢,因此这是一个很大的收益,尤其是在重负载下。

毋庸置疑,当模型本身翻译的单语数据用于进一步训练时,该地区并不会停滞不前,并且正在提出新的想法,例如所谓的反向翻译。卷积网络的使用,这比当今的标准变压器还快;预训练的大型语言模型的使用(我有关于它们的单独文章)。不幸的是,所有这些都无法列出。

我们公司拥有机器翻译领域的领先科学家之一-刘群教授。我和刘教授正在教授自然语言处理课程,其中特别关注机器翻译。如果您对此领域感兴趣,那么您仍然可以加入我们一个月前开始的课程

如果您感到自己有力量,那么我们将很高兴看到您参加我们的比赛,将中文翻译成俄文!比赛将于4月14日开始,并将持续一个月。我们希望我们的参与者能够在这项任务中取得新的成果,并能够推动整个机器翻译领域的发展。比赛将在MLBootCamp平台上举行,我们非常感谢MLBootCamp团队和Dmitry Sannikov亲自提供的帮助。

比赛链接

All Articles