Traduction automatique. De la guerre froide à nos jours

La traduction automatique est devenue très répandue ces dernières années. Certes, la plupart de mes lecteurs ont utilisé les services Google.Translate ou Yandex.Translation au moins une fois. Il est également probable que de nombreuses personnes se souviennent qu'il n'y a pas si longtemps, il y a environ 5 ans, l'utilisation de traducteurs automatiques était très difficile. Ce n'est pas facile dans le sens où ils ont donné une traduction de très mauvaise qualité. Sous la coupe se trouve une histoire brève et incomplète de la traduction automatique, à partir de laquelle elle sera visible dans cette tâche et certaines de ses causes et conséquences. Tout d'abord, une image qui montre un concept important concernant la traduction automatique:



Ce concept est appelé concept de «canal bruyant» et provient de l'ingénierie radio. Dans différentes versions, il est attribué à divers scientifiques, Nyquist, Kupfmüller, Shannon, mais dans ce différend, je soutiens notre compatriote - Vladimir Alexandrovich Kotelnikov, qui, dans ses travaux de 1933, a prouvé son célèbre théorème. En soi, ce théorème est en dehors de la portée de cet article, donc j'envoie ceux qui s'intéressent à Wikipedia .

Pour nous, autre chose est important. Le concept de canal bruyant a été appliqué à une nouvelle direction - la traduction automatique. Après la fin de la Seconde Guerre mondiale, nos partenaires d'outre-mer ont décidé que l'Union soviétique, qui avait montré sa force en battant la meilleure armée d'Europe et du monde, constituait une menace sérieuse. Diverses mesures ont été prises pour mettre fin à cette menace, notamment des travaux sur la traduction automatique du russe vers l'anglais. Cela était nécessaire car l'Union soviétique produisait énormément d'informations - programmes télévisés, conférences radiophoniques, livres et magazines. Et si l'on prend en compte les négociations de nos alliés sur l'organisation du Pacte de Varsovie, alors l'ampleur du problème était déjà tout simplement effrayante: il n'était pas possible de former, et encore plus de maintenir une telle armée de traducteurs professionnels.Et ici l'idée est née - disons que le texte en russe est juste un texte déformé en anglais, et nous allons essayer de restaurer algorithmiquement le texte "source". C'est exactement ce qui a été proposé par Warren Weaver en 1949.

Conceptuellement, il est beau, mais la question est de savoir comment le mettre en œuvre. Fortement en avance dans le temps, cela a été réalisé sur la base de la traduction dite de phrase.

Mais allons-y dans l'ordre. Quelle est la façon la plus simple de traduire à l'esprit? Traduction de dictionnaire - c'est-à-dire qu'un dictionnaire prêt à l'emploi est pris et tous les mots de la phrase sont remplacés par leurs équivalents dans une autre langue. Cette approche a été proposée par la célèbre société IBM en 1989.. Cette approche présente un inconvénient évident: l'ordre des mots dans différentes langues peut différer, et parfois beaucoup. La prochaine étape de ce modèle est de permettre la permutation des mots. Et comment prévoir ces permutations? Dans le même travail, un autre modèle a été proposé (si le premier est appelé modèle 1, alors le second est appelé très logiquement modèle 2). Dans ce système, en plus du dictionnaire, il existe un soi-disant modèle d'alignement - corrélation des mots en deux phrases. L'alignement est appris sur la base des statistiques du corps. L'inconvénient évident de ce modèle est qu'il faut beaucoup d'efforts pour préparer le cas dans lequel l'alignement est effectué, les traducteurs professionnels doivent non seulement traduire le texte, mais aussi indiquer quel mot est quelle traduction.

Il convient de noter qu'en plus de l'ordre différent des mots, il y a, par exemple, le problème que certains mots seront complètement sans traduction (par exemple, les articles n'existent pas en russe), et certains mots nécessiteront plus d'une traduction mot (par exemple préposition + nom). Des collègues d'IBM ont appelé cela le taux de fécondité et ont construit des modèles pour cela également basés sur des statistiques. C'est le modèle 3 (assez prévisible, n'est-ce pas?). Dans le même travail, plusieurs autres modèles sont décrits, ils développent les idées décrites en ajoutant des conditions pour prédire la traduction d'un mot - par exemple, au mot précédent, car certains mots sont mieux combinés les uns avec les autres et sont donc plus courants. Tout ce groupe de modèles a donné lieu à la traduction dite à base de phrases.

Cette direction a existé et développé, en particulier, un cadre ouvert pour la traduction automatique Moses a été développé (sur le site officiel, vous pouvez voir qu'il est un peu tombé en décadence). À une époque, c'était le principal moyen de traduction automatique, même si la traduction automatique n'était pas si courante à l'époque. Mais en 2014, une chose terrible s'est produite: le deep learning a atteint le domaine de la traduction automatique. Si vous vous souvenez un an plus tôt, il s'agissait de représentations vectorielles de mots, j'ai décrit cet article sur les plongements . Et en 2014, un article a été publié par Dmitry Bogdanov (et ses co-auteurs, dont le célèbre Yoshua Bengio) intitulé Neural Machine Translation by Jointly Learning to Align and Translate(ou - traduction automatique de neurones par formation conjointe d'alignement et de traduction). Dans ce travail, Dmitry a proposé l'utilisation du mécanisme d'attention pour les réseaux de neurones récurrents et avec son aide, il a pu battre le Moïse susmentionné d'une quantité significative.

Ici, vous devez faire une digression et parler de la façon de mesurer la qualité de la traduction automatique. Dans l' œuvre de PapineniEn 2002, la métrique BLEU a été proposée (sous-étude d'évaluation bilingue - étude de comparaison bilingue). Cette métrique compare essentiellement le nombre de mots de la traduction automatique correspondant aux mots de la version humaine. Ensuite, les combinaisons de mots de deux mots, trois, quatre sont comparées. Tous ces chiffres sont moyennés et exactement un chiffre est obtenu qui décrit la qualité du système de traduction automatique de ce bâtiment. Cette métrique a ses inconvénients, par exemple, il peut y avoir différentes options humaines pour traduire un texte, mais étonnamment depuis près de 20 ans, rien de mieux n'a été proposé pour évaluer la qualité d'une traduction.

Mais revenons au mécanisme d'attention. Il faut dire que des réseaux récurrents ont été proposés 15 ans plus tôt, puis n'ont pas fait fureur. Un problème important avec ces réseaux était qu'ils oubliaient rapidement ce qu'ils «lisaient». Résoudre partiellement ce problème pour la traduction automatique et le mécanisme d'attention a aidé. Le voici dans l'image:



que fait-il? Il pèse les mots dans l'entrée pour donner un vecteur de mots à traduire. C'est ce qui a permis de construire automatiquement des matrices d'alignement basées sur du texte brut sans balisage. Par exemple, tels que:

image

Après que tout le monde a vu que c'était possible, de grands efforts ont été consacrés à la traduction automatique, qui est devenue le domaine du traitement du langage naturel qui connaît la croissance la plus rapide. Des améliorations significatives de la qualité ont été réalisées, y compris pour les paires de langues distantes, telles que l'anglais et le chinois ou l'anglais et le russe. Les réseaux récurrents ont dominé la balle pendant un certain temps selon les normes modernes - près de 4 ans. Mais fin 2017, des trompettes ont retenti pour annoncer l'approche d'un nouveau roi de la montagne. C'était un article intitulé Attention, c'est tout ce dont vous avez besoin (l'attention est tout ce dont vous avez besoin; une paraphrase du nom de la célèbre chanson des Beatles "Tout ce dont vous avez besoin, c'est de l'amour"). Cet article présentait l'architecture du transformateur, qui consistait un peu moins complètement en mécanismes d'attention. J'en ai parlé davantage dans un article surRésultats 2017 , donc je ne vais pas me répéter.

Depuis lors, beaucoup d'eau a coulé, mais il en reste encore beaucoup plus. Par exemple, il y a deux ans, début 2018, les chercheurs de Microsoft ont annoncé la réalisation de l'égalité de qualité avec une traduction humaine traduite de l'anglais en chinois. Cet article a été beaucoup critiqué, principalement du point de vue que la réalisation de nombres égaux par BLEU est un indicateur de l'adéquation incomplète de la métrique BLEU. Mais le battage médiatique a été généré.

Une autre direction intéressante dans le développement de la traduction automatique est la traduction automatique sans données parallèles. Comme vous vous en souvenez, l'utilisation des réseaux de neurones nous a permis d'abandonner le balisage d'alignement dans les textes traduits pour enseigner le modèle de traduction automatique. Les auteurs de la traduction automatique non supervisée utilisant uniquement des corpus monolingues (une traduction automatique utilisant uniquement des données monolingues) ont présenté un système qui, avec une certaine qualité, était capable de traduire de l'anglais vers le français (la qualité était, bien sûr, inférieure aux meilleures réalisations de l'époque, mais seulement de 10%) . Fait intéressant, les mêmes auteurs ont amélioré leur approche en utilisant des idées de traduction phrasale plus tard dans l'année.

Enfin, la dernière chose que je voudrais souligner est la traduction dite non autorégressive. Ce que c'est? Tous les modèles, à commencer par IBM Model 3, s'appuient sur les mots précédents déjà traduits lors de la traduction. Et les auteurs de l' ouvrage , appelé traduction automatique non autorégressive, ont tenté de se débarrasser de cette dépendance. La qualité s'est également avérée légèrement inférieure, mais la vitesse d'une telle traduction peut être des dizaines de fois plus rapide que pour les modèles autorégressifs. Étant donné que les modèles modernes peuvent être très volumineux et lents, il s'agit d'un gain important, en particulier sous forte charge.

Il va sans dire que la région ne reste pas immobile et de nouvelles idées sont proposées, par exemple la prétendue rétro-traduction, lorsque les données monolingues traduites par le modèle lui-même sont utilisées pour une formation continue; l'utilisation de réseaux de convolution, qui est également plus rapide que le transformateur standard de nos jours; l'utilisation de grands modèles linguistiques pré-formés (j'ai un article séparé à leur sujet ). Tous, malheureusement, ne peuvent pas être répertoriés.

Notre entreprise compte l'un des principaux scientifiques dans le domaine de la traduction automatique - le professeur Qun Liu. Le professeur Liu et moi dirigeons un cours de traitement du langage naturel, dans lequel une attention particulière est accordée spécifiquement à la traduction automatique. Si vous êtes intéressé par ce domaine, vous pouvez toujours rejoindre notre cours , qui a commencé il y a un mois.

Et si vous sentez la force en vous, alors nous serons heureux de vous voir parmi les participants à notre concours pour traduire du chinois vers le russe! La compétition débutera le 14 avril et durera exactement un mois. Nous espérons que nos participants obtiendront de nouveaux résultats dans cette tâche et seront en mesure de faire progresser l'ensemble du domaine de la traduction automatique. Le concours se déroulera sur la plateforme MLBootCamp, et nous sommes très reconnaissants à l'équipe MLBootCamp et personnellement Dmitry Sannikov pour leur aide dans l'organisation.

Lien de compétition

All Articles