Maschinelle Übersetzung. Vom Kalten Krieg bis zur Gegenwart

Die maschinelle Übersetzung ist in den letzten Jahren sehr verbreitet geworden. Sicherlich haben die meisten meiner Leser die Dienste Google.Translate oder Yandex.Translation mindestens einmal verwendet. Es ist auch wahrscheinlich, dass sich viele Menschen daran erinnern, dass es vor nicht allzu langer Zeit, vor ungefähr 5 Jahren, sehr schwierig war, automatische Übersetzer zu verwenden. Es ist nicht einfach in dem Sinne, dass sie eine Übersetzung von sehr schlechter Qualität herausgaben. Unter dem Schnitt befindet sich eine kurze und unvollständige Geschichte der maschinellen Übersetzung, aus der sie in dieser Aufgabe und einigen ihrer Ursachen und Folgen ersichtlich wird. Zunächst ein Bild, das ein wichtiges Konzept zur maschinellen Übersetzung zeigt:



Dieses Konzept wird als "Noisy Channel" -Konzept bezeichnet und stammt aus der Funktechnik. In verschiedenen Versionen wird es verschiedenen Wissenschaftlern zugeschrieben, Nyquist, Kupfmüller, Shannon, aber in diesem Streit verwurzele ich unseren Landsmann - Vladimir Alexandrovich Kotelnikov, der in seiner Arbeit von 1933 seinen berühmten Satz bewies. An sich liegt dieser Satz außerhalb des Geltungsbereichs dieses Artikels, daher sende ich Interessenten an Wikipedia .

Für uns ist etwas anderes wichtig. Das Konzept eines verrauschten Kanals wurde auf eine neue Richtung angewendet - die automatische maschinelle Übersetzung. Nach dem Ende des Zweiten Weltkriegs entschieden unsere Partner in Übersee, dass die Sowjetunion, die ihre Stärke durch den Sieg über die beste Armee in Europa und der Welt gezeigt hatte, eine ernsthafte Bedrohung darstellte. Es wurden verschiedene Maßnahmen ergriffen, um diese Bedrohung zu stoppen, einschließlich der Arbeit an der automatischen Übersetzung vom Russischen ins Englische. Dies war notwendig, weil die Sowjetunion extrem viele Informationen produzierte - Fernsehprogramme, Radiogespräche, Bücher und Zeitschriften. Und wenn wir die Verhandlungen unserer Verbündeten über die Organisation des Warschauer Pakts berücksichtigen, dann war das Ausmaß des Problems bereits einfach beängstigend: Es war nicht möglich, eine solche Armee professioneller Übersetzer auszubilden und noch mehr aufrechtzuerhalten.Und hier wurde die Idee geboren - sagen wir, der Text auf Russisch ist nur ein verzerrter Text auf Englisch, und wir werden algorithmisch versuchen, den "Quell" -Text wiederherzustellen. Genau das schlug Warren Weaver 1949 vor.

Konzeptionell sieht es schön aus, aber die Frage ist, wie man es umsetzt. Dies wurde auf der Grundlage der sogenannten Phrasenübersetzung realisiert.

Aber lass uns in Ordnung gehen. Was ist der einfachste Weg, um in den Sinn zu übersetzen? Wörterbuchübersetzung - Das heißt, es wird ein fertiges Wörterbuch erstellt und alle Wörter im Satz werden durch ihre Entsprechungen in einer anderen Sprache ersetzt. Dieser Ansatz wurde 1989 von der berüchtigten IBM-Firma vorgeschlagen .. Dieser Ansatz hat einen offensichtlichen Nachteil: Die Wortreihenfolge in verschiedenen Sprachen kann unterschiedlich sein und manchmal sehr. Der nächste Schritt in diesem Modell besteht darin, die Permutation von Wörtern zu ermöglichen. Und wie können diese Permutationen vorhergesagt werden? In derselben Arbeit wurde ein anderes Modell vorgeschlagen (wenn das erste Modell 1 heißt, heißt das zweite sehr logisch Modell 2). In diesem System gibt es zusätzlich zum Wörterbuch ein sogenanntes Ausrichtungsmodell - die Korrelation von Wörtern in zwei Sätzen miteinander. Die Ausrichtung wird anhand der Körperstatistik erlernt. Der offensichtliche Nachteil dieses Modells besteht darin, dass die Vorbereitung des Falles, in dem die Ausrichtung erfolgt, sehr aufwändig ist. Professionelle Übersetzer müssen nicht nur den Text übersetzen, sondern auch angeben, welches Wort welche Übersetzung ist.

Es ist erwähnenswert, dass zusätzlich zu der unterschiedlichen Reihenfolge der Wörter beispielsweise das Problem besteht, dass einige Wörter vollständig ohne Übersetzung sind (z. B. existieren Artikel nicht auf Russisch) und einige Wörter mehr als eine Übersetzung erfordern Wort (z. B. Präposition + Substantiv). IBM-Kollegen nannten dies die Fertilitätsrate und erstellten Modelle dafür, die ebenfalls auf Statistiken basierten. Dies ist Modell 3 (ziemlich vorhersehbar, nicht wahr?). In derselben Arbeit werden mehrere weitere Modelle beschrieben, die die beschriebenen Ideen entwickeln, indem sie Bedingungen für die Vorhersage der Übersetzung eines Wortes hinzufügen - beispielsweise zum vorherigen Wort, da einige Wörter besser miteinander kombiniert werden und daher häufiger vorkommen. Aus dieser gesamten Gruppe von Modellen entstand die sogenannte phrasenbasierte Übersetzung.

Diese Richtung existierte und entwickelte insbesondere einen offenen Rahmen für maschinelle Übersetzung Moses wurde entwickelt (auf der offiziellen Website kann man sehen, dass es etwas in Verfall geraten ist). Zu einer Zeit war dies das Hauptmittel der maschinellen Übersetzung, obwohl maschinelle Übersetzung zu dieser Zeit nicht so üblich war. Aber 2014 passierte etwas Schreckliches - tiefes Lernen erreichte den Bereich der maschinellen Übersetzung. Wenn Sie sich an ein Jahr zuvor erinnern, als es um Vektordarstellungen von Wörtern ging, habe ich diesen Artikel über Einbettungen beschrieben . Und 2014 wurde von Dmitry Bogdanov (und Co-Autoren, von denen einer der berühmte Yoshua Bengio war) ein Artikel mit dem Titel Neuronale maschinelle Übersetzung durch gemeinsames Lernen zum Ausrichten und Übersetzen veröffentlicht(oder - neuronale maschinelle Übersetzung durch gemeinsames Training von Ausrichtung und Übersetzung). In dieser Arbeit schlug Dmitry die Verwendung des Aufmerksamkeitsmechanismus für wiederkehrende neuronale Netze vor und konnte mit seiner Hilfe den oben genannten Moses um einen erheblichen Betrag schlagen.

Hier müssen Sie abschweifen und darüber sprechen, wie Sie die Qualität der maschinellen Übersetzung messen können. In der Arbeit von PapineniIm Jahr 2002 wurde die BLEU-Metrik vorgeschlagen (zweisprachige Evaluierungsstudie - Studie zum zweisprachigen Vergleich). Diese Metrik vergleicht im Wesentlichen, wie viele Wörter aus der maschinellen Übersetzung mit Wörtern aus der menschlichen Version übereinstimmen. Dann werden die Wortkombinationen von zwei Wörtern, drei, vier verglichen. Alle diese Zahlen werden gemittelt und es wird genau eine Zahl erhalten, die die Qualität des maschinellen Übersetzungssystems in diesem Gebäude beschreibt. Diese Metrik hat ihre Nachteile, zum Beispiel kann es verschiedene menschliche Optionen für die Übersetzung eines Textes geben, aber überraschenderweise wurde seit fast 20 Jahren nichts Besseres vorgeschlagen, um die Qualität einer Übersetzung zu bewerten.

Aber zurück zum Aufmerksamkeitsmechanismus. Es sollte gesagt werden, dass wiederkehrende Netzwerke 15 Jahre zuvor vorgeschlagen wurden und dann keine Aufregung hervorriefen. Ein wesentliches Problem bei diesen Netzwerken war, dass sie schnell vergaßen, was sie „gelesen“ hatten. Lösen Sie dieses Problem teilweise für die maschinelle Übersetzung, und der Aufmerksamkeitsmechanismus hat geholfen. Hier ist es auf dem Bild:



Was macht er? Es wiegt die Wörter in der Eingabe, um einen Wortvektor für die Übersetzung zu erhalten. Dies ermöglichte es, automatisch Ausrichtungsmatrizen basierend auf Rohtext ohne Markup zu erstellen. Zum Beispiel:

Bild

Nachdem alle gesehen hatten, dass dies möglich war, wurden große Anstrengungen zur maschinellen Übersetzung unternommen, die zum am schnellsten wachsenden Bereich der Verarbeitung natürlicher Sprache wurde. Es wurden signifikante Qualitätsverbesserungen erzielt, auch für entfernte Sprachpaare wie Englisch und Chinesisch oder Englisch und Russisch. Wiederkehrende Netzwerke beherrschten den Ball für einige Zeit nach modernen Maßstäben - fast 4 Jahre. Ende 2017 erklangen jedoch Trompeten, die die Annäherung eines neuen Königs des Berges ankündigten. Dies war ein Artikel mit dem Titel Aufmerksamkeit ist alles, was Sie brauchen (Aufmerksamkeit ist alles, was Sie brauchen; eine Umschreibung des Namens des berühmten Beatles-Songs „Alles, was Sie brauchen, ist Liebe“). In diesem Artikel wurde die Architektur des Transformators vorgestellt, der etwas weniger als vollständig aus Aufmerksamkeitsmechanismen bestand. Ich habe in einem Artikel über mehr über sie gesprochenErgebnisse 2017 , daher werde ich mich nicht wiederholen.

Seitdem ist ziemlich viel Wasser geflossen, aber es bleibt noch viel mehr übrig. Zum Beispiel kündigten Microsoft-Forscher vor zwei Jahren, Anfang 2018, die Erreichung der Qualitätsgleichheit mit einer menschlichen Übersetzung aus dem Englischen in chinesische Nachrichtendokumente an. Dieser Artikel wurde vielfach kritisiert, vor allem unter dem Gesichtspunkt, dass das Erreichen gleicher Zahlen durch BLEU ein Indikator für die unvollständige Angemessenheit der BLEU-Metrik ist. Aber es wurde ein Hype erzeugt.

Eine weitere interessante Richtung bei der Entwicklung der maschinellen Übersetzung ist die maschinelle Übersetzung ohne parallele Daten. Wie Sie sich erinnern, konnten wir durch die Verwendung neuronaler Netze das Ausrichtungsmarkup in übersetzten Texten für das Unterrichten des maschinellen Übersetzungsmodells aufgeben. Die Autoren der unbeaufsichtigten maschinellen Übersetzung, die nur einsprachige Korpora verwendet (eine maschinelle Übersetzung, die nur einsprachige Daten verwendet), stellten ein System vor, das mit einer gewissen Qualität vom Englischen ins Französische übersetzen konnte (die Qualität war natürlich niedriger als die besten Leistungen dieser Zeit, aber nur um 10%). . Interessanterweise verbesserten dieselben Autoren ihren Ansatz später in diesem Jahr mithilfe von Ideen für die Übersetzung von Phrasen.

Das Letzte, was ich hervorheben möchte, ist die sogenannte nicht selbstregressive Übersetzung. Was ist das? Alle Modelle, beginnend mit IBM Model 3, basieren auf vorherigen Wörtern, die bereits bei der Übersetzung übersetzt wurden. Und die Autoren der Arbeit , die als nicht selbstregressive maschinelle Übersetzung bezeichnet wird, haben versucht, diese Abhängigkeit zu beseitigen. Die Qualität erwies sich ebenfalls als etwas geringer, aber die Geschwindigkeit einer solchen Übersetzung kann zehnmal schneller sein als bei autoregressiven Modellen. Angesichts der Tatsache, dass moderne Modelle sehr groß und langsam sein können, ist dies ein erheblicher Gewinn, insbesondere unter hoher Last.

Es versteht sich von selbst, dass die Region nicht stillsteht und neue Ideen bietet, beispielsweise die sogenannte Rückübersetzung, wenn die vom Modell selbst übersetzten einsprachigen Daten für die Weiterbildung verwendet werden. die Verwendung von Faltungsnetzwerken, die heutzutage auch schneller als der Standardtransformator sind; die Verwendung von vorgefertigten großen Sprachmodellen (ich habe einen separaten Artikel darüber ). Alle können leider nicht aufgelistet werden.

Unser Unternehmen hat einen der führenden Wissenschaftler auf dem Gebiet der maschinellen Übersetzung - Professor Qun Liu. Professor Liu und ich leiten einen Kurs in natürlicher Sprachverarbeitung, in dem der maschinellen Übersetzung besondere Aufmerksamkeit gewidmet wird. Wenn Sie sich für diesen Bereich interessieren, können Sie trotzdem an unserem Kurs teilnehmen , der vor einem Monat begonnen hat.

Und wenn Sie die Stärke in sich spüren, freuen wir uns, Sie unter den Teilnehmern unseres Wettbewerbs für die Übersetzung vom Chinesischen ins Russische zu sehen! Der Wettbewerb beginnt am 14. April und dauert genau einen Monat. Wir hoffen, dass unsere Teilnehmer bei dieser Aufgabe neue Ergebnisse erzielen und den gesamten Bereich der maschinellen Übersetzung vorantreiben können. Der Wettbewerb wird auf der MLBootCamp-Plattform stattfinden, und wir sind dem MLBootCamp-Team und persönlich Dmitry Sannikov für ihre Hilfe bei der Organisation sehr dankbar.

Wettbewerbslink

All Articles