Voynich Code: Imaginärer Triumph der künstlichen Intelligenz

Das Interessengebiet für Mitarbeiter und Lehrer der EnglishDom Online School of English ist viel breiter als nur Englisch. Interessant sind auch die Geheimnisse der Linguistik. Kürzlich kam es in unserem Büro zu einer Kontroverse über den Voynich-Code, und wir beschlossen, einen Artikel zu diesem Thema zu verfassen.



Das Voynich-Manuskript ist eines der brennendsten Geheimnisse der Linguistik und Kryptographie, das bis heute nicht gelöst wurde. Seit 600 Jahren können selbst die besten Köpfe der Welt diesen mysteriösen Text nicht annähernd enträtseln.

2016 haben Forscher ein neuronales Netzwerk an die Lösung angeschlossen. Das Ergebnis war unerwartet - der Computer analysierte den Text und machte einen Fehler. Lesen Sie mehr darüber.

Das Voynich-Manuskript ist ein illustrierter handgeschriebener Code, der in einer unbekannten Sprache oder einem unbekannten Code geschrieben ist.

Nach den Ergebnissen der Kohlenstoffanalyse wurde das Buch in der ersten Hälfte des 15. Jahrhunderts geschrieben. 240 Seiten Pergament mit seltsamen Buchstaben, die wie Text aussehen. Die Schwierigkeit bei der Entschlüsselung besteht jedoch darin, dass das Buch ein unbekanntes Alphabet verwendet, das keiner vorhandenen oder untersuchten vorhandenen Sprache entspricht.

Eine detaillierte Analyse des Textes ermöglicht es uns festzustellen, dass die Buchstaben bestimmten Grammatikregeln entsprechen, die Regeln selbst jedoch nicht bestimmt werden können. Der Text enthält praktisch keine Wörter mit einem oder zwei Buchstaben, viele davon in lateinischen Sprachen. Die einzelnen Prinzipien für das Schreiben von Wörtern ähneln der arabischen Schrift oder dem Hebräischen. Einzelne Wörter werden in der Regel mehrmals hintereinander wiederholt. Im Allgemeinen kann die Struktur einer Sprache oder Chiffre nicht einmal grob bestimmt werden - sie unterscheidet sich zu sehr von allen Prinzipien des Schreibens schriftlicher Sprache, die uns vertraut sind.

Das einzige, was Sprachexperten seit fast 600 Jahren feststellen können, ist, dass die Informationsentropie des Codes ungefähr der Entropie von Englisch und Latein entspricht. Dies bedeutet, dass der Text definitiv keine zufälligen Zeichen ist, sondern eine bestimmte Bedeutung hat.

Theoretisch kann es sogar verschlüsseltes Englisch sein, aber wie kann man herausfinden, ob die Forscher immer noch nicht feststellen können, ob das Manuskript selbst eine Chiffre oder nur eine seltsame Sprache ist?

Selbst mit einem Schlüssel erfordert die Entschlüsselung der Prinzipien einer Sprache enorme Anstrengungen der Linguisten. Die Entschlüsselung des Rosetta-Steins dauerte 20 Jahre. Und dies vorausgesetzt, sie kannten eine der drei Sprachen, in denen der Text in Stein gemeißelt war.

Stellen Sie sich vor, selbst wenn Sie die Übersetzung des antiken griechischen Textes kennen, haben die Forscher mehr als zwei Jahrzehnte gebraucht, um denselben Text zu entschlüsseln, der in Hieroglyphenschrift geschrieben ist. Der demotische Brief wurde früher entschlüsselt, aber es fällt auf, dass die Tatsache, dass der Schlüssel, das Wesen der Sprache, so lange gelöst war.


Das Voynich-Manuskript enthält auch kurze Fragmente des Textes, die aus der Gesamtzahl herausgeschlagen werden. Separate Wörter in lateinischen Buchstaben mit Kombinationen unbekannter Zeichen.

Diese Inschriften werden jedoch entweder verschlüsselt oder nach den Regeln einer unbekannten Sprache geschrieben. Weil es unmöglich ist, sie zu übersetzen. Auf jeden Fall sagen es die Forscher.

Theorien zur Entschlüsselung des Voynich-Manuskripts


Seit 600 Jahren häufen Forscher eine ganze Reihe von Theorien über den Ursprung der Sprache und des Alphabets des Buches an. Es gibt ziemlich seltsame, es gibt bemerkenswerte.

Die meisten Gelehrten bis zum 20. Jahrhundert glaubten, dass Voynichs Manuskript nur eine der europäischen Sprachen auf besondere Weise verbirgt .

Der Text entspricht jedoch nicht den Chiffren des 15. Jahrhunderts. Substitution, polyalphabetische, Nomenklator- und homophone Chiffren sind nicht geeignet.

Es ist möglich, dass der Text mit einer der oben genannten Chiffren verschlüsselt und dann mit falschen Zeichen und Leerzeichen oder einer anderen Verschlüsselungsstufe kompliziert wurde. Diese Hypothese ist jedoch äußerst schwer zu überprüfen, da in diesem Fall nicht nachvollzogen werden kann, welche Zeichen falsch und welche wahr sind .

Die zweite populäre Hypothese besagt, dass der Voynich-Code eine übliche Codebuch-Chiffre ist . Das heißt, eine separate Zeichenkombination ist ein separates Wort in einer vorhandenen Sprache. In der Tat legt die Form des Manuskripts nahe, dass der Text eine ganz bestimmte Bedeutung hat. Aber heute ist es unmöglich, diese Hypothese zu bestätigen oder zu widerlegen - eine solche Chiffre zu knacken ist nur mit Hilfe eines Wörterbuchs möglich.

Einige Forscher glauben, dass das Manuskript in einer echten exotischen Sprache mit einem einzigartigen Alphabet geschrieben ist . Zum Beispiel in einem der östlichen oder amerikanischen Dialekte. Einige stilistische Merkmale des Textes deuten darauf hin, aber Beweise dafür reichen immer noch nicht aus.

Es gibt noch viele Überlegungen: künstlich geschaffene einzigartige Sprache, mehrsprachiger verschlüsselter Text, Protosprache, die allen Sprachen der romanischen Gruppe vorausging. Es gab sogar Gedanken, dass das Manuskript von einem Verrückten geschrieben wurde und überhaupt keinen Sinn ergab. Die Forscher versuchten auch zu beweisen, dass das Manuskript ein Scherz ist, aber die Radiokohlenstoffanalyse zeigt immer noch, dass das Buch wirklich im 15. Jahrhundert geschrieben wurde.

Keine der Hypothesen hat bisher ausreichende Beweise für ihre Unschuld erhalten. Daher wurde der Voynich-Code noch nicht gelöst.

Das neuronale Netz versucht, den Voynich-Code zu knacken


Nach einer umfangreichen und umfassenden Einführung wenden wir uns dem Kern des Artikels zu. 2016 versuchten sie, Enigma mithilfe eines neuronalen Netzwerks aus der Welt der Literatur zu hacken. Ja, es war im Jahr 2016 - die Medien erfuhren erst 2018 von diesen Versuchen, da sie aufgrund dieses Datums oft verwirrt sind. Hier ist ein Link zur Originalstudie . Der Text ist in englischer Sprache, daher benötigen Sie zumindest ein wenig Verständnis der wissenschaftlichen Terminologie.

Kanadische Wissenschaftler haben das neuronale Netzwerk "trainiert", um einzelne Elemente des Alphabets und Token aus 380 existierenden oder zuvor existierenden Weltsprachen zu erkennen. Laut den Forschern lag die Genauigkeit der Analyse des neuronalen Netzwerks innerhalb von 97%.

Das System zeigte, dass die wahrscheinlichste Manuskriptsprache Hebräisch ist. Natürlich kein einfaches Hebräisch, sondern mit einem Index. Forscher haben vorgeschlagen, dass das Buch eine ziemlich einfache Chiffre hat, bei der Vokale weggelassen oder mit anderen Zeichen verschlüsselt werden und Konsonanten in alphabetischer oder zufälliger Reihenfolge angeordnet werden.

Es ist auch erwähnenswert, dass das System auch andere mögliche Quellen lieferte: Mazatek (die Muttersprache des modernen Südens von Mexiko), Mozarabisch (arabisierte Sprache der Iberischen Halbinsel), Italienisch und Ladino (die Sprache der Juden der Iberischen Halbinsel). Das neuronale Netz fand auch Elemente der arabischen und amharischen Standardsprache (das Territorium des modernen Äthiopien, Teil der semitischen Gruppe).

Ein solcher Ansatz führte plötzlich zu Ergebnissen und das neuronale Netzwerk konnte einen Teil des Textes des Buches übersetzen. Der erste Satz wurde übersetzt als:

Sie gab dem Priester, dem Mann des Hauses und mir und den Menschen Empfehlungen.
Sie gab dem Priester, dem Besitzer des Hauses, mir und den Menschen Ratschläge.

Hier scheint es der Triumph der künstlichen Intelligenz zu sein! Basierend auf dieser Interpretation und den Illustrationen gingen die Forscher sogar davon aus, dass das Voynich-Manuskript eine Art Arzneibuch war - ein medizinisches Buch, das den Heilungswert von Kräutern, Methoden zur Herstellung und Verwendung von Arzneimitteln und die Struktur des menschlichen Körpers beschrieb.

Insgesamt „erkannte“ der Algorithmus ungefähr 80% der Wörter aus dem gesamten Manuskript. Die Analyse basierte auf der gleichen Annahme über das Fehlen von Lautäußerungen und die willkürliche Reihenfolge der Buchstaben in Wörtern.

Wiederholte Überprüfungen der ersten Testphrase zeigten jedoch ein anderes Ergebnis:

And the priest made a man for him to his house, and to his men.
, .

Unleavened bread and made her the priest, and one which leaves his home.
, , .

Die Phrasen sind weniger sinnvoll als die Originalversion, aber theoretisch kann dies auf die Unvollkommenheit der Übersetzungsalgorithmen des Systems zurückgeführt werden. Im Allgemeinen blieben die lexikalischen Grundlagen in allen Versionen der Übersetzung unverändert: „Priester“ und „Haus“.

Man könnte Erfolg behaupten, aber es gibt ein paar ernsthafte „Aber“, die die Ergebnisse der Studie nicht sensationell machen.

Erstens erlaubten die Einstellungen des neuronalen Netzwerks eine gewisse Freiheit bei der Interpretation von Wörtern, denn selbst wenn Sie berücksichtigen, dass das Alphabet nur eine geänderte Art von hebräischen Buchstaben ist, gibt es einige Varianten von Wörtern, die durch Neuanordnen der Buchstaben gebildet werden können.

Wenn wir davon ausgehen, dass die Sprache des Manuskripts nicht hebräisch ist, sondern einfach zu einer semitischen Gruppe gehört oder mit dieser verwandt ist, ist eine perfekte Analyse nicht sinnvoll - es gibt zu viele Möglichkeiten, selbst die Zeichen zu analysieren, deren Wert bereits bestimmt worden zu sein scheint. Und es gibt noch mehr Unbekannte.

In dieser Situation möchte ich an den Satz über endlose Affen erinnern. Wenn jemand nicht gehört hat, hier ist es:

Angenommen, wir haben unendlich viele Affen mit Schreibmaschinen, von denen jeder für unbegrenzte Zeit zufällig auf die Tasten tippt.

Früher oder später kann einer der Affen jeden beliebigen Text „austricksen“: sei es eine kurze Notiz oder „Krieg und Frieden“.

Diese Theorie kann angewendet werden, wenn der Text von einem neuronalen Netzwerk interpretiert wird. Das neuronale Netzwerk selbst erstellt zunächst einen Pool von Varianten der Bedeutung jedes Wortes und wählt dann aus dem gesamten Pool von Varianten die bestmöglichen Interpretationen basierend auf Kombinationen mit benachbarten Varianten aus.

Als Ergebnis erhalten wir in einem Satz von 5-8 erwarteten Wörtern mehrere Zehntausend Optionen, von denen das neuronale Netzwerk diejenige wählt, die die größte Bedeutung hat.

Das heißt, es besteht eine sehr hohe Wahrscheinlichkeit, dass es unter diesen unterschiedlichen Optionen versehentlich eine oder mehrere gibt, die wirklich Sinn machen. Wenn es eine komplexere Chiffre oder eine andere lexikalische Struktur von Sätzen oder Wörtern gibt, stellt sich die Methode als falsch positiv heraus.

In der Tat gibt es ein Ergebnis, es kann "gefühlt" und der Öffentlichkeit präsentiert werden, aber es macht keinen Sinn, weil es der wirklichen Lösung der Chiffre keinen Schritt näher kommt.

Eine objektive Kombination des Stils der Buchstaben des Alphabets mit Hebräisch ist eine eher ungewöhnliche Lösung. Die meisten Gelehrten des Manuskripts bezweifeln jedoch, dass die Originalsprache des Manuskripts Hebräisch ist. Die lexikalische Struktur stimmt nicht sehr stark überein, und es ist immer noch nicht möglich, den Grad der Verschlüsselung zu analysieren, falls vorhanden.

Darüber hinaus glauben einige, dass Linguisten mit einem neuronalen Netzwerk keine objektive Analyse durchgeführt haben, sondern die Bestätigung einer separaten Theorie gesucht haben. Die Hypothese, dass das Buch ein Arzneibuch ist, kann auf der Grundlage von Zeichnungen von Kräutern, Menschen und Sternenkörpern aufgestellt werden, auch ohne den Text zu analysieren.

Infolgedessen wurden die Forschungsergebnisse in der wissenschaftlichen Gemeinschaft nicht akzeptiert. Weil sie nicht die spezifischen Merkmale und Prinzipien der Sprache offenbaren, wie sie für ein vollwertiges sprachliches Studium von Adverbien erforderlich sind. Damit die Forschungsergebnisse anerkannt werden, gibt es einen blöden Mangel an Beweisen. Es ist unmöglich, eine klare logische Kette zu verfolgen, die das neuronale Netzwerk während der Analyse leitete, daher können die Ergebnisse nicht als wissenschaftlich fundiert angesehen werden - es besteht eine Wahrscheinlichkeit ungleich Null, dass sich die Kette als fehlerhaft herausstellt.

Es gab jedoch keine adäquaten Hypothesen mehr zum Voynich-Manuskript.

Linguisten haben es versucht, aber sie sehen alle eher wie Farce aus. Zum Beispiel gab ein britischer Wissenschaftler im Jahr 2019 an, den Voynich-Code entschlüsselt zu haben. Die Theorie der „protoromanischen Sprache“ oder des vulgären Latein wurde jedoch von Gelehrten scharf kritisiert, die die Briten beschuldigten, Wörter künstlich zu wählen, ohne die Prinzipien des Schreibens zu definieren und ohne Argumente über die lexikalischen Zusammenhänge zwischen Bedeutungen zu überzeugen.

Jetzt ist es bereits 2020 und der Hype um die „einzige und korrekte Entschlüsselung des Voynich-Manuskripts“ hat aufgehört. Er gilt immer noch als eines der wichtigsten sprachlichen und kryptologischen Rätsel unserer Zeit.

Natürlich würde ich gerne glauben, dass sie es eines Tages trotzdem lösen werden. Wenn dies eine Art Sprache ist, dann ist es durchaus möglich. Wenn dies jedoch immer noch eine Chiffre mit einem verlorenen Schlüssel ist, besteht die Gefahr, dass das Manuskript für immer nur ein schönes altes Buch mit einer mysteriösen Geschichte bleibt.

Im Allgemeinen sind sprachliche Rätsel ein sehr cooles Thema. Kreuzworträtsel und Rätsel - dies ist nur die Spitze des Eisbergs - es gibt so viele Möglichkeiten, gleichzeitig Englisch zu lernen und Logik und Denken zu fördern. EnglishDom-Lehrer verwenden sie häufig im Unterricht, um den Lernprozess zu diversifizieren und interessanter zu gestalten.

EnglishDom.com Online-Schule - inspirieren Sie Sie, Englisch durch Technologie und menschliche Fürsorge zu lernen




Nur für Leser von Habr die erste Lektion mit dem Lehrer auf Skype kostenlos ! Und wenn Sie Kurse kaufen, erhalten Sie bis zu 3 Lektionen als Geschenk!

Holen Sie sich einen Monat lang kostenlos ein Premium-Abonnement für die ED Words-App .
Geben Sie den Voynich- Aktionscode auf dieser Seite oder direkt in die ED Words-App ein . Der Aktionscode ist bis zum 30.01.2021 gültig.

Unsere Produkte:

Source: https://habr.com/ru/post/undefined/


All Articles