Code Voynich: triomphe imaginaire de l'intelligence artificielle

Le domaine d'intérêt pour les employés et les enseignants de l'école d'anglais en ligne EnglishDom est beaucoup plus large que l'anglais. Les mystères de la linguistique nous intéressent également. Récemment, dans notre bureau, un différend est survenu sur le code Voynich, et nous avons décidé de faire un article sur ce sujet.



Le manuscrit de Voynich est l'un des mystères les plus brûlants de la linguistique et de la cryptographie, qui n'a pas été résolu à ce jour. Pendant 600 ans, même les meilleurs esprits du monde ne sont pas parvenus à démêler ce texte mystérieux.

En 2016, les chercheurs ont connecté un réseau de neurones à la solution. Le résultat était inattendu - l'ordinateur a analysé le texte et a fait une erreur. En savoir plus à ce sujet.

Le manuscrit Voynich est un code manuscrit illustré qui est écrit dans une langue ou un code inconnu.

Selon les résultats de l'analyse du carbone, le livre a été écrit dans la première moitié du XVe siècle. 240 pages de parchemin couvert de lettres étranges qui ressemblent à du texte. Mais la difficulté de le déchiffrer est que le livre utilise un alphabet inconnu qui ne correspond à aucune langue existante ou étudiée.

Une analyse détaillée du texte nous permet de déterminer que les lettres obéissent à certaines règles de grammaire, mais les règles elles-mêmes ne peuvent pas être déterminées. Il n'y a pratiquement pas de mots d'une ou deux lettres dans le texte, qui sont nombreux dans les langues latines; les principes individuels d'écriture des mots ressemblent à distance à l'écriture arabe ou à l'hébreu. Les mots individuels sont généralement répétés plusieurs fois de suite. En général, la structure d'une langue ou d'un chiffre ne peut même pas être déterminée grossièrement - elle est trop différente de tous les principes de l'écriture de la langue écrite que nous connaissons.

La seule chose que les experts linguistiques ont pu déterminer depuis près de 600 ans est que l'entropie informationnelle du code est approximativement égale à l'entropie de l'anglais et du latin. Cela signifie que le texte n'est certainement pas un ensemble de caractères aléatoires, mais qu'il a une certaine signification.

En théorie, il peut même être crypté en anglais, mais comment savoir si les chercheurs ne peuvent toujours pas déterminer si le manuscrit lui-même est un chiffre ou simplement une langue étrange?

Même avec une clé, déchiffrer les principes d'une langue demande un effort considérable de la part des linguistes. Déchiffrer la pierre de Rosetta a pris 20 ans aux chercheurs. Et cela à condition qu'ils connaissent l'une des trois langues dans lesquelles le texte était écrit dans la pierre.

Imaginez, même en connaissant la traduction du texte grec ancien, il a fallu plus de deux décennies aux chercheurs pour déchiffrer le même texte écrit en écriture hiéroglyphique. La lettre démotique a été déchiffrée plus tôt, mais il est frappant de constater que le fait d'avoir la clé, l'essence de la langue a été démêlé pendant si longtemps.


Le manuscrit de Voynich contient également de courts fragments du texte, qui sont supprimés du total. Mots séparés écrits en lettres latines avec des combinaisons de caractères inconnus.

Cependant, ces inscriptions sont soit cryptées, soit écrites selon les règles d'une langue inconnue. Parce qu'il est impossible de les traduire. En tout cas, les chercheurs le disent.

Théories sur le décodage du manuscrit Voynich


Depuis 600 ans, les chercheurs ont accumulé tout un tas de théories sur l'origine de la langue et de l'alphabet du livre. Il y en a des assez étranges, il y en a des remarquables.

La plupart des savants jusqu'au 20ème siècle croyaient que le manuscrit de Voynich ne cache qu'une des langues européennes d'une manière spéciale .

Mais le texte ne correspond pas aux chiffres qui existaient au XVe siècle. Les chiffrements de substitution, polyalphabétiques, nomenclator et homophoniques ne conviennent pas.

Il est possible que le texte ait été chiffré avec l'un des chiffres ci-dessus, puis compliqué à l'aide de faux caractères et espaces ou d'un autre niveau de chiffrement, mais cette hypothèse est extrêmement difficile à vérifier - car dans ce cas, il est impossible de suivre les caractères faux et ceux qui sont vrais .

La deuxième hypothèse populaire stipule que le code Voynich est un code de livre de code commun . Autrement dit, une combinaison distincte de caractères est un mot distinct dans une langue existante. En effet, la forme du manuscrit suggère que le texte a une signification bien définie. Mais aujourd'hui, il est impossible de confirmer ou de réfuter cette hypothèse - déchiffrer un tel chiffre n'est possible qu'avec l'aide d'un dictionnaire.

Certains chercheurs pensent que le manuscrit est écrit dans une véritable langue exotique avec un alphabet unique . Par exemple, dans l'un des dialectes orientaux ou américains. Certaines caractéristiques stylistiques du texte y font allusion, mais les preuves ne sont pas encore suffisantes.

Il y a encore beaucoup de considérations: langue unique créée artificiellement, texte crypté multilingue, proto-langue, qui a précédé toutes les langues du groupe roman. Certains pensaient même que le manuscrit avait été écrit par un fou et n'avait aucun sens. Les chercheurs ont également tenté de prouver que le manuscrit est un canular, mais l'analyse au radiocarbone montre toujours que le livre a vraiment été écrit au XVe siècle.

Aucune des hypothèses n'a encore reçu de preuves suffisantes de leur innocence. Par conséquent, le code Voynich n'a pas encore été résolu.

Un réseau de neurones tente de déchiffrer le code Voynich


Ainsi, après une introduction volumineuse et large, nous nous tournons vers l'essence de l'article. En 2016, ils ont tenté de pirater Enigma du monde de la littérature en utilisant un réseau de neurones. Oui, c'était en 2016 - les médias n'ont appris ces tentatives qu'en 2018, à cause de cette date, ils sont souvent confus. Voici un lien vers l'étude originale . Le texte est en anglais, vous avez donc besoin d'au moins un peu de compréhension de la terminologie scientifique.

Les scientifiques canadiens ont «formé» le réseau neuronal à reconnaître des éléments individuels de l'alphabet et des jetons de 380 langues mondiales existantes ou existantes. Selon les chercheurs, la précision de l'analyse du réseau neuronal était de 97%.

Le système a montré que la langue manuscrite la plus probable est l'hébreu. Bien sûr, pas l'hébreu simple, mais avec un indice. Les chercheurs ont suggéré que le livre a un chiffre assez simple, dans lequel les voyelles sont omises ou cryptées avec d'autres caractères, et les consonnes sont placées dans l'ordre alphabétique ou aléatoire.

Il convient également de noter que le système a également fourni d'autres sources possibles: Mazatec (la langue maternelle du sud moderne du Mexique), mozarabe (langue arabisée de la péninsule ibérique), italien et ladino (la langue juive de la péninsule ibérique). En outre, le réseau neuronal a trouvé des éléments de la langue arabe et amharique standard (le territoire de l'Éthiopie moderne, qui fait partie du groupe sémitique).

Une telle approche a soudainement donné des résultats et le réseau neuronal a pu traduire une partie du texte du livre. La première phrase a été traduite comme suit:

Elle a fait des recommandations au prêtre, à l'homme de maison, à moi et aux gens.
Elle a donné des conseils au prêtre, au propriétaire de la maison, à moi et aux gens.

Il semblerait, le voici, le triomphe de l'intelligence artificielle! Sur la base de cette interprétation et illustrations, les chercheurs ont même supposé que le manuscrit de Voynich était une sorte de pharmacopée - un livre médical qui décrivait la valeur curative des herbes, les méthodes de fabrication et d'utilisation des médicaments et la structure du corps humain.

Au total, l'algorithme a «reconnu» environ 80% des mots de l'ensemble du manuscrit. L'analyse était basée sur la même hypothèse concernant l'absence de vocalisations et l'ordre arbitraire des lettres dans les mots.

Mais des vérifications répétées de la première phrase de test ont montré un résultat différent:

And the priest made a man for him to his house, and to his men.
, .

Unleavened bread and made her the priest, and one which leaves his home.
, , .

Les phrases ont moins de sens que la version originale, mais en théorie cela peut être attribué à l'imperfection des algorithmes de traduction du système. En général, les fondements lexicaux de toutes les versions de la traduction sont restés inchangés: «prêtre» et «maison».

On pourrait revendiquer le succès, mais il y a quelques «mais» sérieux qui ne rendent pas les résultats de l'étude sensationnels.

Premièrement, les paramètres du réseau neuronal ont permis une certaine liberté dans l'interprétation des mots, car même si vous prenez en compte que l'alphabet n'est qu'un type changé de lettres hébraïques, il existe de nombreuses variantes de mots qui peuvent être constituées en réorganisant les lettres.

Si nous supposons que la langue du manuscrit n'est pas l'hébreu, mais appartient simplement à un groupe sémitique ou y est liée, alors une analyse parfaite n'aura pas de sens - il y a trop d'options pour analyser même les caractères dont la valeur semble avoir déjà été déterminée. Et il y a encore plus d'inconnues.

Dans cette situation, je veux rappeler le théorème des singes sans fin. Si quelqu'un n'a pas entendu, voici:

Supposons que nous ayons un nombre infini de singes avec des machines à écrire, chacun tapant au hasard sur les touches pendant une durée illimitée.

Tôt ou tard, l'un des singes pourra «tromper» n'importe quel texte arbitraire: que ce soit une courte note ou «Guerre et paix».

Cette théorie peut être appliquée si le texte est interprété par un réseau de neurones. Initialement, le réseau neuronal crée lui-même un pool de variantes de la signification de chaque mot, puis à partir de l'ensemble du pool de variantes, il sélectionne les interprétations les plus possibles en fonction de combinaisons avec des variantes voisines.

En conséquence, dans une phrase de 5 à 8 mots putatifs, nous obtenons plusieurs dizaines de milliers d'options, dont le réseau neuronal choisit celle qui a le plus de sens.

Autrement dit, il y a une très forte probabilité que parmi ces options disparates, il y en ait accidentellement une ou plusieurs qui auront vraiment du sens. De plus, s'il existe un chiffrement plus complexe ou une autre structure lexicale de phrases ou de mots, alors la méthode s'avère faussement positive.

En fait, il y a un certain résultat, il peut être «ressenti» et présenté au public, mais cela n'a aucun sens, car il ne fait pas un pas de plus vers la vraie solution du chiffre.

Et combiner objectivement le style des lettres de l'alphabet avec l'hébreu est une solution plutôt inhabituelle. Cependant, la plupart des érudits du manuscrit doutent que la langue d'origine du manuscrit soit l'hébreu. La structure lexicale ne coïncide pas assez fortement, et il n'est toujours pas possible d'analyser le degré de cryptage, le cas échéant.

De plus, certains estiment que les linguistes disposant d'un réseau de neurones n'ont pas effectué d'analyse objective, mais ont cherché à confirmer une théorie distincte. L'hypothèse que le livre est une pharmacopée peut être faite sur la base de dessins d'herbes, de personnes et de corps d'étoiles, même sans analyser le texte.

En conséquence, les résultats de la recherche n'ont pas été acceptés dans la communauté scientifique. Parce qu'ils ne révèlent pas les caractéristiques et les principes spécifiques de la langue, comme requis pour une étude linguistique à part entière des adverbes. Pour que les résultats de la recherche soient reconnus, il y a un manque de preuves. Il est impossible de tracer une chaîne logique claire qui a guidé le réseau neuronal pendant l'analyse, de sorte que les résultats ne peuvent pas être considérés comme scientifiquement solides - il y a une chance non nulle que la chaîne se révèle erronée.

Cependant, il n'y avait pas d'hypothèses plus adéquates sur le manuscrit Voynich.

Les linguistes ont essayé, mais ils ressemblent tous davantage à de la farce. Par exemple, en 2019, un scientifique britannique a déclaré qu'il avait démêlé le code Voynich. Mais la théorie de la «langue protoromanienne» ou latin vulgaire a été vivement critiquée par les savants qui accusaient les Britanniques de choisir artificiellement des mots sans définir les principes de l'écriture et sans arguments convaincants sur les liens lexicaux entre les significations.

Maintenant, c'est déjà 2020 et le battage médiatique autour du «décodage unique et correct du manuscrit Voynich» a cessé. Il continue d'être considéré comme l'un des principaux puzzles linguistiques et cryptologiques de notre époque.

Bien sûr, j'aimerais croire qu'un jour ils le résoudront tout de même. S'il s'agit d'une sorte de langage, c'est tout à fait possible. Mais s'il s'agit toujours d'un chiffre avec une clé perdue, le manuscrit risque à tout jamais de rester un beau livre ancien avec une histoire mystérieuse.

En général, les puzzles linguistiques sont un sujet très cool. Mots croisés et énigmes - ce n'est que la pointe de l'iceberg - il y a tellement de façons d'apprendre simultanément l'anglais et de pomper la logique et la pensée. Les enseignants de EnglishDom les utilisent souvent en classe pour diversifier le processus d'apprentissage et le rendre plus intéressant.

École en ligne EnglishDom.com - vous inciter à apprendre l'anglais grâce à la technologie et aux soins humains




Uniquement pour les lecteurs de Habr la première leçon avec le professeur sur Skype gratuitement ! Et lorsque vous achetez des cours, obtenez jusqu'à 3 leçons en cadeau!

Obtenez gratuitement un mois entier d'abonnement premium à l'application ED Words .
Entrez le code promotionnel Voynich sur cette page ou directement dans l'application ED Words . Le code promotionnel est valable jusqu'au 30/01/2021.

Nos produits:

Source: https://habr.com/ru/post/undefined/


All Articles