Código Voynich: triunfo imaginario de la inteligencia artificial

El área de interés para los empleados y maestros de la escuela de inglés en línea EnglishDom es mucho más amplia que solo el inglés. Los misterios de la lingüística también son interesantes para nosotros. Recientemente, estalló una controversia en nuestra oficina sobre el código Voynich, y decidimos hacer un artículo sobre este tema.



El manuscrito Voynich es uno de los misterios más ardientes de la lingüística y la criptografía, que no se ha resuelto hasta el día de hoy. Durante 600 años, incluso las mejores mentes del mundo no pueden acercarse a desentrañar este misterioso texto.

En 2016, los investigadores conectaron una red neuronal a la solución. El resultado fue inesperado: la computadora analizó el texto y cometió un error. Lea más sobre esto.

El manuscrito Voynich es un código escrito a mano ilustrado que está escrito en un idioma o código desconocido.

Según los resultados del análisis de carbono, el libro fue escrito en la primera mitad del siglo XV. 240 páginas de pergamino cubiertas con letras extrañas que parecen texto. Pero la dificultad de descifrarlo es que el libro usa un alfabeto desconocido que no se corresponde con ningún idioma existente o estudiado.

Un análisis detallado del texto nos permite determinar que las letras obedecen ciertas reglas gramaticales, pero las reglas mismas no pueden determinarse. Prácticamente no hay palabras de una o dos letras en el texto, que son muchas en idiomas latinos; los principios individuales de escribir palabras se parecen remotamente a la escritura árabe o al hebreo. Las palabras individuales generalmente se repiten varias veces seguidas. En general, la estructura de un lenguaje o cifrado ni siquiera puede determinarse de manera aproximada: es demasiado diferente de todos los principios de escritura de lenguaje escrito que conocemos.

Lo único que los expertos en lingüística han podido determinar durante casi 600 años es que la entropía informativa del código es aproximadamente igual a la entropía del inglés y el latín. Esto significa que el texto definitivamente no es un conjunto de caracteres aleatorios, sino que tiene un cierto significado.

En teoría, incluso puede ser encriptado en inglés, pero ¿cómo se puede saber si los investigadores aún no pueden determinar si el manuscrito en sí es un cifrado o simplemente un idioma extraño?

Incluso con una clave, descifrar los principios de un idioma requiere un tremendo esfuerzo por parte de los lingüistas. Descifrar la piedra de Rosetta llevó a los investigadores 20 años. Y esto siempre que supieran uno de los tres idiomas en los que el texto estaba escrito en piedra.

Imagínense, incluso sabiendo la traducción del texto griego antiguo, a los investigadores les llevó más de dos décadas descifrar el mismo texto escrito en escritura jeroglífica. La letra demótica se descifró antes, pero es sorprendente que el hecho de tener la clave, la esencia del lenguaje, se haya descifrado durante tanto tiempo.


El manuscrito Voynich también contiene fragmentos cortos del texto, que se eliminan del total. Palabras separadas escritas en letras latinas con combinaciones de caracteres desconocidos.

Sin embargo, estas inscripciones están encriptadas o escritas de acuerdo con las reglas de un idioma desconocido. Porque es imposible traducirlos. En cualquier caso, los investigadores lo dicen.

Teorías sobre la decodificación del manuscrito Voynich


Durante 600 años, los investigadores han acumulado un montón de teorías sobre el origen del idioma y el alfabeto del libro. Hay algunos muy extraños, hay otros notables.

La mayoría de los estudiosos hasta el siglo XX creían que el manuscrito de Voynich ocultaba solo uno de los idiomas europeos de una manera especial .

Pero el texto no corresponde a las cifras que existieron en el siglo XV. La sustitución, las claves polialfabéticas, nomencladoras y homofónicas no son adecuadas.

Es posible que el texto se haya cifrado con uno de los cifrados anteriores, y luego se haya complicado con caracteres y espacios falsos u otro nivel de cifrado, pero esta hipótesis es extremadamente difícil de verificar, porque en este caso es imposible rastrear qué caracteres son falsos y cuáles son verdaderos. .

La segunda hipótesis popular afirma que el código Voynich es un cifrado de libro de códigos común . Es decir, una combinación separada de caracteres es una palabra separada en un idioma existente. De hecho, la forma del manuscrito sugiere que el texto tiene un significado muy definido. Pero hoy es imposible confirmar o refutar esta hipótesis: descifrar tal cifra solo es posible con la ayuda de un diccionario.

Algunos investigadores creen que el manuscrito está escrito en un lenguaje exótico real con un alfabeto único . Por ejemplo, en uno de los dialectos orientales o estadounidenses. Algunas características estilísticas del texto sugieren esto, pero la evidencia de esto todavía no es suficiente.

Todavía hay muchas consideraciones: lenguaje único creado artificialmente, texto cifrado multilingüe, protolenguaje que precedió a todos los idiomas del grupo románico. Incluso se pensó que el manuscrito había sido escrito por un loco y no tenía ningún sentido. Los investigadores también trataron de demostrar que el manuscrito es un engaño, pero el análisis por radiocarbono aún muestra que el libro fue realmente escrito en el siglo XV.

Ninguna de las hipótesis ha recibido evidencia suficiente de su inocencia. Por lo tanto, el código Voynich aún no se ha resuelto.

La red neuronal está tratando de descifrar el código Voynich


Entonces, después de una introducción voluminosa y amplia, pasamos a la esencia del artículo. En 2016, intentaron hackear Enigma del mundo de la literatura utilizando una red neuronal. Sí, fue en 2016: los medios de comunicación se enteraron de estos intentos solo en 2018, debido a esta fecha a menudo se confunden. Aquí hay un enlace al estudio original . El texto está en inglés, por lo que necesita al menos un poco de comprensión de la terminología científica.

Los científicos canadienses han "entrenado" a la red neuronal para reconocer elementos individuales del alfabeto y las fichas de 380 idiomas mundiales existentes o previamente existentes. Según los investigadores, la precisión del análisis de la red neuronal estaba dentro del 97%.

El sistema mostró que el lenguaje manuscrito más probable es el hebreo. Por supuesto, no en hebreo simple, sino con un subíndice. Los investigadores han sugerido que el libro tiene un cifrado bastante simple, en el que las vocales se omiten o se cifran con otros caracteres, y las consonantes se colocan en orden alfabético o aleatorio.

También vale la pena señalar que el sistema también proporcionó otras posibles fuentes: mazateco (el idioma nativo del sur moderno de México), mozárabe (idioma árabe de la península ibérica), italiano y ladino (el idioma judío de la península ibérica). Además, la red neuronal encontró elementos del idioma árabe y amárico estándar (el territorio de Etiopía moderna, parte del grupo semítico).

Tal enfoque de repente arrojó resultados y la red neuronal pudo traducir parte del texto del libro. La primera frase fue traducida como:

Ella hizo recomendaciones al sacerdote, al hombre de la casa, a mí y a la gente.
Ella dio consejos al sacerdote, al dueño de la casa, a mí y a la gente.

¡Parecería, aquí está, el triunfo de la inteligencia artificial! Sobre la base de esta interpretación e ilustraciones, los investigadores incluso asumieron que el manuscrito Voynich era una especie de farmacopea: un libro médico que describía el valor curativo de las hierbas, los métodos de fabricación y uso de medicamentos y la estructura del cuerpo humano.

En total, el algoritmo "reconoció" aproximadamente el 80% de las palabras de todo el manuscrito. El análisis se basó en la misma suposición sobre la ausencia de vocalizaciones y el orden arbitrario de las letras en las palabras.

Pero las comprobaciones repetidas de la primera frase de prueba mostraron un resultado diferente:

And the priest made a man for him to his house, and to his men.
, .

Unleavened bread and made her the priest, and one which leaves his home.
, , .

Las frases tienen menos sentido que la versión original, pero en teoría esto puede atribuirse a la imperfección de los algoritmos de traducción del sistema. En general, los fundamentos léxicos en todas las versiones de la traducción permanecieron sin cambios: "sacerdote" y "casa".

Se podría afirmar el éxito, pero hay un par de "peros" serios que no hacen que los resultados del estudio sean sensacionales.

En primer lugar, la configuración de la red neuronal permitió una cierta libertad en la interpretación de las palabras, porque incluso si se tiene en cuenta que el alfabeto es solo un tipo cambiado de letras hebreas, hay bastantes variantes de palabras que pueden formarse reorganizando las letras.

Si suponemos que el idioma del manuscrito no es hebreo, sino que simplemente pertenece a un grupo semítico o está relacionado con él, entonces un análisis perfecto no tendrá sentido: hay demasiadas opciones para analizar incluso aquellos caracteres cuyo valor parece haber sido determinado. Y hay aún más incógnitas.

En esta situación, quiero recordar el teorema de los monos sin fin. Si alguien no ha escuchado, aquí está:

Supongamos que tenemos un número infinito de monos con máquinas de escribir, cada uno de los cuales toca las teclas al azar durante un tiempo ilimitado.

Tarde o temprano, uno de los monos podrá "engañar" a cualquier texto arbitrario: ya sea una nota breve o "Guerra y paz".

Esta teoría se puede aplicar si el texto es interpretado por una red neuronal. Inicialmente, la red neuronal misma crea un conjunto de variantes del significado de cada palabra, y luego del conjunto completo de variantes selecciona las interpretaciones más posibles basadas en combinaciones con variantes vecinas.

Como resultado, en una oración de 5-8 palabras putativas obtenemos varias decenas de miles de opciones, de las cuales la red neuronal elige la que tiene más significado.

Es decir, hay una probabilidad muy alta de que entre estas opciones dispares haya accidentalmente una o más que realmente tengan sentido. Además, si hay un cifrado más complejo u otra estructura léxica de oraciones o palabras, entonces el método resulta ser falso positivo.

De hecho, hay algún resultado, puede ser "sentido" y presentado al público, pero no tiene sentido, porque no da un paso más hacia la solución real de la cifra.

Y combinar objetivamente el estilo de las letras del alfabeto con el hebreo es una solución bastante inusual. Sin embargo, la mayoría de los estudiosos del manuscrito dudan de que el idioma original del manuscrito sea el hebreo. La estructura léxica no coincide con mucha fuerza, y aún no es posible analizar el grado de cifrado, si lo hay.

Además, algunos creen que los lingüistas con una red neuronal no realizaron un análisis objetivo, sino que buscaron la confirmación de una teoría separada. La hipótesis de que el libro es una farmacopea se puede hacer a partir de dibujos de hierbas, personas y cuerpos estelares, incluso sin analizar el texto.

Como resultado, los resultados de la investigación no fueron aceptados en la comunidad científica. Porque no revelan las características y principios específicos del idioma, como se requiere para un estudio lingüístico completo de los adverbios. Para que los resultados de la investigación sean reconocidos, hay una falta cursi de evidencia. Es imposible rastrear una cadena lógica clara que guió la red neuronal durante el análisis, por lo que los resultados no pueden considerarse científicamente sólidos; existe una probabilidad distinta de cero de que la cadena resulte ser errónea.

Sin embargo, no había hipótesis más adecuadas sobre el manuscrito Voynich.

Los lingüistas lo intentaron, pero todos se parecen más a una farsa. Por ejemplo, en 2019, un científico británico declaró que había descifrado el código Voynich. Pero la teoría de la "lengua protoromania" o el latín vulgar fue duramente criticada por académicos que acusaron a los británicos de elegir artificialmente palabras sin definir los principios de la escritura y sin argumentos convincentes sobre las conexiones léxicas entre los significados.

Ahora ya es 2020 y la exageración en torno a la "decodificación única y correcta del manuscrito Voynich" ha cesado. Sigue siendo considerado uno de los principales acertijos lingüísticos y criptológicos de nuestro tiempo.

Por supuesto, me gustaría creer que algún día lo resolverán de todos modos. Si se trata de algún tipo de lenguaje, entonces es completamente posible. Pero si esto sigue siendo un cifrado con una clave perdida, entonces el manuscrito corre el riesgo de seguir siendo un hermoso libro antiguo con una historia misteriosa.

En general, los acertijos lingüísticos son un tema muy interesante. Crucigramas y acertijos, esto es solo la punta del iceberg, hay muchas maneras de aprender inglés simultáneamente y de bombear lógica y pensamiento. Los maestros de EnglishDom a menudo los usan en clase para diversificar el proceso de aprendizaje y hacerlo más interesante.

Escuela en línea EnglishDom.com: lo inspira a aprender inglés a través de la tecnología y el cuidado humano




¡Solo para lectores de Habr la primera lección con el profesor en Skype gratis ! Y cuando compre clases, ¡obtenga hasta 3 lecciones como regalo!

Obtenga un mes completo de suscripción premium a la aplicación ED Words de forma gratuita .
Ingrese el código promocional de Voynich en esta página o directamente en la aplicación ED Words . El código promocional es válido hasta el 30/01/2021.

Nuestros productos:

Source: https://habr.com/ru/post/undefined/


All Articles