Código Voynich: Triunfo Imaginário da Inteligência Artificial

A área de interesse de funcionários e professores da escola de inglês online EnglishDom é muito mais ampla do que apenas o inglês. Os mistérios da linguística também são interessantes para nós. Recentemente, houve uma controvérsia em nosso escritório sobre o código Voynich, e decidimos fazer um artigo sobre esse tópico.



O manuscrito de Voynich é um dos mistérios mais ardentes da lingüística e da criptografia, que não foi resolvido até hoje. Por 600 anos, nem mesmo as melhores mentes do mundo podem chegar perto de desvendar esse texto misterioso.

Em 2016, os pesquisadores conectaram uma rede neural à solução. O resultado foi inesperado - o computador analisou o texto e cometeu um erro. Leia mais sobre isso.

O manuscrito Voynich é um código manuscrito ilustrado, escrito em um idioma ou código desconhecido.

De acordo com os resultados da análise de carbono, o livro foi escrito na primeira metade do século XV. 240 páginas de pergaminho cobertas com letras estranhas que se parecem com texto. Mas a dificuldade de decifrar é que o livro usa um alfabeto desconhecido que não corresponde a nenhum idioma existente ou estudado.

Uma análise detalhada do texto nos permite determinar que as letras obedecem a certas regras gramaticais, mas as próprias regras não podem ser determinadas. Praticamente não há palavras de uma ou duas letras no texto, muitas delas em idiomas baseados em latim; os princípios individuais de escrever palavras remotamente se assemelham à escrita árabe ou hebraica. Palavras individuais são geralmente repetidas várias vezes seguidas. Em geral, a estrutura de uma linguagem ou cifra nem sequer pode ser determinada de maneira grosseira - ela é muito diferente de todos os princípios da escrita escrita que nos são familiares.

A única coisa que especialistas em linguística foram capazes de determinar por quase 600 anos é que a entropia informacional do código é aproximadamente igual à entropia do inglês e do latim. Isso significa que o texto definitivamente não é um conjunto de caracteres aleatórios, mas possui um certo significado.

Em teoria, pode até ser um inglês criptografado, mas como descobrir se os pesquisadores ainda não conseguem determinar se o manuscrito em si é uma cifra ou apenas algum idioma estranho?

Mesmo com uma chave, decifrar os princípios de uma língua exige um esforço tremendo da parte dos linguistas. Decifrar a pedra de Rosetta levou 20 anos para os pesquisadores. E isso desde que eles conhecessem uma das três línguas em que o texto foi escrito em pedra.

Imagine, mesmo sabendo a tradução do texto grego antigo, os pesquisadores levaram mais de duas décadas para decifrar o mesmo texto escrito na escrita hieroglífica. A carta demótica foi decifrada anteriormente, mas é impressionante que o fato de ter a chave, a essência da linguagem, tenha sido desvendado por tanto tempo.


O manuscrito Voynich também contém pequenos fragmentos do texto, que são eliminados do total. Separe as palavras escritas em letras latinas com combinações de caracteres desconhecidos.

No entanto, essas inscrições são criptografadas ou gravadas de acordo com as regras de um idioma desconhecido. Porque é impossível traduzi-los. De qualquer forma, os pesquisadores dizem isso.

Teorias sobre decodificação do manuscrito Voynich


Por 600 anos, os pesquisadores acumularam um monte de teorias sobre a origem do idioma e do alfabeto do livro. Existem muito estranhos, existem dignos de nota.

A maioria dos estudiosos até o século XX acreditava que o manuscrito de Voynich oculta apenas uma das línguas européias de uma maneira especial .

Mas o texto não corresponde às cifras que existiam no século XV. As cifras polialfabéticas, nomenclatoras e homofônicas de substituição não são adequadas.

É possível que o texto tenha sido criptografado com uma das cifras acima e complicado usando caracteres e espaços falsos ou outro nível de criptografia, mas essa hipótese é extremamente difícil de verificar - porque, neste caso, é impossível rastrear quais caracteres são falsos e quais são verdadeiros .

A segunda hipótese popular afirma que o código Voynich é uma cifra comum do livro de códigos . Ou seja, uma combinação separada de caracteres é uma palavra separada em um idioma existente. De fato, a forma do manuscrito sugere que o texto tem um significado muito definido. Hoje, porém, é impossível confirmar ou refutar essa hipótese - decifrar essa cifra só é possível com a ajuda de um dicionário.

Alguns pesquisadores acreditam que o manuscrito foi escrito em uma linguagem exótica real, com um alfabeto único . Por exemplo, em um dos dialetos orientais ou americanos. Algumas características estilísticas do texto sugerem isso, mas as evidências ainda não são suficientes.

Ainda há muitas considerações: idioma exclusivo criado artificialmente, texto criptografado multilíngue, proto-idioma, que precedeu todos os idiomas do grupo românico. Havia até pensamentos de que o manuscrito havia sido escrito por um louco e não fazia nenhum sentido. Os pesquisadores também tentaram provar que o manuscrito é uma farsa, mas a análise por radiocarbono ainda mostra que o livro foi realmente escrito no século XV.

Nenhuma das hipóteses ainda recebeu evidência suficiente de sua inocência. Portanto, o código Voynich ainda não foi resolvido.

Rede neural está tentando decifrar o código Voynich


Assim, após uma introdução volumosa e ampla, passamos à essência do artigo. Em 2016, eles tentaram hackear o Enigma do mundo da literatura usando uma rede neural. Sim, foi em 2016 - a mídia aprendeu sobre essas tentativas apenas em 2018, por causa dessa data em que geralmente estão confusas. Aqui está um link para o estudo original . O texto está em inglês, então você precisa de pelo menos um pouco de compreensão da terminologia científica.

Cientistas canadenses "treinaram" a rede neural para reconhecer elementos individuais do alfabeto e tokens de 380 idiomas mundiais existentes ou existentes. Segundo os pesquisadores, a precisão da análise da rede neural estava dentro de 97%.

O sistema mostrou que a língua manuscrita mais provável é o hebraico. Obviamente, não é um hebraico simples, mas com um sub-índice. Os pesquisadores sugeriram que o livro possui uma cifra bastante simples, na qual as vogais são omitidas ou criptografadas com outros caracteres, e as consoantes são colocadas em ordem alfabética ou aleatória.

Também é importante notar que o sistema também forneceu outras fontes possíveis: Mazatec (a língua nativa do sul moderno do México), moçárabe (língua arábica da Península Ibérica), italiano e ladino (a língua judaica da Península Ibérica). Além disso, a rede neural encontrou elementos da língua árabe e amárica padrão (o território da Etiópia moderna, parte do grupo semítico).

Essa abordagem de repente produziu resultados e a rede neural foi capaz de traduzir parte do texto do livro. A primeira frase foi traduzida como:

Ela fez recomendações ao padre, homem da casa e a mim e às pessoas.
Ela deu conselhos ao padre, ao dono da casa, a mim e ao povo.

Parece, aqui está, o triunfo da inteligência artificial! Com base nessa interpretação e ilustrações, os pesquisadores chegaram a supor que o manuscrito de Voynich era uma espécie de farmacopeia - um livro médico que descrevia o valor de cura de ervas, métodos de fabricação e uso de drogas e a estrutura do corpo humano.

No total, o algoritmo “reconheceu” aproximadamente 80% das palavras de todo o manuscrito. A análise foi baseada no mesmo pressuposto sobre a ausência de vocalizações e a ordem arbitrária das letras nas palavras.

Porém, verificações repetidas da primeira frase de teste mostraram um resultado diferente:

And the priest made a man for him to his house, and to his men.
, .

Unleavened bread and made her the priest, and one which leaves his home.
, , .

As frases fazem menos sentido do que a versão original, mas em teoria isso pode ser atribuído à imperfeição dos algoritmos de tradução do sistema. Em geral, os fundamentos lexicais em todas as versões da tradução permaneceram inalterados: "padre" e "casa".

Pode-se reivindicar sucesso, mas existem alguns "buts" sérios que não tornam os resultados do estudo sensacionais.

Em primeiro lugar, as configurações da rede neural permitiam uma certa liberdade na interpretação das palavras, porque, mesmo que você leve em consideração que o alfabeto é apenas um tipo alterado de letras hebraicas, existem várias variantes de palavras que podem ser criadas reorganizando as letras.

Se assumirmos que o idioma do manuscrito não é hebraico, mas simplesmente pertencer a um grupo semítico ou relacionado a ele, uma análise perfeita não fará sentido - há muitas opções para analisar mesmo aqueles caracteres cujo valor parece já ter sido determinado. E há ainda mais incógnitas.

Nesta situação, quero recordar o teorema de macacos sem fim. Se alguém não ouviu, aqui está:

Suponha que tenhamos um número infinito de macacos com máquinas de escrever, cada uma delas tocando aleatoriamente nas teclas por um período ilimitado de tempo.

Mais cedo ou mais tarde, um dos macacos será capaz de "enganar" qualquer texto arbitrário: seja uma nota curta ou "Guerra e paz".

Essa teoria pode ser aplicada se o texto for interpretado por uma rede neural. Inicialmente, a própria rede neural cria um conjunto de variantes do significado de cada palavra e, em seguida, de todo o conjunto de variantes, seleciona as interpretações mais possíveis com base em combinações com variantes vizinhas.

Como resultado, em uma frase de 5 a 8 palavras esperadas, obtemos várias dezenas de milhares de opções, dentre as quais a rede neural escolhe aquela que tem mais significado.

Ou seja, existe uma probabilidade muito alta de que, entre essas opções díspares, acidentalmente haja uma ou mais que realmente façam sentido. Além disso, se houver uma cifra mais complexa ou outra estrutura lexical de frases ou palavras, o método será falso positivo.

De fato, há algum resultado, ele pode ser "sentido" e apresentado ao público, mas não faz sentido, porque não aproxima um passo da solução real da cifra.

E combinar objetivamente o estilo das letras do alfabeto com o hebraico é uma solução bastante incomum. No entanto, a maioria dos estudiosos duvida que o idioma original do manuscrito seja o hebraico. A estrutura lexical não coincide com muita força e ainda não é possível analisar o grau de criptografia, se houver.

Além disso, alguns acreditam que linguistas com uma rede neural não conduziram uma análise objetiva, mas buscaram confirmação de uma teoria separada. A hipótese de que o livro é uma farmacopeia pode ser feita com base em desenhos de ervas, pessoas e corpos de estrelas, mesmo sem analisar o texto.

Como resultado, os resultados da pesquisa não foram aceitos na comunidade científica. Porque eles não revelam os recursos e princípios específicos do idioma, conforme exigido para um estudo lingüístico completo de advérbios. Para que os resultados da pesquisa sejam reconhecidos, há uma falta de evidência brega. É impossível traçar uma cadeia lógica clara que guiou a rede neural durante a análise, para que os resultados não possam ser considerados cientificamente sólidos - há uma chance diferente de zero de que a cadeia se mostre errônea.

No entanto, não havia hipóteses mais adequadas sobre o manuscrito de Voynich.

Os linguistas tentaram, mas todos parecem mais uma farsa. Por exemplo, em 2019, um cientista britânico declarou que havia desvendado o código Voynich. Mas a teoria da "língua protoromaniana" ou do latim vulgar foi fortemente criticada por estudiosos que acusavam os britânicos de escolher artificialmente palavras sem definir os princípios da escrita e sem argumentos convincentes sobre as conexões lexicais entre significados.

Agora já é 2020 e o hype em torno da "única e correta decodificação do manuscrito Voynich" cessou. Ele ainda continua sendo considerado um dos principais enigmas linguísticos e criptográficos de nosso tempo.

Claro, eu gostaria de acreditar que algum dia eles resolverão tudo da mesma maneira. Se esse é algum tipo de linguagem, é totalmente possível. Mas se isso ainda é uma cifra com uma chave perdida, o manuscrito corre o risco de permanecer para sempre apenas um belo livro antigo com uma história misteriosa.

Em geral, quebra-cabeças linguísticos são um tópico muito interessante. Palavras cruzadas e quebra-cabeças - essa é apenas a ponta do iceberg - há muitas maneiras de aprender inglês simultaneamente e bombear lógica e pensamento. Os professores de inglês costumam usá-los em sala de aula para diversificar o processo de aprendizado e torná-lo mais interessante.

Escola online EnglishDom.com - inspire você a aprender inglês através da tecnologia e do atendimento humano




Somente para os leitores de Habr a primeira lição com o professor no Skype de graça ! E quando você compra aulas, receba até 3 aulas de presente!

Obtenha um mês inteiro de assinatura premium do aplicativo ED Words gratuitamente .
Digite o código promocional Voynich nesta página ou diretamente no aplicativo ED Words . O código promocional é válido até 30/01/2021.

Nossos produtos:

Source: https://habr.com/ru/post/undefined/


All Articles