Voynich代码:人工智能的虚构胜利

EnglishDom在线英语学校的员工和老师感兴趣的领域远不只是英语。语言学的奥秘对我们也很有趣。最近,我们办公室爆发了关于Voynich代码的争议,我们决定撰写有关此主题的文章。



Voynich手稿是语言学和密码学最令人着迷的谜团之一,至今仍未解决。 600年来,即使是世界上最聪明的人也无法接近解开这个神秘的文字。

2016年,研究人员将神经网络连接到该解决方案。结果出乎意料-计算机分析了文本并犯了一个错误。进一步了解。

Voynich手稿是用未知语言或代码编写的图解手写代码。

根据碳分析的结果,这本书写于15世纪上半叶。 240页的羊皮纸上覆盖着看起来像文本的奇怪字母。但是,解密它的困难在于,该书使用的未知字母与任何现有或研究过的现有语言都不对应。

对文本的详细分析使我们能够确定字母是否遵循某些语法规则,但是规则本身无法确定。文本中实际上没有一个或两个字母的单词,而许多基于拉丁语的单词;书写单词的个别原理与阿拉伯文字或希伯来语极为相似。单个单词通常连续重复几次。一般来说,语言或密码的结构甚至无法大致确定-与我们所熟悉的书写书面讲话的所有原理相差太大。

语言专家能够确定近600年的唯一信息是,代码的信息熵大约等于英语和拉丁语的熵。这意味着文本绝对不是一组随机字符,而是具有一定含义。

从理论上讲,它甚至可以是加密的英语,但是如何才能确定研究人员是否仍无法确定手稿本身是密码还是只是某种奇怪的语言?

即使使用了密钥,解密语言的原理也需要语言学家付出巨大的努力。研究人员用20年的时间破解了Rosetta石头。这提供了他们知道用石头写的三种语言中的一种。

试想一下,即使知道古希腊文字的翻译,研究人员也花了超过二十年的时间才能解密以象形文字书写的同一文字。较早时破译了这封信,但令人惊讶的是,很长一段时间以来,人们就一直没有掌握具有关键性,语言本质的事实。


伏尼契手稿还包含一些简短的文本片段,这些片段被剔除掉。用拉丁字母写成的单独单词以及未知字符的组合。

但是,这些铭文是根据未知语言的规则加密或书写的。因为不可能翻译它们。无论如何,研究人员都这么说。

关于Voynich手稿的解码理论


600年来,研究人员已经积累了有关该书语言和字母来源的大量理论。有很多奇怪的,有一些值得注意的。

直到20世纪,大多数学者都认为Voynich的手稿仅以一种特殊的方式隐藏了其中一种欧洲语言

但是文本与15世纪存在的密码不符。替代,多字母,命名法和同音密码不适合。

可能使用上述密码之一对文本进行了加密,然后使用错误的字符和空格或另一种加密级别对其进行了复杂化,但是这种假设极其难以验证-因为在这种情况下,无法跟踪哪些字符为假以及哪些字符为真。 。

第二种流行的假设指出Voynich码是一种通用的密码本密码。即,字符的单独组合是现有语言中的单独词。确实,手稿的形式表明该文本具有非常明确的含义。但是今天不可能确认或驳斥这一假设-只有借助字典,才能破解这种密码。

一些研究者认为手稿是用一种真正的外来语言书写的,并具有独特的字母。例如,在东方或美国方言之一。文本的某些样式特征暗示了这一点,但是对此的证据仍然不够。

仍然有许多注意事项:人为创造独特的语言,多语言加密的文本,原始语言,这些语言都先于罗马式语言组出现。甚至有人认为该手稿是疯子写的,根本没有道理。研究人员还试图证明该手稿是骗局,但放射性碳分析仍表明该书确实写于15世纪。

尚未有足够的证据证明其无罪。因此,Voynich代码尚未解决。

神经网络正在尝试破解Voynich代码


因此,在进行了广泛而广泛的介绍之后,我们将转向本文的实质。在2016年,他们尝试使用神经网络从文学界入侵Enigma。是的,那是在2016年-媒体仅在2018年才知道这些尝试,因为这个日期他们经常感到困惑。这是原始研究的链接。文字为英文,因此您至少需要对科学术语有所了解。

加拿大科学家已经“训练”了神经网络,以识别来自380种现有或先前存在的世界语言的字母和标记的各个元素。据研究人员称,神经网络分析的准确性在97%以内。

系统显示最可能的手稿语言是希伯来语。当然,不是简单的希伯来语,而是带有下标。研究人员认为,这本书的密码相当简单,其中元音被省略或用其他字符加密,并且辅音以字母或随机顺序放置。

还值得注意的是,该系统还提供了其他可能的来源:Mazatek(墨西哥现代南部的本地语言),Mozarabic(伊比利亚半岛的阿拉伯语),意大利语和Ladino(伊比利亚半岛的犹太人的语言)。此外,神经网络还发现了标准阿拉伯语和阿姆哈拉语(现代埃塞俄比亚的领土,属于闪米特人群体)的元素。

这种方法突然产生了结果,并且神经网络能够翻译本书的部分文本。第一个短语翻译为:

她向牧师,家里的人以及我和人们提出了建议。
她向牧师,房屋的所有者,我和人民提供了建议。

看来,这就是人工智能的胜利!基于这种解释和说明,研究人员甚至假设Voynich手稿是一种药典-一本医学书籍,描述了草药的治疗价值,药物的制造和使用方法以及人体的结构。

总体而言,该算法“识别”了整个手稿中大约80%的单词。分析基于关于没有发声和单词中字母的任意顺序的相同假设。

但是对第一个测试短语的反复检查显示了不同的结果:

And the priest made a man for him to his house, and to his men.
, .

Unleavened bread and made her the priest, and one which leaves his home.
, , .

这些短语没有原始版本有意义,但是从理论上讲,这可以归因于系统翻译算法的不完善。总体而言,所有翻译版本的词汇基础均保持不变:“牧师”和“房屋”。

一个人可以宣称成功,但是有几个严重的“缺点”并没有使研究结果引人注目。

首先,神经网络的设置允许在单词解释方面有一定的自由度,因为即使考虑到字母表只是希伯来字母的一种变化类型,也可以通过重新排列字母来构成单词的很多变体。

如果我们假设手稿的语言不是希伯来语,而只是属于闪族人或与之相关,那么完美的分析就没有意义-甚至有很多价值似乎已经确定的字符也无法进行分析。还有更多的未知数。

在这种情况下,我想回顾关于无尽猴子的定理。如果没有人听到,则为:

假设我们有无数只带有打字机的猴子,每只猴子都会无限制地随机敲击按键。

迟早,其中一只猴子将能够“欺骗”任何随意的文本:简短记录或“战争与和平”。

如果文本由神经网络解释,则可以应用此理论。最初,神经网络本身会创建每个单词含义的变体池,然后从整个变体池中根据与相邻变体的组合选择最可能的解释。

结果,在一个由5-8个推定单词组成的句子中,我们得到了数以万计的选项,其中神经网络选择了含义最深的选项。

也就是说,在这些不同的选择中,很可能偶然有一个或多个真正有意义的选择。而且,如果存在句子或单词的更复杂的密码或其他词汇结构,则该方法证明是假阳性的。

实际上,存在一些结果,可以“感觉”并呈现给公众,但是没有任何意义,因为它并没有使加密算法更接近真正的解决方案。

客观地将字母的样式与希伯来语结合起来是一个非常不寻常的解决方案。但是,大多数手稿学者都怀疑手稿的原始语言是希伯来语。词法结构的重合性不是很强,并且如果有加密的程度,仍然是不可能的。

此外,有些人认为具有神经网络的语言学家并未进行客观分析,而是寻求另一种理论的证实。即使没有分析文本,也可以根据草药,人和星体的图画来得出这本书是药典的假设。

结果,该研究结果未被科学界接受。因为它们没有显示语言的特定特征和原理,所以这是对副词进行全面语言研究所必需的。为了使研究结果得到认可,非常缺乏证据。在分析过程中不可能找到引导神经网络的清晰逻辑链,因此结果在科学上不能被认为是合理的-链被证明是错误的机会不为零。

但是,关于伏尼契手稿没有更多适当的假设。

语言学家尝试过,但他们看上去都更像闹剧。例如,在2019年,一位英国科学家表示他已经解开了Voynich密码。但是“ Protoromanian语言”或粗俗拉丁语的理论遭到学者的严厉批评,他们指责英国人为选择单词而没有定义写作原则,也没有说服含义之间的词汇联系。

现在已经到了2020年,围绕“仅对Voynich手稿进行正确解码”的宣传已经停止。他仍然继续被认为是我们这个时代的主要语言和密码难题之一。

当然,我想相信有一天他们会同样解决。如果这是某种语言,则完全有可能。但是,如果这仍然是一个密码丢失的密码,那么手稿就有可能永远仅保留一本历史悠久,历史悠久的美丽书籍。

通常,语言难题是一个很酷的话题。填字游戏和谜题-这只是冰山一角-有很多方法可以同时学习英语并激发逻辑和思维能力。EnglishDom老师经常在课堂上使用它们,以使学习过程更加多样化并使之更加有趣。

EnglishDom.com在线学校-激发您通过技术和人文关怀学习英语




仅适用于Habr的读者,免费与Skype老师一起上第一课当您购买课程时,最多可获得3课作为礼物!

免费获得ED Words应用程序一整月的高级订阅在此页面上或直接在ED Words应用程序中
输入Voynich 促销代码促销代码的有效期至2021年1月30日。我们的产品:



Source: https://habr.com/ru/post/undefined/


All Articles