语义网神话

在语义建模领域,出现了一种相当奇怪的情况:将W3C的“语义网”项目(RDF / OWL,SPARQL等)中使用的一组标准和规范用作基本模型,尽管该项目本身不仅目前尚未实施,而且显然,由于原始假设的可疑性,它永远不会体现出来。

语义网的作者Tim Berners Lee认为语义网是Internet发展的下一阶段。这个想法很合理:您需要连接所有的网络资源,而不是使用无意义的链接将用户从一个页面发送到另一页面,而是使用有意义的(语义)连接。为此,建议为每个在线甚至离线实体(对象,属性)分配一个唯一的标识符,并将这些实体组合为一个图形。之后,用户可以快速而准确地找到他们所需的信息,最重要的是,计算机将可以访问网络的语义内容。也就是说,目标是创建一个分布式知识图,该图在单个网络空间中连接语义定义的数据,并可能进行机器处理和对新事实进行逻辑推断。

上面描述的语义网络的想法不仅看起来相关,相关,而且使用现代技术也很可行-例如具有抗攻击共识算法的对等网络,加密用户标识和加密数据保护。但是,该项目的创始人最初做出了可疑的建筑和意识形态决策,使语义网处于一个美丽的梦境中。

由于创建语义网的主要目标是在Internet上共享信息,因此该Internet被选为该项目的技术平台,也就是说,站点的混乱堆放的内容不是由作者控制,而是由域所有者控制。面向现代网络必定决定了该项目的基本原则:(1)使用Internet地址作为资源标识符(URI)的基础,(2)任何人都可以对任何资源进行断言,(3)开放世界的假设,即信息。这些原则是主要问题。

首先,很明显,Internet地址不是可以用作标识实体的基础的东西。域可以更改其所有者,可以被放弃,并且在技术上不可用。域中名称的结构可以任意更改。更不用说,构建站点所依据的许多不同的技术和引擎都没有遵循任何用于形成地址的标准。

但是,语义Web项目失败的主要正式原因应该被认为是第二个基本原则,即希望站点的所有者能够构建单个网络语义图。尽管即使在项目构想诞生之初,网站所有者就很容易伪造欺骗搜索机器人(甚至在页面上书写不可见的文本并操纵关键字)。老实说,他们希望执行页面的语义标记,但是只有少数人能够完成任务。但是,即使在理想情况下,如果语义网络已被适当地抛出到所有现有站点上,该项目仍将无法正常工作。毕竟,显而易见的事情将被揭示:我们正在处理同一资源(文本,图像,视频)使用不同的标识符(地址)。此外,一个实体的大多数实例都不会具有相同的属性,因为“任何人都有权对任何资源发表声明。”好吧,很显然,不可能在这些副本中找到作者的原件。

当然,第三条原则引起了很大的问题,宣布了开放世界的推定,也就是说,暗示了将事实自由添加到整个网络中的可能性。让我们更详细地讨论它。

实际上,开放世界的思想是从标准Internet继承的,每个人都可以自由添加任何域,页面,实体并链接到任何其他实体。但是语义图与链接网络的不同之处在于,它必须在有关实体的语句之间建立逻辑上的关系,最好是形式上可验证的关系,因此,为了保持一致,必须将其关闭。语义图的编译器(对主题区域的某个片段进行建模)应该从严格的概念方案出发,在该方案中,术语的歧义,标识符的唯一性以及任何参与者的任意添加语句从根本上都是不可接受的。也就是说,如果我们谈论逻辑世界的开放性,那么这种开放性就意味着可以向图中自由添加新的封闭模型,而不是任意事实。该网络应由独立的主题和级别本体组成,它们之间的交互通过使用公共词典来确保。必须严格区分两个任务:(1)构建主题区域的本体;(2)解决不同本体的交互/关联问题,即匹配实体的标识符,命名类型和逻辑约束以协调数据交换。(1)构建主题领域的本体;以及(2)解决不同本体的交互/关联问题,即匹配实体的标识符,命名类型和逻辑约束以协调数据交换。(1)构建主题领域的本体;以及(2)解决不同本体的交互/关联问题,即匹配实体的标识符,命名类型和逻辑约束以协调数据交换。

这也应该被认为是错误的决定,并且是语义Web项目朝向创建根据形式(单调)逻辑规范构造的唯一真实,一致的图的方向。在一些实际完成的学科领域(地理,工程标准等)中建立固定的知识库时,仍然可以同意这种方法。但是,不需要本体建模工具来描述静态结构,而是要支持实际复杂系统的功能,在这种系统中,不仅在其形成过程中,而且在最终状态下,都无法实现描述的单调性和一致性。值得认识到的是,构建系统时发生错误是改变其状态的事实,而忽略这一事实可能导致灾难性的后果。也就是说,语义图的逻辑不应单调。在这里应该记住的是,语义网这一概念的作者并不是唯一踏上单一本体论之行的人-经过多年尝试建立单一一致的语义空间后,著名的CYC项目放弃了这一思想,转而使用微观理论-各个主题领域的局部封闭本体。

实际上,在设计语义Web工具时的错误是未识别并考虑这两个任务之间的差异。首先是创建域的本地本体:在其中添加通过本地(离线和在线)验证的语句,并根据本地本体中建立的规则对新语句进行逻辑推导。第二个是将本地本体连接到单个网络图中,并尝试从各种独立数据中得出结论。显然,即使所有网络数据源都使用相同的词典,并且每个词典本身在逻辑上都是完美无缺的,但与汇总图查询(如果可能)相比,所收到的针对汇总图查询的答案将具有根本不同的可靠性状态。每个局部本体。

所描述的使用本地本体和公共语义图的区别可以用世界的开放性来正式表达:对网络的请求应基于世界的开放性,使用本地本体的逻辑通常将基于封闭世界的假设。我们可以说世界应该是开放的,但不是为了个人陈述,而是为了整体本体论。

事实证明,W3C标准是继续为神话般的语义网开发的,并且试图在实际项目中使用它们(即创建主题领域本体)的每个人都被迫不断提出拐杖以获取可行的产品。

语义技术的续传神话)。

All Articles