Der Mythos des Semantic Web

Auf dem Gebiet der semantischen Modellierung hat sich eine ziemlich seltsame Situation entwickelt: Eine Reihe von Standards und Spezifikationen von W3C, die für das „Semantic Web“ -Projekt (RDF / OWL, SPARQL usw.) verwendet werden, werden als grundlegende verwendet, obwohl das Projekt selbst nicht nur derzeit nicht implementiert ist, sondern und wird anscheinend aufgrund der Zweifel der ursprünglichen Hypothesen niemals verkörpert werden.

Das Semantic Web wurde von seinem Autor Tim Berners Lee als die nächste Stufe in der Entwicklung des Internets angesehen. Die Idee war ziemlich rational: Sie müssen alle Netzwerkressourcen nicht mit leeren Links verbinden, die den Benutzer von einer Seite zur anderen senden, sondern mit sinnvollen (semantischen) Verbindungen. Zu diesem Zweck wurde vorgeschlagen, jeder Online- und sogar Offline-Entität (Objekt, Eigenschaft) eine eindeutige Kennung zuzuweisen und diese Entitäten in einem einzigen Diagramm zu kombinieren. Danach konnten Benutzer die benötigten Informationen schnell und genau finden, und vor allem erhielten Computer Zugriff auf den semantischen Inhalt des Netzwerks. Das Ziel war es, ein verteiltes Wissensdiagramm zu erstellen, das semantisch definierte Daten in einem einzigen Netzwerkraum mit der Möglichkeit der maschinellen Verarbeitung und der logischen Folgerung neuer Fakten verbindet.

Die oben beschriebene Idee eines semantischen Netzwerks sieht mit modernen Technologien nicht nur relevant, relevant, sondern auch durchaus realisierbar aus - beispielsweise Peer-to-Peer-Netzwerke mit angriffsresistenten Konsensalgorithmen, kryptografischer Benutzeridentifikation und kryptografischem Datenschutz. Die Gründer des Projekts trafen jedoch zunächst zweifelhafte architektonische und ideologische Entscheidungen, die das Semantic Web in den Status eines schönen Traums versetzten.

Da das Hauptziel bei der Erstellung eines Semantic Web der Austausch von Informationen im Internet war, wurde dieses Internet als technologische Plattform des Projekts ausgewählt, dh als chaotischer Speicherauszug von Websites, deren Inhalt nicht von Autoren, sondern von Domaininhabern kontrolliert wird. Die Orientierung an einem modernen Netzwerk hat notwendigerweise die Grundprinzipien des Projekts bestimmt: (1) Verwendung einer Internetadresse als Grundlage für Ressourcenkennungen (URIs), (2) die Fähigkeit eines jeden, Aussagen über eine Ressource zu treffen, (3) die Annahme einer offenen Welt, dh Unvollständigkeit Information. Diese Prinzipien waren die Hauptprobleme.

Zunächst ist es offensichtlich, dass Internetadressen nicht als Grundlage für die Identifizierung von Entitäten dienen können. Eine Domain kann ihren Besitzer ändern, sie kann aufgegeben werden und ist technisch einfach nicht verfügbar. Die Struktur von Namen innerhalb einer Domain kann beliebig geändert werden. Ganz zu schweigen davon, dass viele verschiedene Technologien und Engines, auf deren Grundlage die Websites erstellt werden, keine Standards für die Bildung von Adressen einhalten.

Der formale Hauptgrund für das Scheitern des Semantic-Web-Projekts sollte jedoch als zweites Grundprinzip anerkannt werden, dh als Hoffnung, dass die Eigentümer der Websites einen einzigen semantischen Netzwerkgraphen erstellen. Obwohl bereits zu Beginn der Projektidee klar war, dass Websitebesitzer zu Fälschungen gehen würden, um Suchroboter zu täuschen (sogar unsichtbaren Text auf Seiten zu schreiben und Schlüsselwörter zu manipulieren). Unter denen, die ehrlich gesagt ein semantisches Markup von Seiten durchführen möchten, würden nur wenige die Aufgabe bewältigen. Aber selbst im Idealfall hätte das Projekt nicht funktioniert, wenn ein semantisches Netzwerk kompetent auf alle vorhandenen Standorte geworfen worden wäre. Schließlich wäre das Offensichtliche aufgedeckt worden: Wir haben es mit Hunderten und Tausenden von Duplikaten derselben Ressource (Text, Bild,Video) mit unterschiedlichen Kennungen (Adressen). Außerdem hätten die meisten Instanzen einer Entität nicht dieselben Eigenschaften, weil "jeder das Recht hat, eine Erklärung zu einer Ressource abzugeben". Nun, es ist klar, dass es nicht möglich ist, das Original des Autors unter diesen Kopien zu finden.

Und natürlich traten große Probleme mit dem dritten Prinzip auf, das die Vermutung der offenen Welt proklamierte, dh die Möglichkeit der freien Hinzufügung von Fakten zum allgemeinen Netzwerk implizierte. Lassen Sie uns näher darauf eingehen.

Tatsächlich wird die Idee einer offenen Welt vom Standard-Internet übernommen, in dem jeder Domänen, Seiten, Entitäten und Links zu anderen Entitäten hinzufügen kann. Der semantische Graph unterscheidet sich jedoch vom Verbindungsnetzwerk darin, dass er logische, idealerweise formal überprüfbare Beziehungen zwischen Aussagen über Entitäten herstellen muss und daher geschlossen sein muss, um konsistent zu sein. Der Compiler des semantischen Graphen, der ein bestimmtes Fragment des Themenbereichs modelliert, sollte von einem strengen konzeptuellen Schema ausgehen, in dem die Mehrdeutigkeit der Terminologie, die Eindeutigkeit von Bezeichnern und darüber hinaus die willkürliche Hinzufügung von Aussagen durch Akteure grundsätzlich inakzeptabel sind. Das heißt, wenn wir über die Offenheit der logischen Welt sprechen,dann sollte diese Offenheit das freie Hinzufügen neuer geschlossener Modelle zum Diagramm anstelle willkürlicher Tatsachen implizieren. Das Netzwerk sollte aus unabhängigen Themen- und Ebenenontologien bestehen, deren Interaktion durch die Verwendung gemeinsamer Wörterbücher sichergestellt wird. Es ist notwendig, zwei Aufgaben streng zu trennen: (1) Aufbau der Ontologie des Themenbereichs und (2) Lösung des Problems der Interaktion / Korrelation verschiedener Ontologien, dh Übereinstimmung von Kennungen von Entitäten, Typnamen und logischen Einschränkungen, um den Datenaustausch zu koordinieren.(1) Konstruieren der Ontologie der Subjektdomäne und (2) Lösen des Problems der Interaktion / Korrelation verschiedener Ontologien, d. H. Übereinstimmende Kennungen von Entitäten, Benennungstypen und logische Einschränkungen zur Koordinierung des Datenaustauschs.(1) Konstruieren der Ontologie der Subjektdomäne und (2) Lösen des Problems der Interaktion / Korrelation verschiedener Ontologien, d. H. Übereinstimmende Kennungen von Entitäten, Benennungstypen und logische Einschränkungen zur Koordinierung des Datenaustauschs.

Es sollte auch als eine fehlerhafte Entscheidung und die Ausrichtung des Semantic-Web-Projekts auf die Erstellung des einzig wahren, konsistenten Graphen anerkannt werden, der gemäß den Kanonen der formalen (monotonen) Logik erstellt wurde. Diesem Ansatz kann man immer noch zustimmen, wenn man in einigen praktisch abgeschlossenen Fachgebieten (Geographie, technische Standards usw.) eine feste Wissensbasis aufbaut. Ein Ontologiemodellierungswerkzeug wird jedoch benötigt, um nicht statische Strukturen zu beschreiben, sondern um die Funktionsweise realer komplexer Systeme zu unterstützen, in denen die Monotonie und Konsistenz der Beschreibung nicht nur während ihrer Bildung, sondern auch im Endzustand unerreichbar sind. Es ist zu erkennen, dass das Auftreten eines Fehlers beim Aufbau eines Systems eine Tatsache ist, die seinen Zustand ändert, und das Ignorieren dieser Tatsache kann katastrophale Folgen haben.Das heißt, die Logik des semantischen Graphen sollte nicht monoton sein. Und hier sollte daran erinnert werden, dass die Autoren der Idee des Semantic Web nicht die einzigen waren, die auf den Rechen einer einzigen Ontologie getreten sind - nach vielen Jahren des Versuchs, einen einzigen konsistenten semantischen Raum aufzubauen, gab das bekannte CYC-Projekt diese Idee auf und wechselte zur Arbeit mit Mikrotheorien - lokal geschlossenen Ontologien einzelner Themenbereiche.

Tatsächlich bestand der Fehler beim Entwerfen der Semantic-Web-Tools darin, dass der Unterschied zwischen den beiden Aufgaben nicht identifiziert und berücksichtigt wurde. Die erste ist die Erstellung einer lokalen Ontologie der Domäne: Hinzufügen von Anweisungen, die von lokalen (Offline- und Online-) Mitteln validiert wurden, bedeutet die logische Ableitung neuer Anweisungen gemäß den in die lokale Ontologie integrierten Regeln. Die zweite ist die Verbindung lokaler Ontologien zu einem einzigen Netzwerkgraphen und der Versuch, aus einer Vielzahl unabhängiger Daten Schlussfolgerungen zu ziehen. Selbst wenn alle Netzwerkdatenquellen dieselben Wörterbücher verwenden und jede von ihnen logisch perfekt ist, haben die Antworten auf Anfragen an das aggregierte Diagramm (wenn überhaupt möglich) einen grundlegend anderen Zuverlässigkeitsstatus als die in jede lokale Ontologie.

Der beschriebene Unterschied in der Arbeit mit lokalen Ontologien und einem gemeinsamen semantischen Graphen kann formal in Form der Offenheit der Welt ausgedrückt werden: Eine Anfrage an das Netzwerk sollte auf der Annahme der Offenheit der Welt beruhen, und die Logik der Arbeit mit lokalen Ontologien wird meistens auf der Hypothese der geschlossenen Welt beruhen. Wir können sagen, dass die Welt offen sein sollte, aber nicht für einzelne Aussagen, sondern für ganzheitliche Ontologien.

Es stellt sich also heraus, dass die W3C-Standards für das mythische Semantic Web weiterentwickelt werden und jeder, der versucht, sie in realen Projekten zu verwenden, dh Ontologien von Themenbereichen zu erstellen, ständig Krücken entwickeln muss, um ein funktionierendes Produkt zu erhalten.

(Fortsetzung der Mythen der semantischen Technologie ).

All Articles