Le mythe du web sémantique

Dans le domaine de la modélisation sémantique, une situation assez étrange s'est développée: un ensemble de normes et spécifications du W3C utilisées pour le projet «web sémantique» (RDF / OWL, SPARQL, etc.) est utilisé comme base, bien que le projet lui-même ne soit pas seulement mis en œuvre pour le moment, mais et, apparemment, ne sera jamais incarné en raison de la doutes des hypothèses originales.

Le web sémantique a été pensé par son auteur Tim Berners Lee comme la prochaine étape du développement d'Internet. L'idée était assez rationnelle: vous devez connecter toutes les ressources du réseau non pas avec des liens vides qui envoient l'utilisateur d'une page à une autre, mais avec des connexions significatives (sémantiques). Pour cela, il a été proposé d'attribuer à chaque entité en ligne et même hors ligne (objet, propriété) un identifiant unique et de combiner ces entités en un seul graphe. Après cela, les utilisateurs pourraient trouver rapidement et avec précision les informations dont ils ont besoin et, plus important encore, les ordinateurs auraient accès au contenu sémantique du réseau. Autrement dit, l'objectif était de créer un graphe de connaissances distribué qui connecte des données définies sémantiquement dans un seul espace réseau, avec la possibilité de traitement machine et d'inférence logique de nouveaux faits.

L'idée d'un réseau sémantique décrite ci-dessus semble non seulement pertinente, pertinente, mais également tout à fait réalisable à l'aide de technologies modernes - telles que les réseaux poste à poste avec des algorithmes de consensus résistants aux attaques, l'identification des utilisateurs cryptographiques et la protection des données cryptographiques. Mais les fondateurs du projet ont d'abord pris des décisions architecturales et idéologiques douteuses qui ont laissé le web sémantique dans le statut d'un beau rêve.

Étant donné que l'objectif principal de la création d'un Web sémantique était le partage d'informations sur Internet, cet Internet a été choisi comme plate-forme technologique du projet, c'est-à-dire un dépotoir chaotique de sites dont le contenu n'est pas contrôlé par les auteurs, mais par les propriétaires de domaine. L'orientation vers un réseau moderne a nécessairement déterminé les principes de base du projet: (1) utiliser une adresse Internet comme base pour les identificateurs de ressources (URI), (2) la capacité de quiconque de faire une affirmation sur n'importe quelle ressource, (3) l'hypothèse d'un monde ouvert, c'est-à-dire l'incomplétude information. Ces principes étaient les principaux problèmes.

Tout d'abord, il est évident que les adresses Internet ne peuvent pas servir de base à l'identification des entités. Un domaine peut changer de propriétaire, il peut être abandonné et il n'est tout simplement pas techniquement disponible. La structure des noms au sein d'un domaine peut être modifiée arbitrairement. Sans oublier que de nombreuses technologies et moteurs divers, sur la base desquels les sites sont construits, n'adhèrent à aucune norme de formation d'adresses.

Mais la principale raison formelle de l'échec du projet Web sémantique doit être reconnue comme le deuxième principe de base, c'est-à-dire l'espoir que les propriétaires des sites construiront un graphe sémantique de réseau unique. Bien que même au début de l'idée du projet, il était évident que les propriétaires de sites Web iraient à toute contrefaçon pour tromper les robots de recherche (jusqu'à écrire du texte invisible sur les pages et manipuler des mots clés). Parmi ceux qui souhaitent honnêtement effectuer un balisage sémantique des pages, seuls quelques-uns se chargeraient de la tâche. Mais même dans le cas idéal, si un réseau sémantique avait été lancé avec compétence sur tous les sites existants, le projet n'aurait toujours pas fonctionné. Après tout, alors l'évidence aurait été révélée: nous avons affaire à des centaines et des milliers de doublons de la même ressource (texte, image,vidéo) avec différents identifiants (adresses). Et d'ailleurs, la plupart des instances d'une entité n'auraient pas les mêmes propriétés, car "n'importe qui a le droit de faire une déclaration sur n'importe quelle ressource". Eh bien, il est clair qu'il n'est pas possible de trouver la copie originale parmi ces copies.

Et bien sûr, de grands problèmes se sont posés avec le troisième principe, proclamant la présomption du monde ouvert, c'est-à-dire impliquant la possibilité d'ajouter gratuitement des faits au réseau général. Arrêtons-nous plus en détail.

En fait, l'idée d'un monde ouvert est héritée de l'Internet standard, où tout le monde est libre d'ajouter des domaines, des pages, des entités et des liens vers d'autres entités. Mais le graphe sémantique diffère du réseau de liens en ce qu'il doit établir des relations logiques, idéalement formellement vérifiables, entre les déclarations sur les entités, et donc, pour être cohérent, il doit être fermé. Le compilateur du graphe sémantique, modélisant un certain fragment de la matière, devrait partir d'un schéma conceptuel strict dans lequel l'ambiguïté de la terminologie, l'unicité des identifiants et, de plus, l'addition arbitraire de déclarations de tous les acteurs sont inadmissibles. Autrement dit, si nous parlons de l'ouverture du monde logique,alors cette ouverture devrait impliquer l'ajout gratuit de nouveaux modèles fermés au graphique, plutôt que des faits arbitraires. Le réseau doit être composé d'ontologies de sujet et de niveau indépendantes, dont l'interaction est assurée par l'utilisation de dictionnaires communs. Il est nécessaire de séparer strictement deux tâches: (1) construire l'ontologie du domaine et (2) résoudre le problème d'interaction / corrélation des différentes ontologies, c'est-à-dire faire correspondre les identifiants des entités, les noms de type et les contraintes logiques pour coordonner l'échange de données.(1) la construction de l'ontologie du domaine; et (2) la résolution du problème de l'interaction / corrélation des différentes ontologies, c'est-à-dire la correspondance des identifiants des entités, des types de dénomination et des contraintes logiques pour coordonner l'échange de données.(1) la construction de l'ontologie du domaine; et (2) la résolution du problème de l'interaction / corrélation des différentes ontologies, c'est-à-dire la correspondance des identifiants des entités, des types de dénomination et des contraintes logiques pour coordonner l'échange de données.

Il devrait également être reconnu comme une décision erronée et l'orientation du projet de web sémantique vers la création du seul graphe vrai et cohérent construit selon les canons de la logique formelle (monotone). On peut encore être d'accord avec cette approche lors de la construction d'une base de connaissances fixe dans certains domaines pratiquement achevés (géographie, normes d'ingénierie, etc.). Cependant, un outil de modélisation d'ontologie est nécessaire non pas pour décrire des structures statiques, mais pour soutenir le fonctionnement de systèmes complexes réels dans lesquels la monotonie et la cohérence de la description sont inaccessibles non seulement lors de leur formation, mais aussi à l'état final. Il convient de reconnaître que la survenue d'une erreur dans la construction d'un système est un fait qui change son état, et ignorer ce fait peut entraîner des conséquences désastreuses.Autrement dit, la logique du graphe sémantique ne doit pas être monotone. Et ici, il faut se rappeler que les auteurs de l'idée du web sémantique n'étaient pas les seuls à marcher sur le râteau d'une ontologie unique - après de nombreuses années à essayer de construire un seul espace sémantique cohérent, le projet CYC bien connu a abandonné cette idée et est passé à travailler avec des microthéories - ontologies fermées localement de sujets individuels.

En fait, l'erreur dans la conception des outils web sémantiques était que la différence entre les deux tâches n'était pas identifiée et prise en compte. La première est la création d'une ontologie locale du domaine: l'ajout d'instructions validées par des moyens locaux (hors ligne et en ligne), la dérivation logique de nouvelles instructions selon les règles intégrées à l'ontologie locale. La seconde est la connexion d'ontologies locales en un seul graphe de réseau et une tentative d'obtenir des conclusions à partir d'une variété de données indépendantes. De toute évidence, même si toutes les sources de données réseau utilisent les mêmes dictionnaires et que chacune d'entre elles est logiquement parfaite, les réponses reçues aux requêtes sur le graphique agrégé (si possible) auront un statut de fiabilité fondamentalement différent par rapport aux résultats obtenus dans chaque ontologie locale.

La différence décrite dans le travail avec les ontologies locales et un graphe sémantique commun peut être formellement exprimée en termes d'ouverture du monde: une demande au réseau doit être basée sur la présomption d'ouverture du monde, et la logique de travail avec les ontologies locales sera le plus souvent basée sur l'hypothèse du monde fermé. Nous pouvons dire que le monde doit être ouvert, mais pas pour les déclarations individuelles, mais pour les ontologies holistiques.

Il s'avère donc que les normes du W3C continuent d'être développées pour le web sémantique mythique, et tous ceux qui essaient de les utiliser dans de vrais projets, c'est-à-dire de créer des ontologies de domaines, sont obligés de constamment trouver des béquilles pour obtenir un produit fonctionnel.

( Mythes continus de la technologie sémantique ).

All Articles