O mito da web semântica

No campo da modelagem semântica, uma situação bastante estranha se desenvolveu: um conjunto de padrões e especificações do W3C usados ​​para o projeto “web semântica” (RDF / OWL, SPARQL etc.) é usado como básico, embora o projeto em si não seja implementado não apenas no momento, mas e, aparentemente, nunca será incorporado devido à dúvida das hipóteses originais.

A web semântica foi pensada por seu autor Tim Berners Lee como o próximo estágio no desenvolvimento da Internet. A idéia era bastante racional: você precisa conectar todos os recursos da rede não com links vazios que enviam o usuário de uma página para outra, mas com conexões significativas (semânticas). Para isso, foi proposto atribuir a cada entidade online e até offline (objeto, propriedade) um identificador exclusivo e combinar essas entidades em um único gráfico. Depois disso, os usuários poderiam encontrar com rapidez e precisão as informações necessárias e, o mais importante, os computadores obteriam acesso ao conteúdo semântico da rede. Ou seja, o objetivo era criar um gráfico de conhecimento distribuído que conecte dados semanticamente definidos em um único espaço de rede, com a possibilidade de processamento da máquina e inferência lógica de novos fatos.

A idéia de uma rede semântica descrita acima parece não apenas relevante, relevante, mas também bastante viável usando tecnologias modernas - como redes ponto a ponto com algoritmos de consenso resistentes a ataques, identificação criptográfica do usuário e proteção de dados criptográficos. Mas os fundadores do projeto tomaram decisões arquitetônicas e ideológicas duvidosas que deixaram a web semântica no status de um sonho lindo.

Como o principal objetivo de criar uma web semântica era o compartilhamento de informações na Internet, essa Internet foi escolhida como plataforma tecnológica do projeto, ou seja, um despejo caótico de sites cujo conteúdo é controlado não pelos autores, mas pelos proprietários do domínio. A orientação para uma rede moderna determinou necessariamente os princípios básicos do projeto: (1) usar um endereço da Internet como base para identificadores de recursos (URIs), (2) a capacidade de qualquer pessoa fazer uma afirmação sobre qualquer recurso, (3) a suposição de um mundo aberto, isto é, incompletude em formação. Esses princípios foram os principais problemas.

Antes de tudo, é óbvio que os endereços da Internet não são algo que possa servir de base para a identificação de entidades. Um domínio pode mudar de proprietário, pode ser abandonado e não está disponível tecnicamente. A estrutura dos nomes em um domínio pode ser alterada arbitrariamente. Sem mencionar que muitas tecnologias e mecanismos diversos, com base nos quais os sites são construídos, não seguem nenhum padrão para a formação de endereços.

Mas a principal razão formal para a falha do projeto da web semântica deve ser reconhecida como o segundo princípio básico, ou seja, a esperança de que os proprietários dos sites construam um único gráfico semântico da rede. Embora mesmo no início da idéia do projeto, era óbvio que os proprietários de sites usariam qualquer falsificação para enganar os robôs de pesquisa (até mesmo escrevendo texto invisível nas páginas e manipulando palavras-chave). Entre aqueles que honestamente gostariam de realizar marcação semântica de páginas, apenas alguns poderiam lidar com a tarefa. Mas mesmo no caso ideal, se uma rede semântica tivesse sido lançada com competência em todos os sites existentes, o projeto ainda não teria funcionado. Afinal, o óbvio teria sido revelado: estamos lidando com centenas e milhares de duplicatas do mesmo recurso (texto, imagem,vídeo) com diferentes identificadores (endereços). Além disso, a maioria das instâncias de uma entidade não teria as mesmas propriedades, porque "qualquer pessoa tem o direito de fazer uma declaração sobre qualquer recurso". Bem, é claro que não é possível encontrar a cópia original entre essas cópias.

E, é claro, surgiram grandes problemas com o terceiro princípio, proclamando a presunção do mundo aberto, ou seja, implicando a possibilidade de livre adição de fatos à rede geral. Vamos insistir nisso com mais detalhes.

De fato, a idéia de um mundo aberto é herdada da Internet padrão, onde todos são livres para adicionar domínios, páginas, entidades e links para outras entidades. Mas o gráfico semântico difere da rede de links, pois deve estabelecer relacionamentos lógicos, idealmente formalmente verificáveis, entre declarações sobre entidades e, portanto, para ser consistente, deve ser fechado. O compilador do gráfico semântico, modelando um certo fragmento da área de assunto, deve proceder de um estrito esquema conceitual no qual a ambiguidade da terminologia, a singularidade dos identificadores e, além disso, a adição arbitrária de declarações por qualquer ator são fundamentalmente inaceitáveis. Ou seja, se falamos sobre a abertura do mundo lógico,então essa abertura deve implicar a adição gratuita de novos modelos fechados ao gráfico, em vez de fatos arbitrários. A rede deve ser composta por ontologias independentes de assunto e nível, cuja interação é garantida pelo uso de dicionários comuns. É necessário separar estritamente duas tarefas: (1) construir a ontologia da área de estudo e (2) resolver o problema de interação / correlação de diferentes ontologias, ou seja, identificar identificadores de entidades, nomes de tipos e restrições lógicas para coordenar a troca de dados.(1) construir a ontologia da área de assunto; e (2) resolver o problema da interação / correlação de diferentes ontologias, isto é, identificadores correspondentes de entidades, tipos de nomeação e restrições lógicas para coordenar a troca de dados.(1) construir a ontologia da área de assunto; e (2) resolver o problema da interação / correlação de diferentes ontologias, ou seja, identificadores correspondentes de entidades, tipos de nomeação e restrições lógicas para coordenar a troca de dados.

Também deve ser reconhecido como uma decisão errônea e a orientação do projeto da web semântica para a criação do único gráfico verdadeiro e consistente construído de acordo com os cânones da lógica formal (monotônica). Ainda é possível concordar com essa abordagem ao criar uma base de conhecimento fixa em algumas áreas de estudo praticamente concluídas (geografia, padrões de engenharia etc.). No entanto, uma ferramenta de modelagem de ontologia é necessária não para descrever estruturas estáticas, mas para apoiar o funcionamento de sistemas complexos reais, nos quais a monotonicidade e consistência da descrição são inatingíveis não apenas durante sua formação, mas também no estado final. Vale a pena reconhecer que a ocorrência de um erro na construção de um sistema é um fato que muda de estado e ignorar esse fato pode levar a conseqüências desastrosas.Ou seja, a lógica do gráfico semântico não deve ser monotônica. E aqui deve ser lembrado que os autores da idéia da web semântica não foram os únicos que entraram em uma única ontologia - depois de muitos anos tentando construir um único espaço semântico consistente, o conhecido projeto CYC abandonou essa idéia e passou a trabalhar com microteorias - ontologias localmente fechadas de áreas individuais.

De fato, o erro ao projetar as ferramentas da web semântica foi que a diferença entre as duas tarefas não foi identificada e levada em consideração. O primeiro é a criação de uma ontologia local da área de assunto: adicionar instruções validadas por meios locais (offline e online), a derivação lógica de novas instruções de acordo com as regras incorporadas na ontologia local. A segunda é a conexão de ontologias locais em um único gráfico de rede e uma tentativa de obter conclusões a partir de uma variedade de dados independentes. Obviamente, mesmo que todas as fontes de dados da rede usem os mesmos dicionários e cada uma delas seja logicamente perfeita, as respostas recebidas nas consultas ao gráfico agregado (se possível) terão um status de confiabilidade fundamentalmente diferente em comparação aos resultados obtidos em cada ontologia local.

A diferença descrita no trabalho com ontologias locais e um gráfico semântico comum pode ser formalmente expressa em termos de abertura do mundo: uma solicitação à rede deve ser baseada na presunção de abertura do mundo, e a lógica de trabalhar com ontologias locais geralmente se baseia na hipótese do mundo fechado. Podemos dizer que o mundo deve ser aberto, mas não para declarações individuais, mas para ontologias holísticas.

Portanto, os padrões do W3C continuam a ser desenvolvidos para a web semântica mítica, e todos que tentam usá-los em projetos reais, isto é, para criar ontologias de áreas, são forçados a criar constantemente muletas para obter um produto em funcionamento.

( Mitos continuados da tecnologia semântica ).

All Articles