El mito de la web semántica

En el campo del modelado semántico, se ha desarrollado una situación bastante extraña: se utiliza un conjunto de estándares y especificaciones del W3C para el proyecto de "web semántica" (RDF / OWL, SPARQL, etc.) como básicos, aunque el proyecto en sí no solo no se implementa en este momento, sino que también y, al parecer, nunca se materializará debido a la incertidumbre de las hipótesis originales.

La web semántica fue pensada por su autor Tim Berners Lee como la próxima etapa en el desarrollo de Internet. La idea era bastante racional: necesita conectar todos los recursos de red no con enlaces sin sentido que envían al usuario de una página a otra, sino con conexiones significativas (semánticas). Para esto, se propuso asignar a cada entidad en línea e incluso fuera de línea (objeto, propiedad) un identificador único y combinar estas entidades en un solo gráfico. Después de eso, los usuarios podrían encontrar de manera rápida y precisa la información que necesitan, y lo más importante, las computadoras obtendrían acceso al contenido semántico de la red. Es decir, el objetivo era crear un gráfico de conocimiento distribuido que conecte datos definidos semánticamente en un solo espacio de red, con la posibilidad de procesamiento por máquina e inferencia lógica de nuevos hechos.

La idea de una red semántica descrita anteriormente parece no solo relevante, relevante, sino también bastante factible mediante el uso de tecnologías modernas, como redes punto a punto con algoritmos de consenso resistentes a los ataques, identificación criptográfica de usuarios y protección de datos criptográficos. Pero los fundadores del proyecto inicialmente tomaron dudosas decisiones arquitectónicas e ideológicas que dejaron a la web semántica en el estado de un hermoso sueño.

Dado que el objetivo principal de crear una web semántica era compartir información en Internet, esta Internet fue elegida como la plataforma tecnológica del proyecto, es decir, un vertedero caótico de sitios cuyo contenido no está controlado por autores, sino por propietarios de dominios. La orientación a una red moderna necesariamente ha determinado los principios básicos del proyecto: (1) usar una dirección de Internet como base para los identificadores de recursos (URI), (2) la capacidad de cualquier persona para hacer una afirmación sobre cualquier recurso, (3) la suposición de un mundo abierto, es decir, incompleto información. Estos principios fueron los principales problemas.

En primer lugar, es obvio que las direcciones de Internet no son algo que pueda servir como base para identificar entidades. Un dominio puede cambiar su propietario, puede abandonarse y simplemente no está técnicamente disponible. La estructura de los nombres dentro de un dominio se puede cambiar arbitrariamente. Sin mencionar que muchas tecnologías y motores diversos, sobre la base de los cuales se construyen los sitios, no se adhieren a ningún estándar para la formación de direcciones.

Pero la principal razón formal del fracaso del proyecto web semántico debe reconocerse como el segundo principio básico, es decir, la esperanza de que los propietarios de los sitios construyan un gráfico semántico de red única. Aunque incluso al inicio de la idea del proyecto, era obvio que los propietarios de sitios web recurrirían a cualquier falsificación para engañar a los robots de búsqueda (incluso escribir texto invisible en las páginas y manipular palabras clave). Entre aquellos que honestamente quisieran realizar un marcado semántico de páginas, solo unos pocos podrían hacer frente a la tarea. Pero incluso en el caso ideal, si una red semántica se hubiera lanzado de manera competente en todos los sitios existentes, el proyecto aún no habría funcionado. Después de todo, entonces lo obvio se habría revelado: estamos tratando con cientos y miles de duplicados del mismo recurso (texto, imagen,video) con diferentes identificadores (direcciones). Y además, la mayoría de las instancias de una entidad no tendrían las mismas propiedades, porque "cualquiera tiene derecho a hacer una declaración sobre cualquier recurso". Bueno, está claro que no es posible encontrar el original del autor entre estas copias.

Y, por supuesto, surgieron grandes problemas con el tercer principio, que proclamaba la presunción del mundo abierto, es decir, implicaba la posibilidad de una libre adición de hechos a la red general. Detengámonos en ello con más detalle.

De hecho, la idea de un mundo abierto se hereda de Internet estándar, donde todos son libres de agregar dominios, páginas, entidades y enlaces a otras entidades. Pero el gráfico semántico difiere de la red de enlace en que debe establecer relaciones lógicas, idealmente verificables formalmente, entre declaraciones sobre entidades y, por lo tanto, para ser coherente, debe cerrarse. El compilador del gráfico semántico, que modela un cierto fragmento del área temática, debe proceder de un esquema conceptual estricto en el cual la ambigüedad de la terminología, la unicidad de los identificadores y, además, la adición arbitraria de declaraciones por parte de cualquier actor son fundamentalmente inaceptables. Es decir, si hablamos de la apertura del mundo lógico,entonces esta apertura debería implicar la adición gratuita de nuevos modelos cerrados al gráfico, en lugar de hechos arbitrarios. La red debe estar compuesta de ontologías de asignaturas y niveles independientes, cuya interacción se garantiza mediante el uso de diccionarios comunes. Es necesario separar estrictamente dos tareas: (1) construir la ontología del área temática y (2) resolver el problema de interacción / correlación de diferentes ontologías, es decir, hacer coincidir identificadores de entidades, nombrar tipos y restricciones lógicas para coordinar el intercambio de datos.(1) construir la ontología del dominio del sujeto; y (2) resolver el problema de interacción / correlación de diferentes ontologías, es decir, emparejar identificadores de entidades, tipos de nombres y restricciones lógicas para coordinar el intercambio de datos.(1) construir la ontología del dominio del sujeto; y (2) resolver el problema de interacción / correlación de diferentes ontologías, es decir, emparejar identificadores de entidades, tipos de nombres y restricciones lógicas para coordinar el intercambio de datos.

También debe reconocerse como una decisión errónea y la orientación del proyecto web semántico hacia la creación del único gráfico verdadero y consistente construido de acuerdo con los cánones de la lógica formal (monotónica). Todavía se puede estar de acuerdo con este enfoque cuando se construye una base de conocimiento fija en algunas áreas temáticas prácticamente completadas (geografía, estándares de ingeniería, etc.). Sin embargo, se necesita una herramienta de modelado ontológico no para describir estructuras estáticas, sino para apoyar el funcionamiento de sistemas complejos reales en los que la monotonicidad y la consistencia de la descripción son inalcanzables no solo durante su formación, sino también en el estado final. Vale la pena reconocer que la ocurrencia de un error en la construcción de un sistema es un hecho que cambia su estado, e ignorar este hecho puede tener consecuencias desastrosas.Es decir, la lógica del gráfico semántico no debe ser monótona. Y aquí debe recordarse que los autores de la idea de la web semántica no fueron los únicos que pisaron el rastrillo de una ontología única: después de muchos años de tratar de construir un espacio semántico coherente, el conocido proyecto CYC abandonó esta idea y comenzó a trabajar con microteorías, ontologías localmente cerradas de áreas temáticas individuales.

De hecho, el error al diseñar las herramientas web semánticas fue que la diferencia entre las dos tareas no se identificó ni se tuvo en cuenta. El primero es la creación de una ontología local del dominio: agregar en él declaraciones validadas por medios locales (fuera de línea y en línea), la derivación lógica de nuevas declaraciones de acuerdo con las reglas integradas en la ontología local. El segundo es la conexión de ontologías locales en un único gráfico de red y un intento de obtener conclusiones de una variedad de datos independientes. Obviamente, incluso si todas las fuentes de datos de la red usan los mismos diccionarios y cada una de ellas es lógicamente perfecta, las respuestas recibidas a las consultas al gráfico agregado (si es posible) tendrán un estado de fiabilidad fundamentalmente diferente en comparación con los resultados obtenidos en cada ontología local

La diferencia descrita en el trabajo con ontologías locales y un gráfico semántico común se puede expresar formalmente en términos de la apertura del mundo: una solicitud a la red debe basarse en la presunción de la apertura del mundo, y la lógica de trabajar con ontologías locales se basará con mayor frecuencia en la hipótesis del mundo cerrado. Podemos decir que el mundo debería estar abierto, pero no para declaraciones individuales, sino para ontologías holísticas.

Resulta que los estándares del W3C continúan desarrollándose para la mítica web semántica, y todos los que intentan usarlos en proyectos reales, es decir, para crear ontologías de áreas temáticas, se ven obligados a idear constantemente muletas para obtener un producto que funcione.

( Mitos continuos de la tecnología semántica ).

All Articles