Una mirada a las direcciones prometedoras del desarrollo de sistemas de gestión de datos geológicos, geofísicos y de campo.

A solicitud de Gazpromneft, en 2019, escribió una breve revisión de ensayo de lo que los geólogos y geofísicos tienen que tratar en la gestión de datos en general. Tal vez sea interesante para un círculo más amplio de lectores: publico aquí en consecuencia.

En la serie "The Big Bang Theory", la camarera más dulce Penny le pregunta al físico teórico Leonard (para apoyar la conversación) sobre las novedades en el mundo de la física de partículas. Y él responde que desde el descubrimiento del bosón de Higgs, es decir desde aproximadamente 1964, básicamente nada. La conversación no está pegada :)



Y en el campo de las bases de datos y bancos de datos geológicos-geofísicos y de producción (GGiP), todo es casi igual de aburrido. Como puede ver en la investigación de Deloitte Digital, los trabajadores petroleros, mineros y grandes camioneros están lejos de ser grandes explosiones. Se crean nuevas bases de datos y almacenamientos, pero casi siempre para garantizar la funcionalidad de trabajar con datos para una aplicación en particular. Los sistemas para organizar y almacenar datos creados de manera específica para organizar y almacenar esperan una dura realidad. Se retiran de un proceso comercial que gira en torno al procesamiento de aplicaciones, la interpretación y los sistemas de modelado. En este sentido, los datos continúan acumulándose en bases de datos de aplicaciones, fluyen alrededor de sistemas especializados y se organizan convenientemente en tablas de Excel y carpetas de archivos, en el mejor de los casos corporativos y centralizados (si se proporciona dicho recurso a los usuarios).

La directriz principal de los nuevos sistemas de almacenamiento y organización de datos es, en nuestra opinión, diferente de la estructura relacional. Históricamente, todas las tareas de organización de datos se resolvieron utilizando modelos relacionales debido a la posición dominante de las herramientas relacionales en el mercado. La situación ha cambiado, y la ineficiencia del uso de tecnologías relacionales en muchos sistemas de archivo (escribir una vez, leer muchos) se ha hecho evidente.

Si finalmente descartamos las ilusiones de un "anillo omnipotente", que las unirá para siempre, queda por aceptar que este conjunto de bases de datos de aplicaciones distribuidas geográficamente de diversos tipos, sistemas de archivos y tablas es nuestra base de datos. Una base de datos moderadamente distribuida, extremadamente heterogénea y poco acoplada con la que tenemos que aprender a trabajar porque es poco probable que las características anteriores cambien en la próxima década debido a la naturaleza del negocio. Como dijo Neil McNotan, uno de los pocos investigadores sistemáticos en el campo de la gestión de datos: “Trabajar en proyectos es limitado. Nos vemos obligados a recortar los datos en el proyecto solo porque aún no podemos trabajar con todos los datos a la vez ”(presupuesto gratuito).

Por lo tanto, abandonar los intentos de sistematizar el proceso de acumulación de datos a nivel mundial (¡cargue todo!) Y abandonar el cuidado de su remasterización, asegurando la integridad, el respaldo y la protección contra desastres naturales a especialistas en DIT: solo tenemos una preocupación: ¡acceso! Pero esto es una preocupación importante, porque el acceso no es solo transferencia física y velocidad, sino también delimitación y derechos, confiabilidad y un cierto nivel de calidad, estructuración de la información, tanto preliminar como de acuerdo con la solicitud, etc.

Estamos comprometidos con el acceso a datos basados ​​en tecnologías de búsqueda, pero la búsqueda ha ido mucho más allá de lo que solíamos llamarlos. Toda nuestra interacción con la información fuera del lugar de trabajo en realidad ocurre a través de tecnologías de búsqueda integradas. Detengámonos brevemente en las dificultades de organizar el acceso transparente a los datos y las formas de superarlos:

Interfaces con un número significativo de sistemas.Incluso si la interfaz es de solo lectura, la tarea no es trivial. Los sistemas están cambiando tanto en términos de infraestructura de TI como en términos de modelos de datos (por ejemplo, con nuevas versiones). El control de acceso en muchos sistemas es puramente individual. En consecuencia, un sistema que admite interfaces persistentes, incluso las más simples con una gran cantidad de otros sistemas, necesita soporte continuo para estas interfaces. Costos y ciclo de desarrollo continuo.

¿Interfaces push o pull?Desde el punto de vista de la naturaleza de las interfaces, es difícil confiar en el hecho de que los sistemas de terceros prepararán y transmitirán datos al exterior (incluso si los desarrolladores lo declaran); esto no es parte de sus responsabilidades funcionales. En consecuencia, principalmente las interfaces / agentes de la plataforma de herramientas de acceso serán responsables de recuperar datos de sistemas de terceros.

Multimodelo.Cada uno de los sistemas tiene su propio modelo de datos, diferente de los demás. Tendrá que admitir los datos de diferentes modelos, así como sus generalizaciones semánticas o metamodelos para diferentes requisitos comerciales con el fin de trabajar con todos los datos en su conjunto. GPN está llevando a cabo una investigación activa en el campo del modelado semántico. Aquí también es apropiado hablar sobre el enriquecimiento de datos, la extracción de entidades con nombre y la aplicación activa de los enfoques realmente industriales del aprendizaje automático. También me gustaría mencionar el problema de la presentación estructurada de datos "multimodelo" para el usuario. Solo una lista de documentos, ni las personas, ni siquiera los algoritmos funcionarán. La importancia de la facetización reflexiva, los metamodelos y las consultas de extremo a extremo es difícil de sobreestimar.

Caché e índice inverso.La práctica muestra que en un sistema que se ha vuelto completamente dependiente de otros sistemas para solicitudes (y los sistemas clásicos de acceso al portal a menudo están organizados), hay dos problemas importantes:

a. Rendimiento: los sistemas de terceros procesan solicitudes con un rendimiento impredecible, a veces extremadamente lento.

si. Fiabilidad: con una gran cantidad de sistemas conectados en cualquier momento, uno o más de ellos necesariamente fallarán y no podrán responder a la solicitud.

La única forma de vencer estas dolencias es la indexación profunda de la información y el trabajo efectivo con el índice.

Control de acceso.Se debe distinguir el acceso a los datos. No todos los sistemas de TI organizan el control de acceso de la misma manera. En este sentido, para algunos sistemas, es necesario almacenar o restaurar y actualizar constantemente la comunicación de los usuarios internos con los usuarios y grupos del dominio corporativo.

Comunicación con el NSI. Calidad.Al conectar una gran cantidad de datos de una gran cantidad de sistemas, inevitablemente encontramos problemas de determinación confiable de la relevancia y calidad de los datos. ¡Se requiere cualquier procesamiento previo y posterior de datos, incluidas las herramientas cognitivas que nos ayudarán a determinar de manera confiable la relevancia y la calidad de los datos recibidos en respuesta a una solicitud! Curiosamente, la calidad es una función de uso, no al revés. Datos de alta calidad donde alguien los usa constantemente. La mejor base de datos con datos de la más alta calidad que no se ha reclamado durante 10 años está llena de sorpresas.

En el proceso de resolver todos los problemas anteriores, encontramos que aunque tenemos relativamente pocos datos, el volumen de indexación, procesamiento y análisis es tan significativo que confiamos en el campo de los sistemas altamente cargados y en las implementaciones industriales nos vemos obligados a confiar en soluciones industriales serias.

Quiero completar este pequeño ensayo con un párrafo lleno de palabras clave. Especialización DevOps : su desarrollo en la empresa requiere una atención especial. Estas personas, junto con personas de la especialización DataScience , son responsables del futuro de trabajar con datos en la empresa. JSON sigue siendo un script árabe para los amantes de la sintaxis SQL, pero parece ser necesario dominarlo. Pitón- El principal problema no es tanto la posesión de la sintaxis como la disponibilidad de tiempo y motivación para que los especialistas en especialidades geológicas y geofísicas la utilicen. De los mejores, COSS (software comercial de código abierto) es, por supuesto, Elasticsearch . Y como con cualquier OSS, deje todo tipo de ilusiones con respecto a la solución lista para usar del propio fabricante de OSS.

Termina un chiste de la misma serie:
- ¡Hola! ¿Veo que estas ocupado?
- ¡Oh si! ¡Materia oscura! El equilibrio de la gravedad y la mecánica cuántica. Simetría de Fermi-Bose. ¡Comprendí los mayores desafíos de la física de hoy!
"Y entonces, ¿decidiste todos ellos de una sola vez?"
- No, solo me di cuenta de que son las tareas más grandes.

All Articles