Un regard sur les domaines prometteurs du développement des systèmes de gestion des données géologiques, géophysiques et de terrain

À la demande de Gazpromneft, en 2019, a rédigé un bref essai sur ce que les géologues et les géophysiciens doivent gérer dans la gestion des données en général. Ce sera peut-être intéressant pour un cercle plus large de lecteurs - je publie ici en conséquence.

Dans la série The Big Bang Theory, la plus douce serveuse Penny interroge le physicien théoricien Leonard (pour soutenir la conversation) sur les nouveautés du monde de la physique des particules? Et il répond que depuis la découverte du boson de Higgs, c'est-à-dire depuis environ 1964, pratiquement rien. La conversation n'est pas collée :)



Et dans le domaine des bases de données et des banques de données géologiques-géophysiques et de production (GGiP), tout est à peu près le même ennuyeux. Comme vous pouvez le voir d'après les recherches de Deloitte Digital, les travailleurs du pétrole, les mineurs et les conducteurs de gros camions sont loin d'être de grosses explosions. De nouvelles bases de données et stockages sont créés, mais presque toujours pour assurer la fonctionnalité de travailler avec des données pour une application particulière. Les systèmes d'organisation et de stockage des données créées de manière ciblée pour l'organisation et le stockage attendent une dure réalité. Ils abandonnent un processus métier qui tourne autour des systèmes de traitement, d'interprétation et de modélisation des applications. À cet égard, les données continuent de s'accumuler dans les bases de données d'application, circulent autour de systèmes spécialisés et sont commodément organisées dans des tableaux et des dossiers de fichiers Excel, au mieux d'entreprise et centralisés (si une telle ressource est fournie aux utilisateurs).

La principale orientation des nouveaux systèmes de stockage et d'organisation des données est, à notre avis, différente de la structure relationnelle. Historiquement, toutes les tâches d'organisation des données ont été résolues à l'aide de la modélisation relationnelle en raison de la position dominante des outils relationnels sur le marché. La situation a changé et l'inefficacité de l'utilisation des technologies relationnelles dans de nombreux systèmes d'archivage (écrire une fois et lire plusieurs) est devenue évidente.

Si nous rejetons enfin les illusions d'un «anneau omnipotent», qui les uniront pour toujours, il reste à admettre que cet ensemble de bases de données d'applications réparties géographiquement de divers types, systèmes de fichiers et tables est notre base de données. Une base de données modérément distribuée, extrêmement hétérogène et faiblement couplée avec laquelle nous devons apprendre à travailler car les caractéristiques ci-dessus ne changeront probablement pas au cours de la prochaine décennie en raison de la nature de l'entreprise. Comme l'a dit Neil McNotan, l'un des rares chercheurs systématiques dans le domaine de la gestion des données: «Le travail dans les projets est limité. Nous sommes obligés de rogner les données dans le projet uniquement parce que nous ne pouvons pas encore travailler avec toutes les données à la fois »(devis gratuit).

Donc, abandonner les tentatives de systématiser le processus d'accumulation de données à l'échelle mondiale (tout télécharger!) Et abandonner le soin de leur remastérisation, assurer l'intégrité, la sauvegarde et la protection contre les catastrophes naturelles aux spécialistes DIT - nous n'avons qu'une seule préoccupation: l'accès! Mais c'est une préoccupation importante, car l'accès n'est pas seulement le transfert physique et la vitesse, mais aussi la délimitation et les droits, la fiabilité et un certain niveau de qualité, la structuration des informations, à la fois préliminaires et conformes à la demande, etc.

Nous sommes engagés dans l'accès aux données basées sur les technologies de recherche, mais la recherche a longtemps dépassé ce que nous appelions auparavant. Toute notre interaction avec des informations en dehors du lieu de travail se fait en fait grâce aux technologies de recherche intégrées. Arrêtons-nous brièvement sur les difficultés d'organisation d'un accès transparent aux données et les moyens de les surmonter:

interfaces avec un nombre important de systèmes.Même si l'interface est en lecture seule, la tâche n'est pas anodine. Les systèmes évoluent à la fois en termes d'infrastructure informatique et en termes de modèles de données (par exemple, avec de nouvelles versions). Le contrôle d'accès dans de nombreux systèmes est purement individuel. Par conséquent, un système qui prend en charge les interfaces persistantes, même les plus simples, avec un grand nombre d'autres systèmes, a besoin d'une prise en charge continue de ces interfaces. Coûts et cycle de développement continu.

Interfaces push ou pull?Du point de vue de la nature des interfaces, il est difficile de s'appuyer sur le fait que des systèmes tiers prépareront et transmettront des données à l'extérieur (même si les développeurs le déclarent) - cela ne fait pas partie de leurs responsabilités fonctionnelles. En conséquence, principalement les interfaces / agents de la plateforme d'outils d'accès seront chargés de récupérer les données des systèmes tiers.

Multi-modèle.Chacun des systèmes possède son propre modèle de données, différent des autres. Vous devrez prendre en charge les données de différents modèles, ainsi que leurs généralisations sémantiques ou méta-modèles pour différentes exigences commerciales afin de travailler avec toutes les données dans leur ensemble. GPN mène activement des recherches dans le domaine de la modélisation sémantique. Il convient également ici de parler de l'enrichissement des données, de l'extraction des entités nommées et de l'application active des approches réellement industrielles de l'apprentissage automatique. Je voudrais également évoquer le problème de la présentation structurée de données «multimodèles» à l'utilisateur. Juste une liste de documents, ni personne ni algorithme ne fonctionnera. L'importance d'une facétisation réfléchie, de méta-modèles et de requêtes de bout en bout est difficile à surestimer.

Caching et reverse index.La pratique montre que dans un système qui est devenu complètement dépendant d'autres systèmes pour les demandes (et les systèmes d'accès au portail classiques sont souvent organisés), il y a deux problèmes importants:

a. Performances - les systèmes tiers traitent les demandes avec des performances imprévisibles, parfois extrêmement lentement.

b. Fiabilité - avec un grand nombre de systèmes connectés à tout moment, un ou plusieurs d'entre eux échoueront nécessairement et ne pourront pas répondre à la demande.

La seule façon de vaincre ces maladies est une indexation approfondie des informations et un travail efficace avec l'index.

Contrôle d'accès.L'accès aux données doit être distingué. Tous les systèmes informatiques n'organisent pas le contrôle d'accès de la même manière. À cet égard, pour certains systèmes, il est nécessaire de stocker ou de restaurer et de mettre à jour en permanence la communication des utilisateurs internes avec les utilisateurs et les groupes du domaine de l'entreprise.

Communication avec l'INS. Qualité.Lors de la connexion d'une grande quantité de données provenant d'un grand nombre de systèmes, nous rencontrons inévitablement des problèmes de détermination fiable de la pertinence et de la qualité des données. Tout pré et post-traitement de données, y compris les outils cognitifs qui nous aideront à déterminer de manière fiable la pertinence et la qualité des données reçues en réponse à une demande, est demandé! Fait intéressant, la qualité est fonction de l'utilisation, et non l'inverse. Des données de haute qualité où quelqu'un les utilise constamment. La meilleure base de données avec des données de la plus haute qualité non réclamée depuis 10 ans est pleine de surprises.

Dans le processus de résolution de tous les problèmes ci-dessus, nous constatons que, bien que nous ayons relativement peu de données, le volume d'indexation, de traitement et d'analyse est si important que nous tombons en toute confiance dans le domaine des systèmes très chargés et dans les implémentations industrielles sont obligés de compter sur des solutions industrielles sérieuses.

Je veux terminer ce petit essai avec un paragraphe rempli de mots-clés. Spécialisation DevOps - son développement dans l'entreprise nécessite une attention particulière. Ces personnes, ainsi que les personnes de la spécialisation DataScience , sont responsables de l'avenir de l'utilisation des données dans l'entreprise. JSON est toujours un script arabe pour les amateurs de syntaxe SQL, mais il semble nécessaire de le maîtriser. Python- le problème principal n'est pas tant la possession de la syntaxe que la disponibilité du temps et de la motivation des spécialistes des spécialités géologiques et géophysiques à l'utiliser. Parmi les meilleurs, COSS (logiciel commercial open source) est bien sûr Elasticsearch . Et comme pour tout OSS - laissez toutes sortes d'illusions concernant la solution prête à l'emploi du fabricant OSS lui-même.

Terminez une blague de la même série:
- Bonjour! Je vois que tu es occupé?
- Oh oui! Matière noire! L'équilibre de la gravité et de la mécanique quantique. Symétrie de Fermi-Bose. J'ai compris les plus grands défis de la physique d'aujourd'hui!
"Et donc, vous les avez tous décidés d'un seul coup?"
- Non, j'ai seulement réalisé que ce sont les plus grandes tâches.

All Articles