Ein Blick auf die vielversprechenden Entwicklungsrichtungen geologischer, geophysikalischer und Felddatenmanagementsysteme

Auf Ersuchen von Gazpromneft verfasste er 2019 einen kurzen Aufsatz darüber, was Geologen und Geophysiker im Datenmanagement im Allgemeinen zu tun haben. Vielleicht wird es für einen größeren Leserkreis interessant - ich veröffentliche hier entsprechend.

In der Serie "The Big Bang Theory" fragt die süßeste Kellnerin Penny den theoretischen Physiker Leonard (um das Gespräch zu unterstützen), was es Neues in der Welt der Teilchenphysik gibt. Und er antwortet, dass seit der Entdeckung des Higgs-Bosons, d.h. seit etwa 1964 im Grunde nichts. Das Gespräch ist nicht geklebt :)



Und im Bereich der Datenbanken und Banken von geologisch-geophysikalischen Daten und Produktionsdaten (GGiP) ist alles ungefähr gleich langweilig. Wie Sie den Untersuchungen von Deloitte Digital entnehmen können, sind Ölarbeiter, Bergleute und große Lkw-Fahrer weit entfernt von großen Explosionen. Es werden neue Datenbanken und Speicher erstellt, jedoch fast immer, um die Funktionalität der Arbeit mit Daten für eine bestimmte Anwendung sicherzustellen. Die Systeme zum Organisieren und Speichern von Daten, die gezielt zum Organisieren und Speichern erstellt wurden, warten auf die harte Realität. Sie fallen aus einem Geschäftsprozess aus, der sich um Anwendungsverarbeitungs-, Interpretations- und Modellierungssysteme dreht. In dieser Hinsicht sammeln sich Daten weiterhin in Anwendungsdatenbanken an, fließen um spezialisierte Systeme herum und sind bequem in Excel-Tabellen und Dateiordnern angeordnet, bestenfalls in Unternehmen und zentralisiert (wenn eine solche Ressource für Benutzer bereitgestellt wird).

Die Hauptrichtlinie der neuen Datenspeicherungs- und Organisationssysteme unterscheidet sich unserer Meinung nach von der relationalen Struktur. In der Vergangenheit wurden alle Aufgaben der Datenorganisation aufgrund der marktbeherrschenden Stellung relationaler Tools auf dem Markt mithilfe relationaler Modellierung gelöst. Die Situation hat sich geändert, und die Ineffizienz der Verwendung relationaler Technologien in vielen Archivsystemen (Schreiben, einmal lesen, viele lesen) ist offensichtlich geworden.

Wenn wir endlich die Illusionen eines „allmächtigen Rings“ verwerfen, der sie für immer vereinen wird, bleibt zu akzeptieren, dass dieser Satz geografisch verteilter Anwendungsdatenbanken verschiedener Arten, Dateisysteme und Tabellen unsere Datenbank ist. Eine mäßig verteilte, extrem heterogene, lose gekoppelte Datenbank, mit der wir arbeiten müssen, da sich die oben genannten Merkmale aufgrund der Art des Geschäfts im nächsten Jahrzehnt wahrscheinlich nicht ändern werden. Neil McNotan, einer der wenigen systematischen Forscher auf dem Gebiet des Datenmanagements, sagte: „Die Arbeit in Projekten ist begrenzt. Wir sind gezwungen, die Daten nur deshalb in das Projekt zu kürzen, weil wir noch nicht mit allen Daten gleichzeitig arbeiten können “(kostenloses Angebot).

Wenn Sie also Versuche aufgeben, den Prozess der Datenakkumulation global zu systematisieren (alles hochladen!) Und die Pflege des Remasters aufgeben, Integrität, Sicherung und Schutz vor Naturkatastrophen für DIT-Spezialisten sicherstellen - wir haben nur ein Problem: Zugriff! Dies ist jedoch ein wichtiges Anliegen, da der Zugang nicht nur physische Übertragung und Geschwindigkeit ist, sondern auch Abgrenzung und Rechte, Zuverlässigkeit und ein gewisses Maß an Qualität, Strukturierung von Informationen, sowohl vorläufig als auch in Übereinstimmung mit der Anforderung usw.

Wir beschäftigen uns mit dem Zugriff auf Daten, die auf Suchtechnologien basieren, aber die Suche geht längst über das hinaus, was wir sie früher genannt haben. Alle unsere Interaktionen mit Informationen außerhalb des Arbeitsplatzes erfolgen tatsächlich über integrierte Suchtechnologien. Lassen Sie uns kurz auf die Schwierigkeiten bei der Organisation eines transparenten Zugriffs auf Daten und auf Möglichkeiten zu deren Überwindung eingehen:

Schnittstellen mit einer erheblichen Anzahl von Systemen.Selbst wenn die Schnittstelle schreibgeschützt ist, ist die Aufgabe nicht trivial. Systeme ändern sich sowohl hinsichtlich der IT-Infrastruktur als auch hinsichtlich der Datenmodelle (z. B. mit neuen Versionen). Die Zugangskontrolle ist in vielen Systemen rein individuell. Dementsprechend benötigt ein System, das dauerhafte, selbst die einfachsten Schnittstellen mit einer großen Anzahl anderer Systeme unterstützt, eine kontinuierliche Unterstützung für diese Schnittstellen. Kosten und kontinuierlicher Entwicklungszyklus.

Schnittstellen drücken oder ziehen?Unter dem Gesichtspunkt der Art der Schnittstellen ist es schwierig, sich darauf zu verlassen, dass Systeme von Drittanbietern Daten vorbereiten und nach außen übertragen (selbst wenn die Entwickler dies deklarieren) - dies gehört nicht zu ihren funktionalen Verantwortlichkeiten. Dementsprechend sind hauptsächlich die Schnittstellen / Agenten der Access Tool-Plattform für das Abrufen von Daten von Systemen von Drittanbietern verantwortlich.

Multi-Modell.Jedes der Systeme verfügt über ein eigenes Datenmodell, das sich von den anderen unterscheidet. Sie müssen die Daten verschiedener Modelle sowie deren semantische Verallgemeinerungen oder Metamodelle für verschiedene Geschäftsanforderungen unterstützen, um mit allen Daten als Ganzes arbeiten zu können. GPN forscht aktiv auf dem Gebiet der semantischen Modellierung. Hier ist es auch angebracht, über Datenanreicherung, Extraktion benannter Entitäten und die aktive Anwendung der tatsächlich industriellen Ansätze des maschinellen Lernens zu sprechen. Ich möchte auch das Problem der strukturierten Darstellung von Daten mit mehreren Modellen für den Benutzer erwähnen. Nur eine Liste von Dokumenten, die weder Personen noch Algorithmen funktionieren. Die Bedeutung von durchdachter Facettierung, Metamodellen und End-to-End-Abfragen ist schwer zu überschätzen.

Caching und Reverse Index.Die Praxis zeigt, dass in einem System, das für Anforderungen vollständig von anderen Systemen abhängig geworden ist (und klassische Portalzugriffssysteme häufig organisiert sind), zwei wesentliche Probleme auftreten:

a. Leistung - Systeme von Drittanbietern verarbeiten Anforderungen mit unvorhersehbarer Leistung, manchmal extrem langsam.

b. Zuverlässigkeit - Bei einer großen Anzahl verbundener Systeme zu einem beliebigen Zeitpunkt fallen eines oder mehrere von ihnen notwendigerweise aus und können die Anfrage nicht beantworten.

Die einzige Möglichkeit, diese Beschwerden zu beseitigen, ist die gründliche Indizierung von Informationen und die effektive Arbeit mit dem Index.

Zugangskontrolle.Der Zugriff auf Daten muss unterschieden werden. Nicht alle IT-Systeme organisieren die Zugriffskontrolle auf dieselbe Weise. In diesem Zusammenhang ist es für einige Systeme erforderlich, die Kommunikation interner Benutzer mit Benutzern und Gruppen der Unternehmensdomäne zu speichern oder wiederherzustellen und ständig zu aktualisieren.

Kommunikation mit dem NSI. Qualität.Beim Verbinden einer großen Datenmenge aus einer großen Anzahl von Systemen treten unweigerlich Probleme bei der zuverlässigen Bestimmung der Relevanz und Qualität von Daten auf. Jegliche Vor- und Nachbearbeitung von Daten, einschließlich kognitiver Tools, mit denen wir die Relevanz und Qualität der als Antwort auf eine Anfrage erhaltenen Daten zuverlässig bestimmen können, ist gefragt! Interessanterweise ist Qualität eine Funktion der Nutzung, nicht umgekehrt. Hochwertige Daten, die ständig von jemandem verwendet werden. Die beste Datenbank mit den qualitativ hochwertigsten Daten, die seit 10 Jahren nicht mehr beansprucht wird, steckt voller Überraschungen.

Bei der Lösung aller oben genannten Probleme stellen wir fest, dass das Volumen der Indizierung, Verarbeitung und Analyse trotz relativ geringer Datenmengen so bedeutend ist, dass wir zuversichtlich in den Bereich hoch belasteter Systeme fallen und bei industriellen Implementierungen gezwungen sind, uns auf ernsthafte industrielle Lösungen zu verlassen.

Ich möchte diesen kleinen Aufsatz mit einem Absatz vervollständigen, der mit Schlüsselwörtern gefüllt ist. DevOps- Spezialisierung - Die Entwicklung im Unternehmen erfordert besondere Aufmerksamkeit. Diese Personen sind zusammen mit Mitarbeitern der DataScience- Spezialisierung für die Zukunft der Arbeit mit Daten im Unternehmen verantwortlich. JSON ist immer noch ein arabisches Skript für Liebhaber der SQL-Syntax, aber es scheint notwendig zu sein, es zu beherrschen. Python- Das Hauptproblem liegt weniger im Besitz der Syntax als vielmehr in der Verfügbarkeit von Zeit und der Motivation für Spezialisten in geologischen und geophysikalischen Fachgebieten, diese zu verwenden. Von den besten, COSS (Open - Source - kommerzielle Software) ist natürlich Elasticsearch . Und wie bei jedem OSS - lassen Sie alle möglichen Illusionen bezüglich der Out-of-the-Box-Lösung vom OSS-Hersteller selbst.

Beende einen Witz aus derselben Serie:
- Hallo! Ich sehe, du bist beschäftigt?
- Oh ja! Dunkle Materie! Das Gleichgewicht zwischen Schwerkraft und Quantenmechanik. Fermi-Bose-Symmetrie. Ich habe die größten Herausforderungen der heutigen Physik verstanden!
"Und so haben Sie alle auf einen Schlag entschieden?"
- Nein, ich habe nur erkannt, dass dies die größten Aufgaben sind.

All Articles