DataGovernance zu Hause

Hallo Habr!

Daten sind das wertvollste Kapital des Unternehmens. Dies wird von fast jedem Unternehmen mit digitaler Ausrichtung angegeben. Es ist schwer zu argumentieren: Ohne die Ansätze zur Verwaltung, Speicherung und Verarbeitung von Daten zu diskutieren, findet derzeit keine einzige große IT-Konferenz statt.

Daten kommen von außen zu uns, sie werden auch innerhalb des Unternehmens gebildet, und wenn wir über die Daten des Telekommunikationsunternehmens sprechen, ist es für interne Mitarbeiter ein Speicher von Informationen über den Kunden, seine Interessen, Gewohnheiten und seinen Standort. Mit kompetenter Profilerstellung und Segmentierung schießen Werbeangebote am effizientesten. In der Praxis ist jedoch nicht alles so rosig. Die vom Unternehmen gespeicherten Daten sind möglicherweise hoffnungslos veraltet, redundant, doppelt vorhanden oder niemand weiß von ihrer Existenz, außer einem engen Benutzerkreis. ¯ \ _ (ツ) _ / ¯


Mit einem Wort, Daten müssen effektiv verwaltet werden - nur in diesem Fall werden sie zu einem Vermögenswert, der dem Unternehmen echte Vorteile und Gewinne bringt. Leider müssen zur Lösung von Datenverwaltungsproblemen einige Schwierigkeiten überwunden werden. Sie werden hauptsächlich durch das historische Erbe in Form von „Zoos“ von Systemen und das Fehlen gemeinsamer Prozesse und Ansätze für deren Verwaltung bestimmt. Aber was bedeutet "Daten verwalten"?

Darüber werden wir unter dem Strich sprechen und darüber, wie uns der Open-Source-Stack geholfen hat.

Das Konzept des strategischen Datenmanagements Data Governance (DG) ist auf dem russischen Markt bereits bekannt, und die Ziele, die das Unternehmen durch seine Umsetzung erreicht, sind klar und klar festgelegt. Unser Unternehmen war keine Ausnahme und hat sich die Aufgabe gestellt, das Konzept des Datenmanagements umzusetzen.

Wo haben wir angefangen? Zunächst haben wir uns wichtige Ziele gesetzt:

  1. Stellen Sie die Verfügbarkeit unserer Daten sicher.
  2. Stellen Sie die Transparenz des Datenlebenszyklus sicher.
  3. Geben Sie den Benutzern des Unternehmens konsistente, konsistente Daten.
  4. Geben Sie den Benutzern des Unternehmens verifizierte Daten.

Bis heute verfügt der Softwaremarkt über ein Dutzend Tools der DataGovernance-Klasse.



Nach einer detaillierten Analyse und Untersuchung der Lösungen haben wir uns jedoch eine Reihe kritischer Kommentare vorgenommen:

  • Die meisten Hersteller bieten eine umfassende Reihe von Lösungen an, die für uns redundant sind und vorhandene Funktionen duplizieren. Außerdem ressourcenintensive Integration in die aktuelle IT-Landschaft.
  • Funktionalität und Schnittstelle sind für Technologen gedacht, nicht für Endbenutzer.
  • Niedrige Überlebensrate von Produkten und Mangel an erfolgreichen Implementierungen auf dem russischen Markt.
  • Hohe Softwarekosten und weitere Wartung.

Die oben geäußerten Kriterien und Empfehlungen zur Importsubstitution von Software für russische Unternehmen haben uns überzeugt, auf dem OpenSource-Stack in Richtung unserer eigenen Entwicklung zu gehen. Als Plattform wählten sie Django, ein freies und kostenloses Framework, das in Python geschrieben wurde. Und so haben wir selbst die Schlüsselmodule identifiziert, die zu den oben genannten Zielen beitragen:

  1. Register der Berichte.
  2. -.
  3. .
  4. BI-.
  5. .




Nach den Ergebnissen interner Untersuchungen in großen Unternehmen, die Probleme im Zusammenhang mit Daten lösen, verbringen Mitarbeiter 40-80% der Zeit damit, nach ihnen zu suchen. Daher haben wir uns die Aufgabe gestellt, offene Informationen über bestehende Berichte zu erstellen, die bisher nur Kunden zur Verfügung standen. So verkürzen wir die Zeit für die Erstellung neuer Berichte und sorgen für die Demokratisierung der Daten.



Das Berichtsregister ist zu einem einzigen Berichtsfenster für interne Benutzer aus verschiedenen Regionen, Abteilungen und Abteilungen geworden. Es konsolidiert Informationen zu Informationsdiensten, die in mehreren Unternehmensspeichereinrichtungen des Unternehmens erstellt wurden, und es gibt viele davon in Rostelecom.

Die Registrierung ist jedoch nicht nur eine trockene Liste der entwickelten Berichte. Für jeden Bericht stellen wir die Informationen bereit, die der Benutzer benötigt, um ihn unabhängig kennenzulernen:

  • ;
  • ;
  • ;
  • ;
  • ;
  • - ;
  • ;
  • ;
  • .

Berichten zufolge sind Analysen zum Grad der Benutzerfreundlichkeit verfügbar, und die Berichte stehen basierend auf der Analyse der Protokolle nach der Anzahl der eindeutigen Benutzer ganz oben auf der Liste. Und das ist es nicht. Zusätzlich zu den allgemeinen Merkmalen haben wir auch eine detaillierte Beschreibung der Attributzusammensetzung der Berichte mit Beispielen für Werte und Berechnungsmethoden bereitgestellt. Eine solche Detaillierung gibt dem Benutzer bereits sofort eine Antwort, ob der Bericht für ihn nützlich ist oder nicht.

Die Entwicklung dieses Moduls war ein wichtiger Schritt im Hinblick auf die Demokratisierung von Daten und reduzierte den Zeitaufwand für das Auffinden der erforderlichen Informationen erheblich. Neben der Verkürzung der Suchzeit hat sich auch die Anzahl der Anrufe beim Support-Team zur Beratung verringert. Es ist unmöglich, ein weiteres nützliches Ergebnis nicht zu bemerken, das wir durch die Entwicklung eines einzigen Berichtsregisters erzielt haben - das die Entwicklung doppelter Berichte für verschiedene Struktureinheiten verhindert.

Business Glossar


Sie alle wissen, dass ein Unternehmen selbst innerhalb eines Unternehmens verschiedene Sprachen spricht. Ja, sie verwenden dieselben Begriffe, aber sie bedeuten völlig unterschiedliche Dinge. Das Business-Glossar soll dieses Problem lösen.

Ein Business-Glossar ist für uns nicht nur ein Leitfaden mit einer Beschreibung der Begriffe und einer Berechnungsmethode. Dies ist eine vollwertige Umgebung für die Entwicklung, Koordination und Genehmigung von Terminologie, den Aufbau des Verhältnisses von Begriffen zu anderen Informationsressourcen des Unternehmens. Vor dem Aufrufen des Geschäftsglossars muss der Begriff alle Phasen der Koordination mit Geschäftskunden und dem Datenqualitätszentrum durchlaufen. Erst danach steht es zur Verfügung.

Wie ich oben geschrieben habe, besteht die Einzigartigkeit dieses Tools darin, dass Sie Verbindungen von der Ebene des Geschäftsbegriffs zu den spezifischen Benutzerberichten, in denen es verwendet wird, sowie zur Ebene der physischen Datenbankobjekte herstellen können.



Dies wurde durch die Verwendung von Glossar-Begriffskennungen in einer detaillierten Beschreibung von Registrierungsberichten und einer Beschreibung von physischen Datenbankobjekten ermöglicht.

Jetzt werden im Glossar mehr als 4000 Begriffe definiert und vereinbart. Seine Verwendung vereinfacht und beschleunigt die Verarbeitung eingehender Änderungsanforderungen in den Informationssystemen des Unternehmens. Wenn der erforderliche Indikator bereits in einem Bericht implementiert wurde, sieht der Benutzer sofort eine Reihe vorgefertigter Berichte, in denen dieser Indikator verwendet wurde, und kann über die effektive Wiederverwendung der vorhandenen Funktionalität oder deren minimale Verbesserung entscheiden, ohne neue Anforderungen für die Entwicklung eines neuen Berichts zu initiieren.

Technisches Transformationsbeschreibungsmodul und DataLineage


Sie fragen, was sind diese Module? Es reicht nicht aus, nur die Berichtsregistrierung und das Glossar zu implementieren. Sie müssen dennoch alle Geschäftsbegriffe auf dem physischen Datenbankmodell landen. Auf diese Weise konnten wir den Prozess der Erstellung des Datenlebenszyklus von den Quellsystemen bis zur BI-Visualisierung über alle Ebenen des Data Warehouse hinweg abschließen. Mit anderen Worten, erstellen Sie eine DataLineage.

Wir haben eine Schnittstelle entwickelt, die auf dem vom Unternehmen verwendeten Format für die Beschreibung der Regeln und der Datentransformationslogik basiert. Über die Schnittstelle werden die gleichen Informationen wie zuvor erfasst, aber die Bestimmung der Begriffskennung aus dem Geschäftsglossar wurde zur Voraussetzung. Also bauen wir die Verbindung zwischen der geschäftlichen und der physischen Ebene auf.

Wer braucht das? Was passte nicht zu dem alten Format, mit dem sie mehrere Jahre gearbeitet hatten? Wie viel mehr Arbeitsanforderungen für die Bildung von Anforderungen? Wir mussten uns bei der Implementierung des Tools mit solchen Problemen befassen. Hier sind die Antworten ganz einfach - wir alle brauchen sie, das Datenbüro unseres Unternehmens und unsere Benutzer.

In der Tat mussten die Mitarbeiter umstrukturiert werden. Dies führte zunächst zu einem unbedeutenden Anstieg der Arbeitskosten für die Erstellung der Dokumentation, aber wir haben dieses Problem herausgefunden. Das Üben, Identifizieren und Optimieren von Problembereichen hat ihre Arbeit erledigt. Wir haben die Hauptsache erreicht - wir haben die Qualität der entwickelten Anforderungen verbessert. Pflichtfelder, einheitliche Verzeichnisse, Eingabemasken, integrierte Überprüfungen - all dies hat es möglich gemacht, die Qualität von Transformationsbeschreibungen erheblich zu verbessern. Wir haben die Praxis des Übertragens von Skripten in Form von Entwicklungsanforderungen verlassen, gemeinsames Wissen, das nur dem Entwicklungsteam zur Verfügung stand. Die generierte Metadatendatenbank reduziert den Zeitaufwand für die Durchführung einer Regressionsanalyse um ein Vielfaches und bietet die Möglichkeit, die Auswirkungen von Änderungen auf eine der Ebenen der IT-Landschaft (Storefront-Berichte, Aggregate, Quellen) schnell zu bewerten.

Und wo sind normale Berichtsbenutzer, was sind die Vorteile für sie? Aufgrund der Möglichkeit, DataLineage zu erstellen, erhalten unsere Benutzer, auch diejenigen, die weit von SQL und anderen Programmiersprachen entfernt sind, schnell Informationen über die Quellen und Objekte, auf deren Grundlage dieser oder jener Bericht erstellt wird.

Modul zur Datenqualitätskontrolle


Alles, worüber wir oben in Bezug auf Datentransparenz gesprochen haben, ist nicht wichtig, ohne zu verstehen, dass die Daten, die wir den Benutzern geben, korrekt sind. Eines der wichtigen Module unseres Data Governance-Konzepts ist das Datenqualitätskontrollmodul.

Derzeit handelt es sich um einen Katalog von Überprüfungen ausgewählter Entitäten. Das unmittelbare Ziel der Produktentwicklung besteht darin, die Liste der Inspektionen zu erweitern und in das Register der Berichte zu integrieren.
Was wird es geben und wem? Für den Endbenutzer der Registrierung stehen Informationen zu den geplanten und tatsächlichen Daten der Verfügbarkeit des Berichts, den Ergebnissen abgeschlossener Inspektionen mit Dynamik und Informationen zu den in den Bericht hochgeladenen Quellen zur Verfügung.

Für uns ist das in die Arbeitsprozesse integrierte Datenqualitätsmodul:

  • Schnelle Bildung von Kundenerwartungen.
  • Entscheidungen über die zukünftige Verwendung von Daten treffen.
  • Erhalt einer vorläufigen Reihe von Problempunkten in der Anfangsphase der Arbeiten zur Entwicklung regelmäßiger Qualitätskontrollen.

Dies sind natürlich die ersten Schritte beim Aufbau eines vollwertigen Datenverwaltungsprozesses. Wir sind jedoch sicher, dass wir unseren Kunden nur durch gezielte Durchführung dieser Arbeit und die aktive Einführung von DataGovernance-Tools in den Workflow Informationen, ein hohes Maß an Vertrauen in die Daten, Transparenz beim Empfang und eine schnellere Ausgabe neuer Funktionen bieten können.

DataOffice-Team

All Articles