Die Entwicklung von DATA VAULT und der Übergang zu BUSINESS DATA VAULT

In einem früheren Artikel habe ich über die Grundlagen von DATA VAULT gesprochen und die Grundelemente von DATA VAULT und deren Zweck beschrieben. Dies kann nicht als das Thema von DATA VAULT erschöpft betrachtet werden, es ist notwendig, über die nächsten Stufen der Entwicklung von DATA VAULT zu sprechen.

Und in diesem Artikel werde ich mich auf die Entwicklung von DATA VAULT und den Übergang zu BUSINESS DATA VAULT oder einfach BUSINESS VAULT konzentrieren.

Gründe für das Erscheinen von BUSINESS DATA VAULT


Es ist zu beachten, dass DATA VAULT mit bestimmten Stärken nicht ohne Nachteile ist. Einer dieser Nachteile ist die Schwierigkeit, analytische Abfragen zu schreiben. Anfragen haben eine erhebliche Anzahl von JOINs, der Code ist lang und umständlich. Außerdem unterliegen die Daten, die in den DATA VAULT fallen, keiner Konvertierung. Daher hat DATA VAULT in seiner reinen Form aus geschäftlicher Sicht keinen bedingungslosen Wert.

Um diese Mängel zu beseitigen, wurde die DATA VAULT-Methodik um folgende Elemente erweitert:

  • PIT-Tabellen (Zeitpunkt);
  • BRÜCKENTabellen;
  • VORdefinierte Ableitungen.

Schauen wir uns den Zweck dieser Elemente genauer an.

Pit Tische


In der Regel kann ein Geschäftsobjekt (Business Object, HUB) Daten mit unterschiedlichen Aktualisierungsraten enthalten. Wenn es sich beispielsweise um Daten handelt, die eine Person charakterisieren, können wir sagen, dass Informationen zu einer Telefonnummer, Adresse oder E-Mail eine höhere Aktualisierungsrate aufweisen als Sagen Sie, Name, Passdetails, Familienstand oder Geschlecht.

Daher sollte bei der Bestimmung der Satelliten die Häufigkeit ihrer Aktualisierungen berücksichtigt werden. Warum ist es wichtig?

Wenn Sie Attribute mit unterschiedlichen Aktualisierungsraten in einer Tabelle speichern, müssen Sie der Tabelle jedes Mal eine Zeile hinzufügen, wenn Sie das am häufigsten geänderte Attribut aktualisieren. Infolgedessen eine Zunahme des Speicherplatzes, eine Zunahme der Ausführungszeit für Abfragen.

Nachdem wir die Satelliten nach der Aktualisierungshäufigkeit aufgeteilt haben und Daten unabhängig voneinander auf sie hochladen können, sollte es möglich sein, relevante Daten zu erhalten. Besser ohne unnötige JOINs.

Ich werde zum Beispiel erklären, dass es erforderlich ist, aktuelle (bis zum Datum der letzten Aktualisierung) Informationen von Satelliten mit unterschiedlichen Aktualisierungsfrequenzen zu erhalten. Dazu müssen Sie nicht nur einen JOIN erstellen, sondern auch mehrere Unterabfragen (für jeden Satelliten, der Informationen enthält) mit einer Auswahl des maximalen Aktualisierungsdatums MAX (Update Date) erstellen. Mit jedem neuen JOIN wächst dieser Code und wird sehr schnell schwer verständlich.

Die PIT-Tabelle soll solche Abfragen vereinfachen. PIT-Tabellen werden gleichzeitig mit dem Schreiben neuer Daten in DATA VAULT gefüllt. PIT-Tabelle:

Bild

Somit haben wir zu jedem Zeitpunkt Informationen über die Relevanz von Daten auf allen Satelliten. Mit JOINs für die PIT-Tabelle können wir verschachtelte Abfragen vollständig ausschließen, natürlich unter der Bedingung, dass die PIT jeden Tag und ohne Lücken gefüllt wird. Selbst wenn es Lücken in der PIT gibt, können die tatsächlichen Daten nur unter Verwendung einer Unteranforderung an die PIT selbst erhalten werden. Eine Unterabfrage funktioniert schneller als Unterabfragen für jeden Satelliten.

BRÜCKE


BRIDGE-Tabellen werden auch verwendet, um analytische Abfragen zu vereinfachen. Der Unterschied zu PIT besteht jedoch darin, Anforderungen zwischen verschiedenen Hubs, Verbindungen und deren Satelliten zu vereinfachen und zu beschleunigen.

Die Tabelle enthält alle erforderlichen Schlüssel für alle Satelliten, die häufig in Abfragen verwendet werden. Darüber hinaus können gehashte Geschäftsschlüssel bei Bedarf durch Schlüssel in Textform ergänzt werden, wenn Schlüsselnamen für die Analyse benötigt werden.

Tatsache ist, dass ohne BRIDGE beim Abrufen von Daten in Satelliten, die zu verschiedenen Hubs gehören, nicht nur JOINs der Satelliten selbst erstellt werden müssen, sondern auch Verbindungs-Hubs verbunden werden müssen.

Das Vorhandensein oder Fehlen von BRIDGE wird durch die Speicherkonfiguration bestimmt, die die Geschwindigkeit der Abfrageausführung optimieren muss. Ein universelles Beispiel für BRIGE ist schwer zu finden.

VORdefinierte Ableitungen


Eine andere Art von Objekten, die uns BUSINESS DATA VAULT näher bringt, sind Tabellen mit vorberechneten Indikatoren. Solche Tabellen sind für Unternehmen sehr wichtig, da sie Informationen enthalten, die gemäß den vorgegebenen Regeln aggregiert wurden, und den Zugriff relativ einfach machen.

Architektonisch sind vordefinierte Ableitungen nichts anderes als nur ein weiterer Satellit eines bestimmten Hubs. Es enthält wie ein normaler Satellit einen Geschäftsschlüssel und das Datum, an dem der Datensatz im Satelliten erstellt wurde. Damit enden jedoch die Ähnlichkeiten. Die weitere Zusammensetzung der Attribute eines solchen „spezialisierten“ Satelliten wird von Geschäftsbenutzern auf der Grundlage der beliebtesten vorberechneten Indikatoren festgelegt.

Beispielsweise kann ein Hub, der Informationen über einen Mitarbeiter enthält, einen Satelliten mit Indikatoren enthalten, wie z.

  • Mindestlohn;
  • Maximales Gehalt;
  • Durchschnittsgehalt;
  • Kumulierte Summe der aufgelaufenen Gehälter usw.

Es ist logisch, PREEFINED DERIVATIONS in die PIT-Tabelle desselben Hubs aufzunehmen, damit Sie problemlos Slices von Mitarbeiterdaten für ein bestimmtes Datum abrufen können.

ERGEBNISSE


Wie die Praxis zeigt, ist die Verwendung von DATA VAULT durch Geschäftsanwender aus mehreren Gründen etwas schwierig:

  • Der Anforderungscode ist komplex und umständlich.
  • Die Fülle an JOINs wirkt sich auf die Abfrageleistung aus.
  • Das Schreiben von analytischen Abfragen erfordert hervorragende Kenntnisse der Struktur des Repositorys.

Um den Datenzugriff zu vereinfachen, wird DATA VAULT um zusätzliche Objekte erweitert:

  • PIT-Tabellen (Zeitpunkt);
  • BRÜCKENTabellen;
  • VORdefinierte Ableitungen.

Im nächsten Artikel möchte ich meiner Meinung nach das Interessanteste für diejenigen erzählen, die mit BI arbeiten. Ich werde Möglichkeiten zum Erstellen von Tabellen - Fakten und Tabellen - Messungen basierend auf DATA VAULT vorstellen.

Materialien des Artikels basieren auf:

  • Zur Veröffentlichung von Kent Graziano, die neben einer detaillierten Beschreibung Diagramme des Modells enthält;
  • Buch: „Erstellen eines skalierbaren Data Warehouse mit DATA VAULT 2.0“;
  • Artikel zu Data Vault Fundamentals .

All Articles