Le développement de DATA VAULT et la transition vers BUSINESS DATA VAULT

Dans un article prĂ©cĂ©dent, j'ai parlĂ© des bases de DATA VAULT, dĂ©crit les Ă©lĂ©ments de base de DATA VAULT et leur objectif. Cela ne peut pas ĂȘtre considĂ©rĂ© comme le sujet de DATA VAULT Ă©puisĂ©, il faut parler des prochaines Ă©tapes de l'Ă©volution de DATA VAULT.

Et dans cet article je vais me concentrer sur le développement de DATA VAULT et la transition vers BUSINESS DATA VAULT ou simplement BUSINESS VAULT.

Raisons de l'apparition de BUSINESS DATA VAULT


Il convient de noter que DATA VAULT ayant certaines forces n'est pas sans inconvĂ©nients. L'un de ces inconvĂ©nients est la difficultĂ© d'Ă©crire des requĂȘtes analytiques. Les demandes ont un nombre important de JOIN, le code est long et lourd. De plus, les donnĂ©es tombant dans le DATA VAULT ne sont soumises Ă  aucune conversion, donc, du point de vue de l'entreprise, le DATA VAULT dans sa forme pure n'a pas de valeur inconditionnelle.

Pour éliminer ces lacunes, la méthodologie DATA VAULT a été étendue par des éléments tels que:

  • Tableaux PIT (ponctuels);
  • Tables BRIDGE;
  • DÉRIVATIONS PRÉDÉFINIES.

Examinons de plus prÚs le but de ces éléments.

Tables de fosse


En rÚgle générale, un objet métier (HUB) peut inclure des données avec des taux de mise à jour différents, par exemple, si nous parlons de données caractérisant une personne, nous pouvons dire que les informations sur un numéro de téléphone, une adresse ou un e-mail ont un taux de mise à jour plus élevé que par exemple, nom, détails du passeport, état matrimonial ou sexe.

Par conséquent, lors de la détermination des satellites, il convient de garder à l'esprit la fréquence de leurs mises à jour. Pourquoi c'est important?

Si vous stockez des attributs avec des taux de rafraĂźchissement diffĂ©rents dans une table, vous devrez ajouter une ligne Ă  la table chaque fois que vous mettez Ă  jour l'attribut le plus frĂ©quemment modifiĂ©. En consĂ©quence, une augmentation de l'espace disque, une augmentation du temps d'exĂ©cution des requĂȘtes.

Maintenant que nous avons divisĂ© les satellites en fonction de la frĂ©quence de mise Ă  jour et que nous pouvons les tĂ©lĂ©charger indĂ©pendamment, il devrait ĂȘtre possible d'obtenir des donnĂ©es pertinentes. Mieux sans utiliser de JOIN inutiles.

Je vais expliquer, par exemple, qu'il est nĂ©cessaire d'obtenir des informations Ă  jour (Ă  la date de la derniĂšre mise Ă  jour) auprĂšs de satellites ayant des frĂ©quences de mise Ă  jour diffĂ©rentes. Pour ce faire, vous devez non seulement faire un JOIN, mais Ă©galement crĂ©er plusieurs sous-requĂȘtes (pour chaque satellite contenant des informations) avec un choix de la date de mise Ă  jour maximale MAX (Update Date). Avec chaque nouveau JOIN, un tel code se dĂ©veloppe et devient trĂšs rapidement difficile Ă  comprendre.

La table PIT est conçue pour simplifier ces requĂȘtes; les tables PIT sont remplies en mĂȘme temps que les nouvelles donnĂ©es sont Ă©crites dans DATA VAULT. Table PIT:

image

Ainsi, nous avons des informations sur la pertinence des donnĂ©es sur tous les satellites Ă  chaque instant. En utilisant JOINs pour la table PIT, nous pouvons complĂštement exclure les requĂȘtes imbriquĂ©es, naturellement Ă  condition que le PIT soit rempli tous les jours et sans lacunes. MĂȘme s'il y a des lacunes dans le PIT, les donnĂ©es rĂ©elles ne peuvent ĂȘtre obtenues qu'en utilisant une sous-demande au PIT lui-mĂȘme. Une sous-requĂȘte fonctionnera plus rapidement que les sous-requĂȘtes pour chaque satellite.

PONT


Les tables BRIDGE sont Ă©galement utilisĂ©es pour simplifier les requĂȘtes analytiques. Cependant, la diffĂ©rence avec PIT est un moyen de simplifier et d'accĂ©lĂ©rer les demandes entre diffĂ©rents hubs, liaisons et leurs satellites.

Le tableau contient toutes les clĂ©s nĂ©cessaires pour tous les satellites qui sont souvent utilisĂ©s dans les requĂȘtes. En outre, si nĂ©cessaire, les clĂ©s professionnelles hachĂ©es peuvent ĂȘtre complĂ©tĂ©es par des clĂ©s sous forme de texte si des noms de clĂ©s sont nĂ©cessaires pour l'analyse.

Le fait est que sans utiliser BRIDGE, dans le processus d'obtention de donnĂ©es localisĂ©es dans des satellites appartenant Ă  diffĂ©rents hubs, il sera nĂ©cessaire de produire des JOIN non seulement des satellites eux-mĂȘmes, mais aussi des liaisons de hubs de connexion.

La prĂ©sence ou l'absence de BRIDGE est dĂ©terminĂ©e par la configuration de stockage, la nĂ©cessitĂ© d'optimiser la vitesse d'exĂ©cution des requĂȘtes. Il est difficile de trouver un exemple universel de BRIGE.

DÉRIVATIONS PRÉDÉFINIES


Un autre type d'objets qui nous rapproche de BUSINESS DATA VAULT sont les tableaux contenant des indicateurs pré-calculés. Ces tableaux sont vraiment importants pour les entreprises; ils contiennent des informations agrégées selon les rÚgles données et facilitent relativement l'accÚs.

D'un point de vue architectural, les DÉRIVATIONS PRÉDÉFINIES ne sont rien d'autre qu'un simple satellite d'un certain hub. Comme un satellite ordinaire, il contient une clĂ© commerciale et la date Ă  laquelle l'enregistrement a Ă©tĂ© formĂ© dans le satellite. Sur ce point, cependant, les similitudes s'arrĂȘtent. La composition supplĂ©mentaire des attributs d'un tel satellite «spĂ©cialisé» est dĂ©terminĂ©e par les utilisateurs professionnels sur la base des indicateurs prĂ©calculĂ©s les plus populaires.

Par exemple, un hub contenant des informations sur un employé peut inclure un satellite avec des indicateurs tels que:

  • Salaire minimum;
  • Salaire maximum;
  • Salaire moyen;
  • Total cumulĂ© des salaires accumulĂ©s, etc.

Il est logique d'inclure des DERIVATIONS PREDEFINIES dans la table PIT du mĂȘme hub, vous pouvez alors facilement obtenir des tranches de donnĂ©es sur les employĂ©s pour une date spĂ©cifique.

RÉSULTATS


Comme le montre la pratique, l'utilisation de DATA VAULT par les utilisateurs professionnels est quelque peu difficile pour plusieurs raisons:

  • Le code de demande est complexe et lourd;
  • L'abondance de JOIN affecte les performances des requĂȘtes;
  • La rĂ©daction de requĂȘtes analytiques nĂ©cessite une connaissance exceptionnelle de la structure du rĂ©fĂ©rentiel.

Pour simplifier l'accÚs aux données, DATA VAULT s'étend avec des objets supplémentaires:

  • Tableaux PIT (ponctuels);
  • Tables BRIDGE;
  • DÉRIVATIONS PRÉDÉFINIES.

Dans le prochain article, je prévois de dire, à mon avis, la chose la plus intéressante pour ceux qui travaillent avec BI. Je présenterai des façons de créer des tableaux - faits et tableaux - mesures basées sur DATA VAULT.

Les matériaux de l'article sont basés:

  • Sur la publication de Kent Graziano, qui en plus d'une description dĂ©taillĂ©e contient des diagrammes du modĂšle;
  • Livre: «Construire un entrepĂŽt de donnĂ©es Ă©volutif avec DATA VAULT 2.0»;
  • Article sur les principes fondamentaux de Data Vault .

All Articles