Gouvernance des données à domicile

Bonjour, Habr!

Les données sont l'actif le plus précieux de l'entreprise. Cela est indiqué par presque toutes les entreprises ayant un parti pris numérique. Il est difficile de discuter: sans discuter des approches de gestion, de stockage et de traitement des données, aucune conférence informatique majeure n'a lieu actuellement.

Les données nous viennent de l'extérieur, elles sont également formées à l'intérieur de l'entreprise, et si nous parlons des données de l'entreprise de télécommunications, alors pour les employés internes, c'est un magasin d'informations sur le client, ses intérêts, ses habitudes, son emplacement. Avec un profilage et une segmentation compétents, les offres publicitaires tournent plus efficacement. Cependant, dans la pratique, tout n'est pas si rose. Les données stockées par l'entreprise peuvent être désespérément obsolètes, redondantes, dupliquées ou personne ne connaît son existence, à l'exception d'un cercle restreint d'utilisateurs. ¯ \ _ (ツ) _ / ¯


En un mot, les données doivent être gérées efficacement - seulement dans ce cas, elles deviendront un atout qui apportera de réels avantages et bénéfices à l'entreprise. Malheureusement, pour résoudre les problèmes de gestion des données, plusieurs difficultés doivent être surmontées. Ils sont principalement dus à la fois au patrimoine historique sous la forme de «zoos» de systèmes et au manque de processus et d'approches communs pour les gérer. Mais que signifie «gérer les données»?

C'est ce dont nous parlerons sous la coupe, ainsi que la façon dont la pile open source nous a aidés.

Le concept de gestion stratégique des données Data Governance (DG) est déjà bien connu sur le marché russe et les objectifs atteints par l'entreprise à la suite de sa mise en œuvre sont clairs et clairement énoncés. Notre entreprise n'a pas fait exception et s'est donné pour mission de mettre en œuvre le concept de gestion des données.

Alors, où avons-nous commencé? Pour commencer, nous nous sommes fixé des objectifs clés:

  1. Assurer la disponibilité de nos données.
  2. Assurer la transparence du cycle de vie des données.
  3. Donnez aux utilisateurs de l'entreprise des données cohérentes et cohérentes.
  4. Fournissez aux utilisateurs de l'entreprise des données vérifiées.

A ce jour, le marché du logiciel dispose d'une dizaine d'outils de la classe DataGovernance.



Mais après une analyse détaillée et une étude des solutions, nous nous sommes fixés un certain nombre de commentaires critiques:

  • La plupart des fabricants proposent un ensemble complet de solutions, qui pour nous est redondant et duplique les fonctionnalités existantes. De plus, une intégration coûteuse en ressources dans le paysage informatique actuel.
  • La fonctionnalité et l'interface sont destinées aux technologues et non aux utilisateurs finaux.
  • Faible taux de survie des produits et manque d'implémentations réussies sur le marché russe.
  • Coût élevé du logiciel et maintenance supplémentaire.

Les critères et recommandations énoncés ci-dessus concernant la substitution à l'importation de logiciels pour les entreprises russes nous ont convaincus d'aller vers notre propre développement sur la pile opensource. En tant que plateforme, ils ont choisi Django, un framework gratuit et gratuit écrit en Python. Et ainsi, nous avons identifié pour nous-mêmes les modules clés qui contribueront aux objectifs énoncés ci-dessus:

  1. Registre des rapports.
  2. -.
  3. .
  4. BI-.
  5. .




Selon les résultats d'une recherche interne dans de grandes entreprises, résolvant des problèmes liés aux données, les employés passent 40 à 80% du temps à les rechercher. Par conséquent, nous nous sommes fixé pour tâche de rendre ouvertes les informations sur les rapports existants qui n'étaient auparavant disponibles que pour les clients. Ainsi, nous réduisons le temps de formation de nouveaux reporting et assurons la démocratisation des données.



Le registre des rapports est devenu une fenêtre de rapport unique pour les utilisateurs internes de diverses régions, départements et divisions. Il consolide les informations sur les services d'information créés dans plusieurs installations de stockage d'entreprise de l'entreprise, et il y en a beaucoup à Rostelecom.

Mais le registre n'est pas seulement une liste sèche de rapports développés. Pour chaque rapport, nous fournissons les informations nécessaires pour que l'utilisateur puisse le connaître de manière indépendante:

  • ;
  • ;
  • ;
  • ;
  • ;
  • - ;
  • ;
  • ;
  • .

Selon les rapports, des analyses du niveau de convivialité sont disponibles, et les rapports tombent en haut de la liste en fonction des analyses de journaux par le nombre d'utilisateurs uniques. Et ce n'est pas ça. En plus des caractéristiques générales, nous avons également fourni une description détaillée de la composition des attributs des rapports avec des exemples de valeurs et de méthodes de calcul. De tels détails donnent déjà immédiatement à l'utilisateur une réponse quant à savoir si le rapport lui est utile ou non.

Le développement de ce module a été une étape importante en termes de démocratisation des données et a considérablement réduit le temps nécessaire pour trouver les informations requises. En plus de réduire le temps de recherche, le nombre d'appels à l'équipe d'assistance pour obtenir des conseils a également diminué. Il est impossible de ne pas noter un autre résultat utile que nous avons obtenu en développant un registre unique de rapports - empêchant le développement de rapports en double pour différentes unités structurelles.

Glossaire des affaires


Vous savez tous que même au sein d'une même entreprise, une entreprise parle différentes langues. Oui, ils utilisent les mêmes termes, mais ils signifient des choses complètement différentes. Le glossaire métier est conçu pour résoudre ce problème.

Pour nous, un glossaire d'entreprise n'est pas seulement un guide avec une description des termes et une méthodologie de calcul. Il s'agit d'un environnement à part entière pour le développement, la coordination et l'approbation de la terminologie, la construction de la relation des termes avec les autres actifs informationnels de l'entreprise. Avant d'entrer dans le glossaire de l'entreprise, le terme doit passer par toutes les étapes de la coordination avec les clients commerciaux et un centre de qualité des données. Ce n'est qu'après cela qu'il devient disponible pour utilisation.

Comme je l'ai écrit ci-dessus, l'unicité de cet outil est qu'il vous permet de faire des connexions du niveau du terme métier aux rapports utilisateur spécifiques dans lesquels il est utilisé, ainsi qu'au niveau des objets de base de données physiques.



Cela a été rendu possible grâce à l'utilisation d'identificateurs de termes du glossaire dans une description détaillée des rapports de registre et une description des objets de base de données physiques.

Désormais, dans le glossaire, plus de 4000 termes sont définis et acceptés. Son utilisation simplifie et accélère le traitement des demandes de changement entrantes dans les systèmes d'information de l'entreprise. Si l'indicateur requis a déjà été implémenté dans un rapport, l'utilisateur verra immédiatement un ensemble de rapports prêts à l'emploi où cet indicateur a été utilisé et pourra décider de la réutilisation efficace de la fonctionnalité existante ou de son amélioration minimale sans initier de nouvelles demandes pour le développement d'un nouveau rapport.

Module de description de la transformation technique et DataLineage


Vous demandez, quels sont ces modules? Il ne suffit pas simplement d'implémenter le registre des rapports et le glossaire, vous devez toujours attribuer tous les termes commerciaux au modèle de base de données physique. Ainsi, nous avons pu achever le processus de formation du cycle de vie des données des systèmes source à la visualisation BI à travers toutes les couches de l'entrepôt de données. En d'autres termes, créez un DataLineage.

Nous avons développé une interface basée sur le format utilisé par l'entreprise pour la description des règles et de la logique de transformation des données. Grâce à l'interface, les mêmes informations sont acquises qu'auparavant, mais la détermination du terme identifiant à partir du glossaire métier est devenue une condition préalable. Nous établissons donc la connexion entre les couches métier et physique.

Qui en a besoin? Qu'est-ce qui ne convenait pas à l'ancien format avec lequel ils travaillaient depuis plusieurs années? Combien de besoins accrus en main-d'œuvre pour la formation des besoins? Nous avons dû faire face à ces problèmes lors de la mise en œuvre de l'outil. Ici, les réponses sont assez simples - nous en avons tous besoin, le bureau de données de notre entreprise et nos utilisateurs.

En effet, les employés ont dû être restructurés, ce qui a d'abord entraîné une augmentation insignifiante des coûts de main-d'œuvre pour la préparation de la documentation, mais nous avons résolu ce problème. La pratique, l'identification et l'optimisation des zones problématiques ont fait leur travail. Nous avons atteint l'essentiel - nous avons amélioré la qualité des exigences développées. Champs obligatoires, répertoires unifiés, masques de saisie, contrôles intégrés - tout cela a permis d'améliorer considérablement la qualité des descriptions de transformation. Nous avons abandonné la pratique du transfert de scripts sous forme d'exigences de développement, des connaissances partagées qui n'étaient disponibles que pour l'équipe de développement. La base de données de métadonnées générée réduit le temps requis pour effectuer une analyse de régression à plusieurs reprises et permet d'évaluer rapidement l'impact des changements sur l'une des couches du paysage informatique (rapports de vitrine, agrégats, sources).

Et où sont les utilisateurs de rapports ordinaires, quels sont les avantages pour eux? En raison de la possibilité de créer DataLineage, nos utilisateurs, même ceux qui sont loin de SQL et d'autres langages de programmation, reçoivent rapidement des informations sur les sources et les objets sur la base desquels tel ou tel rapport est généré.

Module de contrôle de la qualité des données


Tout ce dont nous avons parlé ci-dessus concernant la transparence des données n'est pas important sans comprendre que les données que nous donnons aux utilisateurs sont correctes. L'un des modules importants de notre concept de gouvernance des données est le module de contrôle de la qualité des données.

Au stade actuel, il s'agit d'un catalogue de contrôles sur des entités sélectives. L'objectif immédiat du développement de produits est d'élargir la liste des inspections et de l'intégrer au registre des rapports.
Que donnera-t-elle et à qui? Pour l'utilisateur final du registre, des informations seront disponibles sur les dates prévues et réelles de disponibilité du rapport, les résultats des inspections terminées avec dynamique et des informations sur les sources téléchargées dans le rapport.

Pour nous, le module qualité des données intégré aux processus de travail est:

  • Formation rapide des attentes des clients.
  • Prendre des décisions sur l'utilisation future des données.
  • Obtention d'un ensemble préliminaire de points problématiques aux premières étapes du travail pour l'élaboration de contrôles de qualité réguliers.

Bien sûr, ce sont les premières étapes de la construction d'un processus de gestion des données à part entière. Mais nous sommes sûrs que ce n'est qu'en effectuant délibérément ce travail, en introduisant activement des outils DataGovernance dans le flux de travail, que nous fournirons à nos clients des informations, un haut niveau de confiance dans les données, une transparence dans leur réception et augmenter la vitesse de sortie de nouvelles fonctionnalités.

Équipe DataOffice

All Articles