Plateforme de données pour le reporting réglementaire

La formation de rapports réglementaires bancaires est un processus complexe avec des exigences élevées en matière d'exactitude, de fiabilité et de profondeur des informations divulguées. Traditionnellement, les organisations utilisent des systèmes classiques de stockage et de traitement des données pour automatiser les rapports. Dans le même temps, le nombre de tâches augmente activement chaque année, où il est nécessaire non seulement d'effectuer l'analyse d'une grande quantité de données hétérogènes, mais aussi de le faire à la vitesse requise par l'entreprise.

La combinaison de ces facteurs a entraîné une modification des processus de gestion des données. Plateforme de données - une approche qui propose de repenser le concept traditionnel d'entrepôt de données classique (QCD) utilisant les technologies Big Data et les nouvelles approches utilisées dans la construction de plates-formes Data Lake. La plate-forme de données vous permet de prendre en compte qualitativement des facteurs importants tels que la croissance du nombre d'utilisateurs, les exigences de time2customer (pour offrir la possibilité d'une vitesse élevée de mise en œuvre des modifications), ainsi que le coût de la solution résultante, y compris en tenant compte de son évolution et de son développement.

En particulier, nous proposons de prendre en compte l'expérience de l'automatisation de la déclaration en vertu du RAS, de la déclaration fiscale et de la déclaration à Rosfinmonitoring au National Clearing Center (ci-après - NCC).
Le choix de l'architecture qui vous permet de mettre en œuvre la solution, en tenant compte des exigences suivantes, a été extrêmement prudent. Le concours a été suivi à la fois par des solutions classiques et plusieurs solutions bigdat - chez Hortonworks et Oracle Appliance.

Les principales exigences de la solution étaient:

  • Automatiser la construction du reporting réglementaire;
  • Augmente parfois la vitesse de collecte et de traitement des données, la construction des rapports finaux (exigences directes au moment de la construction de tous les rapports pour la journée);
  • Décharger l'APA en retirant les processus de rapport au-delà du grand livre;
  • Choisissez la meilleure solution du point de vue des prix;
  • , , ;
  • , .

Une décision a été prise en faveur de l'introduction du produit Neoflex Reporting Big Data Edition basé sur la plateforme open source Hadoop Hortonworks.



Le SGBD des systèmes sources est Oracle, les sources sont également des fichiers plats de différents formats et images (à des fins de contrôle fiscal), les informations individuelles sont téléchargées via l'API REST. Ainsi, la tâche de travailler avec des données structurées et non structurées apparaît.

Examinons plus en détail les zones de stockage du cluster Hadoop:

Operation Data Store (ODS) - les données sont stockées "telles quelles" du système source sous la même forme et le même format que celui déterminé par le système source. Pour stocker l'historique de plusieurs entités nécessaires, une couche de données d'archives (ADS) supplémentaire est implémentée.

CDC (Change Data Capture) - pourquoi abandonné la capture delta
, , . Hadoop .

( ) :

  • append-only , , , , ;
  • , , , .. , ;
  • , «» ;
  • CDC- «» , «» «».

, , :

  • ODS, AS IS. , , Hadoop , ;
  • ODS , ();
  • PDS «1 1 » PDS.


Portfolio Data Store (PDS) est un domaine dans lequel les données critiques sont préparées et stockées dans un format centralisé unifié, qui est soumis à des exigences accrues sur la qualité non seulement des données, mais aussi sur la structure de la syntaxe et de la sémantique. Par exemple, les données comprennent les registres des clients, les transactions, les bilans, etc.

Les processus ETL sont développés à l'aide de Spark SQL à l'aide de Datagram. Il appartient à la classe des solutions - «accélérateurs», et vous permet de simplifier le processus de développement par la conception visuelle et la description des transformations de données en utilisant la syntaxe SQL habituelle - et, à son tour, le code du travail lui-même en langage Scala est généré automatiquement. Ainsi, le niveau de complexité de développement équivaut à développer des ETL sur des outils plus traditionnels et familiers tels qu'Informatica et IBM InfoSphere DataStage. Par conséquent, cela ne nécessite pas de formation supplémentaire de spécialistes ou la participation d'experts ayant une connaissance particulière des technologies et des langages Big Data.

À l'étape suivante, les formulaires de déclaration sont calculés. Les résultats des calculs sont placés dans les fenêtres du SGBD Oracle, où des rapports interactifs sont créés sur la base d'Oracle Apex. À première vue, il peut sembler contre-intuitif d'utiliser Oracle commercial avec les technologies open source Big Data. Sur la base des facteurs suivants, il a été décidé d'utiliser spécifiquement Oracle et Apex:

  • Absence d'une solution de BI alternative compatible avec un SGBD distribué gratuitement et répondant aux exigences de la NCC Business en termes de création de formulaires à l'écran / imprimés de rapports réglementaires;
  • Utilisation d'Oracle pour DWH impliqué comme systèmes source pour un cluster Hadoop;
  • Existence de la plate-forme flexible Neoflex Reporting sur Oracle, qui possède la majorité des rapports réglementaires et s'intègre facilement à la pile technologique Big Data.

La plateforme de données stocke toutes les données des systèmes source, contrairement au QCD classique, où les données sont stockées pour résoudre des problèmes spécifiques. Dans le même temps, seules les données utiles et nécessaires sont utilisées, décrites, préparées et gérées dans la plate-forme de données, c'est-à-dire que si certaines données sont utilisées de manière continue, elles sont classées selon un certain nombre de signes et placées dans des segments distincts, des portefeuilles dans notre cas, et gérées selon les caractéristiques de ces portefeuilles. Dans QCD, au contraire, toutes les données téléchargées sur le système sont préparées, indépendamment de la nécessité de leur utilisation ultérieure.

Par conséquent, s'il est nécessaire d'étendre à une nouvelle classe de tâches, QCD est souvent confronté à un projet de mise en œuvre réellement nouveau avec le T2C correspondant, tandis que dans la plate-forme de données, toutes les données sont déjà dans le système et peuvent être utilisées à tout moment sans préparation préalable. Par exemple, les données sont collectées à partir d'ODS, traitées rapidement, «vissées» à une tâche spécifique et transmises à l'utilisateur final. Si l'utilisation directe a montré que la fonctionnalité est correcte et applicable à l'avenir, le processus complet est lancé, dans lequel les transformations cibles sont construites, les portefeuilles de données sont préparés ou enrichis, la couche vitrine est activée et des rapports interactifs à part entière ou des téléchargements sont créés.

Le projet est toujours en cours d'exécution, cependant, nous pouvons noter un certain nombre de réalisations et prendre des résultats intermédiaires:

  1. :

    • , ;
    • LDAP ;
    • : 35 HDFS, 15 (50 . ) ;
    • HDFS «» Big Data;
    • (PDS) Hadoop .
  2. Hadoop;
  3. open-source , .. Hadoop Spark, ( , ) . , ;
  4. «» , ;
  5. Datagram , ETL- .


— , - Big Data Solutions «»

All Articles