Datenplattform für die behördliche Berichterstattung

Die Bildung von Bankaufsichtsberichten ist ein komplexer Prozess mit hohen Anforderungen an Genauigkeit, Zuverlässigkeit und Informationstiefe. Traditionell verwenden Unternehmen klassische Datenspeicherungs- und -verarbeitungssysteme, um die Berichterstellung zu automatisieren. Gleichzeitig wächst die Anzahl der Aufgaben von Jahr zu Jahr rasant. Dabei müssen nicht nur große Mengen heterogener Daten analysiert werden, sondern auch mit der vom Unternehmen geforderten Geschwindigkeit.

Die Kombination dieser Faktoren hat zu einer Änderung der Datenverwaltungsprozesse geführt. Data Platform ist ein Ansatz, der ein Überdenken des traditionellen Konzepts des klassischen Data Warehouse (QCD) unter Verwendung von Big Data-Technologien und neuen Ansätzen beim Aufbau von Data Lake-Plattformen bietet. Mit der Datenplattform können Sie wichtige Faktoren wie die Zunahme der Benutzeranzahl, die Anforderungen an time2customer (um die Möglichkeit einer schnellen Implementierung von Änderungen zu ermöglichen) sowie die Kosten der resultierenden Lösung, einschließlich der weiteren Skalierung und Entwicklung, qualitativ berücksichtigen.

Insbesondere schlagen wir vor, die Erfahrungen mit der Automatisierung der Berichterstattung im Rahmen von RAS, der Steuerberichterstattung und der Berichterstattung bei Rosfinmonitoring im National Clearing Center (im Folgenden: NCC) zu berücksichtigen.
Die Wahl der Architektur, mit der Sie die Lösung unter Berücksichtigung der folgenden Anforderungen implementieren können, war äußerst sorgfältig. An dem Wettbewerb nahmen sowohl klassische Lösungen als auch mehrere BigDat-Lösungen teil - bei Hortonworks und Oracle Appliance.

Die Hauptanforderungen an die Lösung waren:

  • Automatisieren Sie die Erstellung von behördlichen Berichten.
  • Zuweilen erhöhen Sie die Geschwindigkeit der Datenerfassung und -verarbeitung, die Erstellung von Abschlussberichten (direkte Anforderungen zum Zeitpunkt der Erstellung aller Berichte für den Tag);
  • Entladen des ABS durch Zurückziehen von Berichterstattungsprozessen über das Hauptbuch hinaus;
  • Wählen Sie die beste Lösung aus preislicher Sicht.
  • , , ;
  • , .

Es wurde eine Entscheidung zugunsten der Einführung des Produkts Neoflex Reporting Big Data Edition getroffen, das auf der Open-Source-Plattform Hadoop Hortonworks basiert.



Das DBMS von Quellsystemen ist Oracle. Quellen sind ebenfalls Flatfiles in verschiedenen Formaten und Bildern (zur Steuerüberwachung). Einzelne Informationen werden über die REST-API heruntergeladen. Somit erscheint die Aufgabe, sowohl mit strukturierten als auch mit unstrukturierten Daten zu arbeiten.

Lassen Sie uns die Speicherbereiche des Hadoop-Clusters genauer betrachten:

Operation Data Store (ODS) - Die Daten werden "wie sie sind" des Quellsystems in derselben Form und demselben Format gespeichert, wie sie vom Quellsystem definiert wurden. Um den Verlauf für eine Reihe notwendiger Entitäten zu speichern, wird eine zusätzliche Archivdatenschicht (ADS) implementiert.

CDC (Change Data Capture) - Warum wurde die Delta-Erfassung abgebrochen?
, , . Hadoop .

( ) :

  • append-only , , , , ;
  • , , , .. , ;
  • , «» ;
  • CDC- «» , «» «».

, , :

  • ODS, AS IS. , , Hadoop , ;
  • ODS , ();
  • PDS «1 1 » PDS.


Der Portfolio Data Store (PDS) ist ein Bereich, in dem kritische Daten in einem einheitlichen, zentralisierten Format aufbereitet und gespeichert werden. Dies stellt erhöhte Anforderungen an die Qualität nicht nur der Daten, sondern auch an die Struktur von Syntax und Semantik. Zu den Daten gehören beispielsweise Kundenregister, Transaktionen, Bilanzen usw.

ETL-Prozesse werden mit Spark SQL unter Verwendung von Datagram entwickelt. Es gehört zur Klasse der Lösungen - „Beschleuniger“ - und ermöglicht es Ihnen, den Entwicklungsprozess durch visuelles Design und Beschreibung von Datentransformationen unter Verwendung der üblichen SQL-Syntax zu vereinfachen. Der Code der Arbeit selbst in der Scala-Sprache wird automatisch generiert. Daher entspricht der Grad der Entwicklungskomplexität der Entwicklung von ETLs mit traditionelleren und bekannteren Tools wie Informatica und IBM InfoSphere DataStage. Dies erfordert daher keine zusätzliche Ausbildung von Spezialisten oder die Einbeziehung von Experten mit besonderen Kenntnissen der Big Data-Technologien und -Sprachen.

In der nächsten Phase werden Berichtsformulare berechnet. Die Berechnungsergebnisse werden in den Fenstern des Oracle DBMS abgelegt, in denen interaktive Berichte auf der Basis von Oracle Apex erstellt werden. Auf den ersten Blick erscheint es möglicherweise nicht intuitiv, kommerzielles Oracle zusammen mit Open-Source-Big-Data-Technologien zu verwenden. Aufgrund der folgenden Faktoren wurde beschlossen, Oracle und Apex speziell zu verwenden:

  • Fehlen einer alternativen BI-Lösung, die mit einem frei verteilten DBMS kompatibel ist und die Anforderungen des NCC-Geschäfts hinsichtlich der Erstellung von Bildschirm- / gedruckten Formen der behördlichen Berichterstattung erfüllt;
  • Verwendung von Oracle für DWH als Quellsysteme für einen Hadoop-Cluster;
  • Existenz der flexiblen Neoflex Reporting-Plattform unter Oracle, die die meisten behördlichen Berichte enthält und problemlos in den Big Data-Technologie-Stack integriert werden kann.

Die Datenplattform speichert im Gegensatz zur klassischen QCD alle Daten aus Quellsystemen, in denen Daten zur Lösung spezifischer Probleme gespeichert werden. Gleichzeitig werden nur nützliche, notwendige Daten in der Datenplattform verwendet, beschrieben, vorbereitet und verwaltet, d. H. Wenn bestimmte Daten fortlaufend verwendet werden, werden sie nach einer Reihe von Zeichen klassifiziert und in separate Segmente, in unserem Fall Portfolios, gestellt und verwaltet nach den Merkmalen dieser Portfolios. In QCD hingegen werden alle auf das System hochgeladenen Daten vorbereitet, unabhängig davon, ob sie weiter verwendet werden müssen.

Wenn eine Erweiterung auf eine neue Aufgabenklasse erforderlich ist, steht QCD daher häufig vor einem tatsächlich neuen Implementierungsprojekt mit dem entsprechenden T2C, während sich auf der Datenplattform alle Daten bereits im System befinden und jederzeit ohne vorherige Vorbereitung verwendet werden können. Beispielsweise werden Daten von ODS gesammelt, schnell verarbeitet, auf eine bestimmte Aufgabe „geschraubt“ und an den Endbenutzer übertragen. Wenn die direkte Verwendung gezeigt hat, dass die Funktionalität korrekt und in Zukunft anwendbar ist, wird der vollständige Prozess gestartet, in dem die Zieltransformationen erstellt, Datenportfolios vorbereitet oder angereichert, die Storefront-Ebene aktiviert und vollständige interaktive Berichte oder Uploads erstellt werden.

Das Projekt befindet sich noch in der Umsetzung. Wir können jedoch eine Reihe von Erfolgen feststellen und Zwischenergebnisse erzielen:

  1. :

    • , ;
    • LDAP ;
    • : 35 HDFS, 15 (50 . ) ;
    • HDFS «» Big Data;
    • (PDS) Hadoop .
  2. Hadoop;
  3. open-source , .. Hadoop Spark, ( , ) . , ;
  4. «» , ;
  5. Datagram , ETL- .


— , - Big Data Solutions «»

All Articles