Platform Data untuk pelaporan peraturan

Pembentukan pelaporan peraturan perbankan adalah proses yang kompleks dengan persyaratan tinggi untuk akurasi, keandalan, kedalaman informasi yang diungkapkan. Secara tradisional, organisasi menggunakan penyimpanan data klasik dan sistem pemrosesan untuk mengotomatisasi pelaporan. Pada saat yang sama, jumlah tugas berkembang pesat setiap tahun, di mana diperlukan tidak hanya untuk menganalisis volume besar data heterogen, tetapi juga melakukannya dengan kecepatan yang dibutuhkan oleh bisnis.

Kombinasi dari faktor-faktor ini telah menyebabkan perubahan dalam proses manajemen data. Platform Data - suatu pendekatan yang menawarkan pemikiran ulang konsep tradisional data warehouse klasik (QCD) menggunakan teknologi Big Data dan pendekatan baru yang digunakan dalam membangun platform Data Lake. Platform Data memungkinkan Anda untuk secara kualitatif mempertimbangkan faktor-faktor penting seperti pertumbuhan jumlah pengguna, persyaratan untuk pelanggan time2 (untuk memberikan kemungkinan kecepatan tinggi implementasi perubahan), serta biaya solusi yang dihasilkan, termasuk dengan mempertimbangkan penskalaan dan pengembangan lebih lanjut.

Secara khusus, kami mengusulkan untuk mempertimbangkan pengalaman otomatisasi pelaporan berdasarkan RAS, pelaporan pajak dan pelaporan di Rosfinmonitoring di National Clearing Center (selanjutnya disebut - NCC).
Pilihan arsitektur yang memungkinkan Anda untuk mengimplementasikan solusi, dengan mempertimbangkan persyaratan berikut, sangat berhati-hati. Kompetisi ini dihadiri oleh solusi klasik dan beberapa solusi bigdat - di Hortonworks dan Oracle Appliance.

Persyaratan utama untuk solusinya adalah:

  • Mengotomatiskan konstruksi pelaporan peraturan;
  • Pada waktu meningkatkan kecepatan pengumpulan dan pemrosesan data, pembangunan laporan akhir (persyaratan langsung pada saat membangun semua pelaporan untuk hari itu);
  • Untuk membongkar ABS dengan menarik proses pelaporan di luar buku besar;
  • Pilih solusi terbaik dari sudut pandang harga;
  • , , ;
  • , .

Sebuah keputusan dibuat untuk memperkenalkan produk Neoflex Reporting Big Data Edition berdasarkan platform open-source Hadoop Hortonworks.



DBMS sistem sumber adalah Oracle, juga sumber adalah file datar berbagai format dan gambar (untuk tujuan pemantauan pajak), informasi individual diunduh melalui REST API. Dengan demikian, tugas bekerja dengan data terstruktur dan tidak terstruktur muncul.

Mari kita pertimbangkan lebih detail area penyimpanan cluster Hadoop:

Operation Data Store (ODS) - data disimpan "sebagaimana adanya" dari sistem sumber dalam bentuk dan format yang sama seperti yang ditentukan oleh sistem sumber. Untuk menyimpan riwayat untuk sejumlah entitas yang diperlukan, lapisan data arsip tambahan (ADS) diimplementasikan.

CDC (Ubah Data Capture) - mengapa penangkapan delta ditinggalkan
, , . Hadoop .

( ) :

  • append-only , , , , ;
  • , , , .. , ;
  • , «» ;
  • CDC- «» , «» «».

, , :

  • ODS, AS IS. , , Hadoop , ;
  • ODS , ();
  • PDS «1 1 » PDS.


Portofolio Data Store (PDS) adalah area di mana data penting disiapkan dan disimpan dalam format terpusat yang disatukan, yang tunduk pada peningkatan permintaan pada kualitas tidak hanya data, tetapi juga struktur sintaksis dan semantik. Misalnya, data termasuk register pelanggan, transaksi, neraca, dll.

Proses ETL dikembangkan menggunakan Spark SQL menggunakan Datagram. Itu milik kelas solusi - "akselerator", dan memungkinkan Anda untuk menyederhanakan proses pengembangan melalui desain visual dan deskripsi transformasi data menggunakan sintaks SQL biasa - dan, pada gilirannya, kode karya itu sendiri dalam bahasa Scala dihasilkan secara otomatis. Dengan demikian, tingkat kompleksitas pengembangan setara dengan mengembangkan ETL pada alat yang lebih tradisional dan akrab seperti Informatica dan IBM InfoSphere DataStage. Oleh karena itu, ini tidak memerlukan pelatihan tambahan untuk spesialis atau keterlibatan para ahli dengan pengetahuan khusus tentang teknologi dan bahasa Big Data.

Pada tahap selanjutnya, formulir pelaporan dihitung. Hasil perhitungan ditempatkan di jendela DBMS Oracle, di mana laporan interaktif dibangun berdasarkan Oracle Apex. Pada pandangan pertama, mungkin tampak berlawanan dengan intuisi untuk menggunakan Oracle komersial bersama dengan teknologi Big Data sumber terbuka. Berdasarkan faktor-faktor berikut, diputuskan untuk menggunakan Oracle dan Apex secara khusus:

  • Kurangnya solusi BI alternatif yang kompatibel dengan DBMS yang didistribusikan secara gratis dan memenuhi persyaratan Bisnis NCC dalam hal membangun bentuk pelaporan regulasi di layar / cetak;
  • Menggunakan Oracle untuk DWH terlibat sebagai sistem sumber untuk cluster Hadoop;
  • Keberadaan platform Neoflex Reporting yang fleksibel pada Oracle, yang memiliki mayoritas laporan regulasi dan mudah diintegrasikan dengan tumpukan teknologi Big Data.

Platform Data menyimpan semua data dari sistem sumber, tidak seperti QCD klasik, tempat data disimpan untuk menyelesaikan masalah tertentu. Pada saat yang sama, hanya data yang berguna dan diperlukan yang digunakan, dijelaskan, disiapkan, dan dikelola dalam Platform Data, yaitu jika data tertentu digunakan secara berkelanjutan, maka data tersebut diklasifikasikan berdasarkan sejumlah tanda dan ditempatkan di segmen terpisah, portofolio dalam kasus kami, dan dikelola sesuai dengan karakteristik portofolio ini. Di QCD, sebaliknya, semua data yang diunggah ke sistem disiapkan, terlepas dari kebutuhan untuk penggunaan lebih lanjut.

Oleh karena itu, jika perlu untuk memperluas ke kelas tugas baru, QCD sering menghadapi proyek implementasi yang benar-benar baru dengan T2C yang sesuai, sementara di Platform Data semua data sudah ada dalam sistem dan dapat digunakan kapan saja tanpa persiapan awal. Sebagai contoh, data dikumpulkan dari ODS, diproses dengan cepat, "kacau" untuk tugas tertentu dan dikirim ke pengguna akhir. Jika penggunaan langsung menunjukkan bahwa fungsionalitasnya benar dan dapat diterapkan di masa mendatang, maka proses penuh diluncurkan, di mana transformasi target dibangun, portofolio data disiapkan atau diperkaya, lapisan etalase diaktifkan dan laporan atau unggahan interaktif lengkap dibuat.

Proyek ini masih dalam implementasi, namun, kami dapat mencatat sejumlah pencapaian dan mengambil hasil antara:

  1. :

    • , ;
    • LDAP ;
    • : 35 HDFS, 15 (50 . ) ;
    • HDFS «» Big Data;
    • (PDS) Hadoop .
  2. Hadoop;
  3. open-source , .. Hadoop Spark, ( , ) . , ;
  4. «» , ;
  5. Datagram , ETL- .


— , - Big Data Solutions «»

All Articles