منصة البيانات لإعداد التقارير التنظيمية

يعد إعداد التقارير التنظيمية المصرفية عملية معقدة تتطلب متطلبات عالية من الدقة والموثوقية وعمق المعلومات التي يتم الكشف عنها. تقليديًا ، تستخدم المؤسسات أنظمة تخزين ومعالجة البيانات الكلاسيكية لأتمتة إعداد التقارير. في الوقت نفسه ، ينمو عدد المهام بسرعة كبيرة كل عام ، حيث يلزم ليس فقط تحليل كميات كبيرة من البيانات غير المتجانسة ، ولكن أيضًا للقيام بذلك بالسرعة التي تتطلبها الشركة.

أدى الجمع بين هذه العوامل إلى تغيير في عمليات إدارة البيانات. منصة البيانات هي نهج يقدم إعادة التفكير في المفهوم التقليدي لمستودع البيانات الكلاسيكية (QCD) باستخدام تقنيات البيانات الكبيرة والأساليب الجديدة المستخدمة لبناء منصات Data Lake. تتيح لك منصة البيانات أن تأخذ بعين الاعتبار نوعيًا العوامل المهمة مثل نمو عدد المستخدمين ومتطلبات الوقت 2 للعملاء (لتوفير إمكانية السرعة العالية لتنفيذ التغييرات) ، بالإضافة إلى تكلفة الحل الناتج ، بما في ذلك مراعاة زيادة تطويره وتطويره.

على وجه الخصوص ، نقترح النظر في تجربة أتمتة إعداد التقارير في ظل RAS ، والإبلاغ الضريبي والإبلاغ في Rosfinmonitoring في مركز المقاصة الوطني (المشار إليه فيما يلي - NCC).
كان اختيار البنية الذي يسمح لك بتنفيذ الحل ، مع مراعاة المتطلبات التالية ، دقيقًا للغاية. حضر المسابقة كل من الحلول الكلاسيكية والعديد من حلول bigdat - في Hortonworks و Oracle Appliance.

المتطلبات الرئيسية للحل هي:

  • أتمتة بناء التقارير التنظيمية ؛
  • في بعض الأحيان زيادة سرعة جمع البيانات ومعالجتها ، وبناء التقارير النهائية (المتطلبات المباشرة في وقت بناء جميع التقارير لهذا اليوم) ؛
  • تفريغ ABS عن طريق سحب عمليات إعداد التقارير خارج دفتر الأستاذ العام ؛
  • اختر الحل الأفضل من وجهة نظر السعر ؛
  • , , ;
  • , .

تم اتخاذ قرار لصالح تقديم منتج Neoflex Reporting Big Data Edition استنادًا إلى منصة Hadoop Hortonworks مفتوحة المصدر.



نظام إدارة قواعد البيانات (DBMS) لأنظمة المصدر هو Oracle ، كما أن المصادر عبارة عن ملفات مسطحة بتنسيقات وصور مختلفة (لأغراض مراقبة الضرائب) ، ويتم تنزيل المعلومات الفردية عبر REST API. وبالتالي ، تظهر مهمة العمل مع كل من البيانات المنظمة وغير المنظمة.

دعونا نفكر بمزيد من التفصيل في مناطق التخزين الخاصة بمجموعة Hadoop:

عملية تخزين البيانات (ODS) - يتم تخزين البيانات "كما هي" من نظام المصدر بنفس الشكل والتنسيق كما هو محدد بواسطة نظام المصدر. لتخزين السجل لعدد من الكيانات الضرورية ، يتم تنفيذ طبقة بيانات أرشيف إضافية (ADS).

CDC (تغيير التقاط البيانات) - لماذا تم التخلي عن التقاط الدلتا
, , . Hadoop .

( ) :

  • append-only , , , , ;
  • , , , .. , ;
  • , «» ;
  • CDC- «» , «» «».

, , :

  • ODS, AS IS. , , Hadoop , ;
  • ODS , ();
  • PDS «1 1 » PDS.


مخزن بيانات المحفظة (PDS) هو منطقة يتم فيها إعداد البيانات المهمة وتخزينها بتنسيق مركزي موحد ، والذي يخضع لزيادة الطلبات على جودة البيانات ، ليس هذا فحسب ، بل أيضًا بنية النحو والدلالات. على سبيل المثال ، تشمل البيانات سجلات العملاء والمعاملات والميزانية العمومية وما إلى ذلك.

يتم تطوير عمليات ETL باستخدام Spark SQL باستخدام مخطط البيانات. إنه ينتمي إلى فئة الحلول - "المسرعات" ، ويسمح لك بتبسيط عملية التطوير من خلال التصميم المرئي ووصف تحويلات البيانات باستخدام بناء جملة SQL المعتاد - وبالتالي ، يتم إنشاء رمز العمل نفسه بلغة سكالا تلقائيًا. وبالتالي ، فإن مستوى تعقيد التنمية يعادل تطوير ETLs على أدوات أكثر تقليدية ومألوفة مثل Informatica و IBM InfoSphere DataStage. لذلك ، لا يتطلب هذا تدريبًا إضافيًا للمتخصصين أو مشاركة الخبراء ذوي المعرفة الخاصة بتقنيات البيانات الضخمة واللغات.

في المرحلة التالية ، يتم حساب استمارات إعداد التقارير. يتم وضع نتائج الحساب في نوافذ Oracle DBMS ، حيث يتم إنشاء التقارير التفاعلية على أساس Oracle Apex. للوهلة الأولى ، قد يبدو من غير المعقول استخدام Oracle التجاري جنبًا إلى جنب مع تقنيات البيانات الكبيرة مفتوحة المصدر. بناءً على العوامل التالية ، تقرر استخدام Oracle و Apex على وجه التحديد:

  • عدم وجود حل بديل لاستقصاء المعلومات (BI) متوافق مع نظام إدارة قواعد البيانات (DBMS) الموزع مجانًا وتلبية متطلبات NCC Business من حيث بناء نماذج مطبوعة على الشاشة / مطبوعة ؛
  • استخدام Oracle لـ DWH المشاركة كنظم مصدر لمجموعة Hadoop ؛
  • وجود منصة Neoflex للتقارير المرنة على Oracle ، والتي لديها غالبية التقارير التنظيمية ويمكن دمجها بسهولة مع حزمة تقنية Big Data.

تقوم منصة البيانات بتخزين جميع البيانات من أنظمة المصدر ، على عكس QCD الكلاسيكي ، حيث يتم تخزين البيانات لحل مشاكل معينة. في الوقت نفسه ، يتم فقط استخدام البيانات المفيدة والضرورية ووصفها وإعدادها وإدارتها في منصة البيانات ، أي إذا تم استخدام بيانات معينة على أساس مستمر ، يتم تصنيفها وفقًا لعدد من العلامات ووضعها في قطاعات منفصلة ومحافظ في حالتنا وإدارتها حسب خصائص هذه المحافظ. في QCD ، على العكس من ذلك ، يتم إعداد جميع البيانات التي يتم تحميلها إلى النظام ، بغض النظر عن الحاجة إلى مزيد من استخدامها.

لذلك ، إذا كان من الضروري التوسع إلى فئة جديدة من المهام ، فغالبًا ما تواجه QCD مشروعًا تنفيذيًا جديدًا بالفعل مع T2C المطابق ، بينما في نظام البيانات الأساسي ، جميع البيانات موجودة بالفعل في النظام ويمكن استخدامها في أي وقت دون التحضير الأولي. على سبيل المثال ، يتم جمع البيانات من المواد المستنفدة للأوزون ومعالجتها بسرعة و "ثملها" في مهمة محددة وإرسالها إلى المستخدم النهائي. إذا أظهر الاستخدام المباشر أن الوظيفة صحيحة وقابلة للتطبيق في المستقبل ، يتم إطلاق العملية الكاملة ، حيث يتم إنشاء التحويلات المستهدفة ، ويتم إعداد حافظات البيانات أو إثرائها ، ويتم تنشيط طبقة واجهة المتجر وإنشاء تقارير تفاعلية أو تنزيلات تفاعلية كاملة.

لا يزال المشروع قيد التنفيذ ، ومع ذلك ، يمكننا ملاحظة عدد من الإنجازات وتحقيق نتائج وسيطة:

  1. :

    • , ;
    • LDAP ;
    • : 35 HDFS, 15 (50 . ) ;
    • HDFS «» Big Data;
    • (PDS) Hadoop .
  2. Hadoop;
  3. open-source , .. Hadoop Spark, ( , ) . , ;
  4. «» , ;
  5. Datagram , ETL- .


— , - Big Data Solutions «»

All Articles