法规报告数据平台

银行监管报告的形成是一个复杂的过程,对准确性,可靠性,所披露信息的深度有很高的要求。传统上,组织使用经典的数据存储和处理系统来自动执行报告。同时,任务的数量每年都在积极增长,不仅需要对大量异构数据进行分析,而且还需要以业务所需的速度进行分析。

这些因素的结合导致了数据管理流程的变化。数据平台-一种使用大数据技术和用于构建Data Lake平台的新方法重新思考传统经典数据仓库(QCD)概念的方法。数据平台使您可以定性考虑重要因素,例如用户数量的增长,对time2customer的要求(以提供实现变更的高速执行的可能性)以及最终解决方案的成本,包括考虑其进一步的扩展和开发。

特别是,我们建议考虑在RAS下自动进行报告,在国家清算中心(以下简称NCC)的Rosfinmonitoring中进行税收报告和报告的经验。
在考虑以下要求的基础上,选择允许您实施该解决方案的体系结构非常谨慎。在Hortonworks和Oracle Appliance上,经典解决方案和几个bigdat解决方案都参加了比赛。

解决方案的主要要求是:

  • 自动化监管报告的构建;
  • 有时会提高数据收集和处理的速度,构建最终报告(构建当天所有报告时的直接要求);
  • 通过撤回总账之外的报告流程来卸载获取和惠益分享;
  • 从价格角度选择最佳解决方案;
  • , , ;
  • , .

决定支持引入基于开源Hadoop Hortonworks平台的Neoflex Reporting Big Data Edition产品。



源系统的DBMS是Oracle,源也是各种格式和图像的平面文件(用于税收监控),通过REST API下载单个信息。因此,出现了同时使用结构化和非结构化数据的任务。

让我们更详细地考虑Hadoop群集的存储区域:

操作数据存储(ODS)-数据以与源系统确定的格式和格式相同的形式按原样存储在源系统中。为了存储许多必要实体的历史记录,实现了一个附加的归档数据层(ADS)。

CDC(更改数据捕获)-为什么放弃增量捕获
, , . Hadoop .

( ) :

  • append-only , , , , ;
  • , , , .. , ;
  • , «» ;
  • CDC- «» , «» «».

, , :

  • ODS, AS IS. , , Hadoop , ;
  • ODS , ();
  • PDS «1 1 » PDS.


组合数据存储(PDS)是一个关键数据以统一的集中式格式准备和存储的领域,不仅对数据质量,而且对语法和语义结构的要求也越来越高。例如,数据包括客户登记,交易,资产负债表等。

ETL流程是使用Spark SQL和Datagram开发的。它属于解决方案类别-“加速器”,使您可以通过可视化设计和使用常规SQL语法对数据转换的描述来简化开发过程,进而自动生成Scala语言中的工作代码。因此,开发复杂性的级别等同于在更传统和熟悉的工具(例如Informatica和IBM InfoSphere DataStage)上开发ETL。因此,这不需要额外的专家培训或具有大数据技术和语言特殊知识的专家参与。

在下一阶段,将计算报告表格。计算结果放置在Oracle DBMS的窗口中,在该窗口中,基于Oracle Apex构建交互式报表。乍一看,将商业Oracle与开源大数据技术一起使用似乎是违反直觉的。基于以下因素,决定专门使用Oracle和Apex:

  • 缺乏与自由分发的DBMS兼容并满足NCC业务在构建屏幕/印刷形式的监管报告方面的替代BI解决方案;
  • 使用Oracle for DWH作为Hadoop集群的源系统;
  • Oracle上灵活的Neoflex报告平台的存在,该平台具有大多数法规报告,并且可以轻松地与大数据技术堆栈集成。

数据平台存储源系统中的所有数据,这与传统的QCD不同,传统的QCD中存储数据用于解决特定问题。同时,仅在数据平台中使用,描述,准备和管理有用的必要数据,即,如果持续使用某些数据,则将根据多个标志对其进行分类,并将其放置在单独的细分市场中(在我们的情况下为投资组合),并进行管理根据这些投资组合的特征。相反,在QCD中,准备上传到系统的所有数据,而无需进一步使用。

因此,如果有必要扩展到新的任务类别,则QCD通常会面对带有相应的T2C的实际新的实施项目,而在数据平台中,所有数据都已经在系统中并且可以在不进行任何准备的情况下随时使用。例如,数据是从ODS收集,快速处理,“拧入”到特定任务并传输给最终用户的。如果直接使用表明该功能是正确的并且将来可以使用,则将启动整个过程,在此过程中构建目标转换,准备或丰富数据组合,激活店面层并构建完整的交互式报告或下载。

该项目仍在实施中,但是,我们可以注意到一些成就并取得了中间成果:

  1. :

    • , ;
    • LDAP ;
    • : 35 HDFS, 15 (50 . ) ;
    • HDFS «» Big Data;
    • (PDS) Hadoop .
  2. Hadoop;
  3. open-source , .. Hadoop Spark, ( , ) . , ;
  4. «» , ;
  5. Datagram , ETL- .


— , - Big Data Solutions «»

All Articles