Data Platform para relatórios regulatórios

A formação de relatórios regulatórios bancários é um processo complexo, com altos requisitos de precisão, confiabilidade e profundidade das informações divulgadas. Tradicionalmente, as organizações usam sistemas clássicos de armazenamento e processamento de dados para automatizar os relatórios. Ao mesmo tempo, o número de tarefas cresce rapidamente a cada ano, onde é necessário não apenas analisar grandes volumes de dados heterogêneos, mas também fazê-lo na velocidade exigida pelos negócios.

A combinação desses fatores levou a uma mudança nos processos de gerenciamento de dados. Data Platform é uma abordagem que oferece repensar o conceito tradicional de armazém clássico de dados (QCD) usando tecnologias de Big Data e novas abordagens usadas na construção de plataformas Data Lake. A Plataforma de Dados permite considerar qualitativamente fatores importantes como o crescimento no número de usuários, os requisitos para o time2customer (para fornecer a possibilidade de alta velocidade de implementação das mudanças), bem como o custo da solução resultante, incluindo o dimensionamento e desenvolvimento adicionais.

Em particular, propomos considerar a experiência de automação de relatórios sob RAS, relatórios fiscais e relatórios na Rosfinmonitoring no National Clearing Center (daqui em diante - NCC).
A escolha da arquitetura que permite implementar a solução, levando em consideração os seguintes requisitos, foi extremamente cuidadosa. A competição contou com a presença de soluções clássicas e várias soluções bigdat - na Hortonworks e na Oracle Appliance.

Os principais requisitos para a solução foram:

  • Automatizar a construção de relatórios regulatórios;
  • Às vezes, aumenta a velocidade da coleta e processamento de dados, a construção de relatórios finais (requisitos diretos no momento da criação de todos os relatórios para o dia);
  • Descarregar o ABS retirando os processos de geração de relatórios além da contabilidade;
  • Escolha a melhor solução do ponto de vista do preço;
  • , , ;
  • , .

Foi tomada uma decisão em favor da introdução do produto Neoflex Reporting Big Data Edition com base na plataforma Hadoop Hortonworks de código aberto.



O DBMS dos sistemas de origem é Oracle, também as fontes são arquivos simples de vários formatos e imagens (para fins de monitoramento tributário), as informações individuais são baixadas por meio da API REST. Assim, a tarefa de trabalhar com dados estruturados e não estruturados aparece.

Vamos considerar com mais detalhes as áreas de armazenamento do cluster Hadoop:

Operation Data Store (ODS) - os dados são armazenados "como estão" do sistema de origem na mesma forma e formato definidos pelo sistema de origem. Para armazenar o histórico de várias entidades necessárias, é implementada uma camada de dados de archive (ADS) adicional.

CDC (Change Data Capture) - por que abandonar a captura delta
, , . Hadoop .

( ) :

  • append-only , , , , ;
  • , , , .. , ;
  • , «» ;
  • CDC- «» , «» «».

, , :

  • ODS, AS IS. , , Hadoop , ;
  • ODS , ();
  • PDS «1 1 » PDS.


O PDS (Portfólio de Armazenamento de Dados) é uma área na qual os dados críticos são preparados e armazenados em um formato centralizado unificado, sujeito a demandas crescentes pela qualidade dos dados, não apenas dos dados, mas também da estrutura da sintaxe e da semântica. Por exemplo, os dados incluem registros de clientes, transações, balanços, etc.

Os processos de ETL são desenvolvidos usando o Spark SQL usando o datagrama. Pertence à classe de soluções - "aceleradores" e permite simplificar o processo de desenvolvimento através do design visual e descrição das transformações de dados usando a sintaxe SQL usual - e, por sua vez, o código do trabalho em si na linguagem Scala é gerado automaticamente. Portanto, o nível de complexidade do desenvolvimento é equivalente ao desenvolvimento de ETLs em ferramentas mais tradicionais e familiares, como Informatica e IBM InfoSphere DataStage. Portanto, isso não requer treinamento adicional de especialistas ou envolvimento de especialistas com conhecimentos especiais de tecnologias e idiomas de Big Data.

No próximo estágio, os formulários de relatório são calculados. Os resultados do cálculo são colocados nas janelas do Oracle DBMS, onde os relatórios interativos são criados com base no Oracle Apex. À primeira vista, pode parecer contra-intuitivo usar Oracle comercial junto com tecnologias de Big Data de código aberto. Com base nos seguintes fatores, foi decidido usar o Oracle e o Apex especificamente:

  • Ausência de uma solução de BI alternativa compatível com um SGBD de distribuição gratuita e que atenda aos requisitos dos negócios da NCC em termos de criação de formulários na tela / impressos de relatórios regulatórios;
  • Usando o Oracle para DWH envolvido como sistemas de origem para um cluster Hadoop;
  • Existência da plataforma flexível Neoflex Reporting na Oracle, que possui a maioria dos relatórios regulatórios e é facilmente integrada à pilha de tecnologia Big Data.

A plataforma de dados armazena todos os dados dos sistemas de origem, diferentemente do QCD clássico, onde os dados são armazenados para resolver problemas específicos. Ao mesmo tempo, apenas dados úteis e necessários são usados, descritos, preparados e gerenciados no Data Platform, ou seja, se determinados dados são usados ​​continuamente, eles são classificados de acordo com vários sinais e colocados em segmentos separados, portfólios no nosso caso e gerenciados de acordo com as características dessas carteiras. No QCD, pelo contrário, todos os dados enviados para o sistema são preparados, independentemente da necessidade de uso posterior.

Portanto, se for necessário expandir para uma nova classe de tarefas, o QCD frequentemente enfrenta um projeto de implementação realmente novo com o T2C correspondente, enquanto na Plataforma de Dados todos os dados já estão no sistema e podem ser usados ​​a qualquer momento sem preparação preliminar. Por exemplo, os dados são coletados do ODS, processados ​​rapidamente, "parafusados" em uma tarefa específica e transmitidos ao usuário final. Se o uso direto tiver mostrado que a funcionalidade está correta e aplicável no futuro, o processo completo será iniciado, no qual as transformações de destino são construídas, os portfólios de dados são preparados ou enriquecidos, a camada da loja é ativada e os relatórios ou uploads interativos completos são construídos.

O projeto ainda está em implementação, no entanto, podemos observar uma série de conquistas e obter resultados intermediários:

  1. :

    • , ;
    • LDAP ;
    • : 35 HDFS, 15 (50 . ) ;
    • HDFS «» Big Data;
    • (PDS) Hadoop .
  2. Hadoop;
  3. open-source , .. Hadoop Spark, ( , ) . , ;
  4. «» , ;
  5. Datagram , ETL- .


— , - Big Data Solutions «»

All Articles