Plataforma de datos para informes regulatorios

La formación de informes regulatorios bancarios es un proceso complejo con altos requisitos de precisión, fiabilidad y profundidad de la información divulgada. Tradicionalmente, las organizaciones utilizan los sistemas clásicos de almacenamiento y procesamiento de datos para automatizar los informes. Al mismo tiempo, el número de tareas crece activamente cada año, donde se requiere no solo realizar un análisis de una gran cantidad de datos heterogéneos, sino también hacerlo a la velocidad requerida por el negocio.

La combinación de estos factores ha llevado a un cambio en los procesos de gestión de datos. Data Platform es un enfoque que ofrece un replanteamiento del concepto tradicional de almacén de datos clásico (QCD) utilizando tecnologías Big Data y nuevos enfoques utilizados en la construcción de plataformas Data Lake. La Plataforma de datos le permite tener en cuenta cualitativamente factores tan importantes como el crecimiento en el número de usuarios, los requisitos para el cliente time2 (para proporcionar la posibilidad de una alta velocidad de implementación de los cambios), así como el costo de la solución resultante, incluso teniendo en cuenta su mayor escala y desarrollo.

En particular, proponemos considerar la experiencia de la automatización de la presentación de informes bajo RAS, la declaración de impuestos y la presentación de informes en Rosfinmonitoring en el Centro Nacional de Compensación (en adelante, NCC).
La elección de la arquitectura que le permite implementar la solución, teniendo en cuenta los siguientes requisitos, fue extremadamente cuidadosa. A la competencia asistieron tanto soluciones clásicas como varias soluciones bigdat, en Hortonworks y Oracle Appliance.

Los principales requisitos para la solución fueron:

  • Automatizar la construcción de informes regulatorios;
  • A veces aumenta la velocidad de la recopilación y el procesamiento de datos, la construcción de informes finales (requisitos directos al momento de generar todos los informes del día);
  • Para descargar el ABS retirando los procesos de informes más allá del libro mayor;
  • Elija la mejor solución desde el punto de vista del precio;
  • , , ;
  • , .

Se tomó una decisión a favor de presentar el producto Neoflex Reporting Big Data Edition basado en la plataforma de código abierto Hadoop Hortonworks.



El DBMS de los sistemas fuente es Oracle, también las fuentes son archivos planos de varios formatos e imágenes (para fines de monitoreo de impuestos), la información individual se descarga a través de la API REST. Por lo tanto, aparece la tarea de trabajar con datos estructurados y no estructurados.

Consideremos con más detalle las áreas de almacenamiento del clúster Hadoop:

Operation Data Store (ODS): los datos se almacenan "tal cual" del sistema fuente en la misma forma y formato definidos por el sistema fuente. Para almacenar el historial de varias entidades necesarias, se implementa una capa adicional de datos de archivo (ADS).

CDC (Change Data Capture): por qué abandonó la captura delta
, , . Hadoop .

( ) :

  • append-only , , , , ;
  • , , , .. , ;
  • , «» ;
  • CDC- «» , «» «».

, , :

  • ODS, AS IS. , , Hadoop , ;
  • ODS , ();
  • PDS «1 1 » PDS.


Portfolio Data Store (PDS) es un área en la que los datos críticos se preparan y almacenan en un formato centralizado unificado, que está sujeto a mayores demandas de calidad no solo de datos, sino también de la estructura de la sintaxis y la semántica. Por ejemplo, los datos incluyen registros de clientes, transacciones, balances, etc.

Los procesos ETL se desarrollan usando Spark SQL usando Datagram. Pertenece a la clase de soluciones: "aceleradores", y le permite simplificar el proceso de desarrollo a través del diseño visual y la descripción de las transformaciones de datos utilizando la sintaxis SQL habitual, y, a su vez, el código del trabajo en sí en el lenguaje Scala se genera automáticamente. Por lo tanto, el nivel de complejidad de desarrollo es equivalente a desarrollar ETL en herramientas más tradicionales y familiares como Informatica e IBM InfoSphere DataStage. Por lo tanto, esto no requiere capacitación adicional de especialistas o participación de expertos con conocimientos especiales de tecnologías e idiomas de Big Data.

En la siguiente etapa, se calculan los formularios de informe. Los resultados del cálculo se colocan en las ventanas de Oracle DBMS, donde se crean informes interactivos sobre la base de Oracle Apex. A primera vista, puede parecer contradictorio utilizar Oracle comercial junto con tecnologías de Big Data de código abierto. Basado en los siguientes factores, se decidió usar Oracle y Apex específicamente:

  • Falta de una solución BI alternativa compatible con un DBMS de distribución gratuita y que cumpla con los requisitos de NCC Business en términos de creación de formularios impresos en pantalla / impresos de informes reglamentarios;
  • Usando Oracle para DWH involucrado como sistemas de origen para un clúster Hadoop;
  • Existencia de la plataforma flexible de informes Neoflex en Oracle, que tiene la mayoría de los informes reglamentarios y se integra fácilmente con la pila de tecnología Big Data.

La plataforma de datos almacena todos los datos de los sistemas de origen, a diferencia del clásico QCD, donde los datos se almacenan para resolver problemas específicos. Al mismo tiempo, solo se usan, describen, preparan y administran datos útiles y necesarios en la Plataforma de datos, es decir, si ciertos datos se usan de manera continua, se clasifican de acuerdo con una serie de signos y se colocan en segmentos separados, carteras en nuestro caso y se administran según las características de estas carteras. En QCD, por el contrario, todos los datos cargados en el sistema están preparados, independientemente de la necesidad de su uso posterior.

Por lo tanto, si es necesario expandirse a una nueva clase de tareas, QCD a menudo se enfrenta a un proyecto de implementación realmente nuevo con el T2C correspondiente, mientras que en la Plataforma de datos todos los datos ya están en el sistema y pueden usarse en cualquier momento sin preparación previa. Por ejemplo, los datos se recopilan de ODS, se procesan rápidamente, se "atornillan" a una tarea específica y se transmiten al usuario final. Si el uso directo ha demostrado que la funcionalidad es correcta y aplicable en el futuro, se inicia el proceso completo, en el que se construyen las transformaciones de destino, se preparan o enriquecen las carteras de datos, se activa la capa de escaparate y se crean informes interactivos completos o cargas.

El proyecto aún está en ejecución, sin embargo, podemos observar una serie de logros y obtener resultados intermedios:

  1. :

    • , ;
    • LDAP ;
    • : 35 HDFS, 15 (50 . ) ;
    • HDFS «» Big Data;
    • (PDS) Hadoop .
  2. Hadoop;
  3. open-source , .. Hadoop Spark, ( , ) . , ;
  4. «» , ;
  5. Datagram , ETL- .


— , - Big Data Solutions «»

All Articles