DataGovernance en el hogar

Hola Habr!

Los datos son el activo más valioso de la compañía. Esto lo afirman casi todas las empresas con un sesgo digital. Es difícil argumentar: sin discutir los enfoques para administrar, almacenar y procesar datos, no se está llevando a cabo una sola conferencia importante de TI ahora.

Los datos nos llegan desde el exterior, también se forman dentro de la empresa, y si hablamos de los datos de la empresa de telecomunicaciones, para los empleados internos es un depósito de información sobre el cliente, sus intereses, hábitos, ubicación. Con perfiles y segmentación competentes, las ofertas publicitarias se disparan de manera más eficiente. Sin embargo, en la práctica, no todo es tan color de rosa. Los datos almacenados por la empresa pueden estar irremediablemente desactualizados, redundantes, duplicados o nadie sabe acerca de su existencia, excepto por un pequeño círculo de usuarios. ¯ \ _ (ツ) _ / ¯


En una palabra, los datos deben administrarse de manera efectiva; solo en este caso se convertirán en un activo que traerá beneficios y beneficios reales para el negocio. Desafortunadamente, para resolver problemas de gestión de datos, se deben superar bastantes dificultades. Se deben principalmente al patrimonio histórico en forma de "zoológicos" de sistemas y a la falta de procesos y enfoques comunes para gestionarlos. Pero, ¿qué significa "administrar datos"?

De eso es de lo que hablaremos debajo del corte, así como de cómo la pila de código abierto nos ayudó.

El concepto de gestión estratégica de datos Data Governance (DG) ya es bien conocido en el mercado ruso, y los objetivos alcanzados por la empresa como resultado de su implementación son claros y claros. Nuestra empresa no fue la excepción y nos propusimos implementar el concepto de gestión de datos.

Entonces, ¿por dónde empezamos? Para empezar, hemos formado objetivos clave para nosotros mismos:

  1. Garantizar la disponibilidad de nuestros datos.
  2. Garantizar la transparencia del ciclo de vida de los datos.
  3. Proporcione a los usuarios de la empresa datos consistentes y consistentes.
  4. Proporcione a los usuarios de la empresa datos verificados.

Hasta la fecha, el mercado de software tiene una docena de herramientas de la clase DataGovernance.



Pero después de un análisis detallado y un estudio de las soluciones, nos arreglamos una serie de comentarios críticos:

  • La mayoría de los fabricantes ofrecen un conjunto integral de soluciones, que para nosotros es redundante y duplica la funcionalidad existente. Además, integración costosa en recursos en el panorama actual de TI.
  • La funcionalidad y la interfaz están destinadas a tecnólogos, no a usuarios finales.
  • Baja tasa de supervivencia de productos y falta de implementaciones exitosas en el mercado ruso.
  • Alto costo de software y mantenimiento adicional.

Los criterios y recomendaciones indicados anteriormente con respecto a la sustitución de importaciones de software para compañías rusas nos convencieron de avanzar hacia nuestro propio desarrollo en la pila de código abierto. Como plataforma, eligieron Django, un marco gratuito y gratuito escrito en Python. Y así, identificamos por nosotros mismos los módulos clave que contribuirán a los objetivos establecidos anteriormente:

  1. Registro de informes.
  2. -.
  3. .
  4. BI-.
  5. .




Según los resultados de la investigación interna en grandes empresas, que resuelven los problemas asociados con los datos, los empleados pasan del 40 al 80% del tiempo buscándolos. Por lo tanto, nos propusimos crear información abierta sobre informes existentes que anteriormente solo estaban disponibles para los clientes. Por lo tanto, reducimos el tiempo para la formación de nuevos informes y aseguramos la democratización de los datos.



El registro de informes se ha convertido en una única ventana de informes para usuarios internos de varias regiones, departamentos y divisiones. Consolida la información sobre los servicios de información creados en varias instalaciones de almacenamiento corporativo de la empresa, y hay muchos de ellos en Rostelecom.

Pero el registro no es solo una lista seca de informes desarrollados. Para cada informe, proporcionamos la información necesaria para que el usuario lo conozca de forma independiente:

  • ;
  • ;
  • ;
  • ;
  • ;
  • - ;
  • ;
  • ;
  • .

Según los informes, los análisis del nivel de usabilidad están disponibles, y los informes caen en la parte superior de la lista según el análisis de registros por el número de usuarios únicos. Y eso no es todo. Además de las características generales, también proporcionamos una descripción detallada de la composición de atributos de los informes con ejemplos de valores y métodos de cálculo. Estos detalles ya le dan al usuario una respuesta inmediata si el informe es útil para él o no.

El desarrollo de este módulo fue un paso importante en términos de democratización de datos y redujo significativamente el tiempo requerido para encontrar la información requerida. Además de reducir el tiempo de búsqueda, la cantidad de llamadas al equipo de soporte para recibir asesoramiento también ha disminuido. Es imposible no notar un resultado más útil que logramos al desarrollar un único registro de informes, evitando el desarrollo de informes duplicados para diferentes unidades estructurales.

Glosario de negocios


Todos saben que incluso dentro de la misma empresa, una empresa habla diferentes idiomas. Sí, usan los mismos términos, pero significan cosas completamente diferentes. El glosario empresarial está diseñado para resolver este problema.

Para nosotros, un glosario empresarial no es solo una guía con una descripción de términos y una metodología de cálculo. Este es un entorno completo para el desarrollo, coordinación y aprobación de la terminología, la construcción de la relación de términos con otros activos de información de la empresa. Antes de ingresar al glosario comercial, el término debe pasar por todas las etapas de coordinación con los clientes comerciales y un centro de calidad de datos. Solo después de eso estará disponible para su uso.

Como escribí anteriormente, la singularidad de esta herramienta es que le permite hacer conexiones desde el nivel del término comercial a los informes específicos de los usuarios en los que se utiliza, así como al nivel de los objetos físicos de la base de datos.



Esto fue posible mediante el uso de identificadores de términos del glosario en una descripción detallada de los informes de registro y una descripción de los objetos físicos de la base de datos.

Ahora en el Glosario se definen y acuerdan más de 4000 términos. Su uso simplifica y acelera el procesamiento de las solicitudes de cambio entrantes en los sistemas de información de la compañía. Si el indicador requerido ya se ha implementado en algún informe, el usuario verá inmediatamente un conjunto de informes listos para usar donde este indicador se ha utilizado, y podrá decidir sobre la reutilización efectiva de la funcionalidad existente o su mejora mínima sin iniciar nuevas solicitudes para el desarrollo de un nuevo informe.

Módulo de descripción de transformación técnica y línea de datos


Usted pregunta, ¿qué son estos módulos? No basta con implementar el Registro de informes y el Glosario, sino que aún necesita aterrizar todos los términos comerciales en el modelo de base de datos física. Por lo tanto, pudimos completar el proceso de formación del ciclo de vida de los datos desde los sistemas fuente hasta la visualización de BI a través de todas las capas del almacén de datos. En otras palabras, construya un DataLineage.

Desarrollamos una interfaz basada en el formato utilizado por la compañía para la descripción de las reglas y la lógica de transformación de datos. A través de la interfaz, se adquiere la misma información que antes, pero la determinación del identificador de término del glosario empresarial se convirtió en un requisito previo. Entonces construimos la conexión entre el negocio y las capas físicas.

¿Quién necesita esto? ¿Qué no se ajustaba al antiguo formato con el que trabajaron durante varios años? ¿Cuánto aumentaron los requisitos laborales para la formación de requisitos? Tuvimos que lidiar con estos problemas en el proceso de implementación de la herramienta. Aquí las respuestas son bastante simples: todos lo necesitamos, la oficina de datos de nuestra empresa y nuestros usuarios.

De hecho, los empleados tuvieron que ser reestructurados, al principio esto condujo a aumentos insignificantes en los costos de mano de obra para preparar la documentación, pero descubrimos este problema. La práctica, la identificación y la optimización de las áreas problemáticas han hecho su trabajo. Logramos lo principal: mejoramos la calidad de los requisitos desarrollados. Campos obligatorios, directorios unificados, máscaras de entrada, comprobaciones integradas: todo esto permitió mejorar significativamente la calidad de las descripciones de transformación. Dejamos la práctica de transferir scripts en forma de requisitos de desarrollo, conocimiento compartido que solo estaba disponible para el equipo de desarrollo. La base de datos de metadatos generada reduce el tiempo requerido para realizar análisis de regresión varias veces y proporciona la capacidad de evaluar rápidamente el impacto de los cambios en cualquier capa del panorama de TI (informes de escaparate, agregados, fuentes).

¿Y dónde están los usuarios de informes ordinarios, cuáles son las ventajas para ellos? Gracias a la capacidad de construir un DataLineage, nuestros usuarios, incluso aquellos que están lejos de SQL y otros lenguajes de programación, reciben rápidamente información sobre fuentes y objetos, sobre la base de la cual se genera este o aquel informe.

Módulo de control de calidad de datos


Todo lo que mencionamos anteriormente con respecto a la transparencia de datos no es importante sin entender que los datos que damos a los usuarios son correctos. Uno de los módulos importantes de nuestro concepto de Gobierno de datos es el módulo de control de calidad de datos.

En la etapa actual, este es un catálogo de verificaciones en entidades selectivas. El objetivo inmediato del desarrollo de productos es ampliar la lista de inspecciones e integrarlas con el registro de informes.
¿Qué dará y a quién? Para el usuario final del registro, la información estará disponible sobre las fechas planificadas y reales de la disponibilidad del informe, los resultados de las inspecciones completadas con dinámica e información sobre las fuentes cargadas al informe.

Para nosotros, el módulo de calidad de datos integrado en los procesos de trabajo es:

  • Rápida formación de las expectativas del cliente.
  • Tomar decisiones sobre el uso futuro de los datos.
  • Obtener un conjunto preliminar de puntos problemáticos en las etapas iniciales de trabajo para el desarrollo de controles de calidad regulares.

Por supuesto, estos son los primeros pasos para construir un proceso de gestión de datos completo. Pero estamos seguros de que solo haciendo este trabajo a propósito, introduciendo activamente las herramientas de DataGovernance en el flujo de trabajo, proporcionaremos a nuestros clientes información, un alto nivel de confianza en los datos, transparencia en la recepción y aumentará la velocidad de salida de la nueva funcionalidad.

Equipo de DataOffice

All Articles