DataGovernança em casa

Olá Habr!

Os dados são o ativo mais valioso da empresa. Isto é afirmado por quase todas as empresas com viés digital. É difícil argumentar: sem discutir as abordagens para gerenciar, armazenar e processar dados, nenhuma conferência principal de TI está ocorrendo agora.

Os dados nos chegam de fora, eles também são formados dentro da empresa e, se falarmos sobre os dados da empresa de telecomunicações, para os funcionários internos, é um depósito de informações sobre o cliente, seus interesses, hábitos, localização. Com perfis e segmentação competentes, as ofertas de publicidade são filmadas com mais eficiência. No entanto, na prática, nem tudo é tão otimista. Os dados armazenados pela empresa podem estar irremediavelmente desatualizados, redundantes, duplicados ou ninguém sabe sobre sua existência, exceto por um círculo restrito de usuários. ¯ \ _ (ツ) _ / ¯


Em uma palavra, os dados precisam ser gerenciados com eficiência - somente nesse caso eles se tornarão um ativo que trará benefícios e lucros reais aos negócios. Infelizmente, para resolver problemas de gerenciamento de dados, algumas dificuldades precisam ser superadas. Elas se devem principalmente ao patrimônio histórico na forma de "zoológicos" de sistemas e à falta de processos e abordagens comuns para gerenciá-los. Mas o que significa "gerenciar dados"?

É sobre isso que falaremos detalhadamente, e também como a pilha de código aberto nos ajudou.

O conceito de gerenciamento estratégico de dados Data Governance (DG) já é bem conhecido no mercado russo, e os objetivos alcançados pelas empresas como resultado de sua implementação são claros e claramente estabelecidos. Nossa empresa não foi exceção e nos propôs a tarefa de implementar o conceito de gerenciamento de dados.

Então, por onde começamos? Para começar, formamos objetivos principais para nós mesmos:

  1. Garanta a disponibilidade de nossos dados.
  2. Garanta a transparência do ciclo de vida dos dados.
  3. Forneça aos usuários da empresa dados consistentes e consistentes.
  4. Forneça aos usuários da empresa dados verificados.

Até o momento, o mercado de software possui uma dúzia de ferramentas da classe DataGovernance.



Mas, após uma análise detalhada e um estudo das soluções, corrigimos para nós mesmos uma série de comentários críticos:

  • A maioria dos fabricantes oferece um conjunto abrangente de soluções, que para nós é redundante e duplica a funcionalidade existente. Além disso, integração dispendiosa em recursos no cenário atual de TI.
  • A funcionalidade e a interface destinam-se a tecnólogos, não a usuários finais.
  • Baixa taxa de sobrevivência de produtos e falta de implementações bem-sucedidas no mercado russo.
  • Alto custo de software e manutenção adicional.

Os critérios e recomendações declarados acima sobre a substituição de importação de software para empresas russas nos convenceram a avançar em direção ao nosso próprio desenvolvimento na pilha de código-fonte aberto. Como plataforma, eles escolheram o Django, um framework livre e gratuito escrito em Python. E assim, identificamos por nós mesmos os principais módulos que contribuirão para os objetivos declarados acima:

  1. Registro de relatórios.
  2. -.
  3. .
  4. BI-.
  5. .




De acordo com os resultados de pesquisas internas em grandes empresas, resolvendo problemas associados aos dados, os funcionários passam de 40 a 80% do tempo procurando por eles. Portanto, nos propusemos a tarefa de disponibilizar informações abertas sobre relatórios existentes que anteriormente estavam disponíveis apenas para os clientes. Assim, reduzimos o tempo para a formação de novos relatórios e garantimos a democratização dos dados.



O registro de relatórios tornou-se uma única janela de relatório para usuários internos de várias regiões, departamentos e divisões. Consolida informações sobre serviços de informações criados em várias instalações corporativas de armazenamento da empresa, e existem muitas delas na Rostelecom.

Mas o registro não é apenas uma lista seca de relatórios desenvolvidos. Para cada relatório, fornecemos as informações necessárias para que o usuário o conheça independentemente:

  • ;
  • ;
  • ;
  • ;
  • ;
  • - ;
  • ;
  • ;
  • .

Segundo relatos, as análises do nível de usabilidade estão disponíveis e os relatórios entram no topo da lista com base nas análises de log pelo número de usuários únicos. E não é isso. Além das características gerais, também fornecemos uma descrição detalhada da composição de atributos dos relatórios com exemplos de valores e métodos de cálculo. Esse detalhamento já dá imediatamente ao usuário uma resposta se o relatório é útil para ele ou não.

O desenvolvimento deste módulo foi um passo importante em termos de democratização dos dados e reduziu significativamente o tempo necessário para encontrar as informações necessárias. Além de reduzir o tempo de pesquisa, o número de chamadas para a equipe de suporte para aconselhamento também diminuiu. É impossível não notar mais um resultado útil que alcançamos ao desenvolver um único registro de relatórios - impedindo o desenvolvimento de relatórios duplicados para diferentes unidades estruturais.

Glossário de Negócios


Todos vocês sabem que, mesmo dentro da mesma empresa, uma empresa fala idiomas diferentes. Sim, eles usam os mesmos termos, mas significam coisas completamente diferentes. O glossário comercial foi projetado para resolver esse problema.

Para nós, um glossário comercial não é apenas um guia com uma descrição dos termos e uma metodologia de cálculo. Este é um ambiente completo para o desenvolvimento, coordenação e aprovação de terminologia, a construção do relacionamento de termos com outros ativos de informação da empresa. Antes de entrar no glossário comercial, o termo deve passar por todos os estágios de coordenação com os clientes comerciais e um centro de qualidade de dados. Somente depois disso ele estará disponível para uso.

Como escrevi acima, a singularidade dessa ferramenta é que ela permite fazer conexões do nível do termo comercial aos relatórios de usuários específicos nos quais ele é usado, bem como ao nível dos objetos físicos do banco de dados.



Isso foi possível através do uso de identificadores de termos do glossário em uma descrição detalhada dos relatórios do registro e uma descrição dos objetos físicos do banco de dados.

Agora, no glossário, mais de 4000 termos são definidos e acordados. Seu uso simplifica e agiliza o processamento de solicitações de mudança recebidas nos sistemas de informação da empresa. Se o indicador necessário já tiver sido implementado em qualquer relatório, o usuário verá imediatamente um conjunto de relatórios prontos onde esse indicador foi usado e poderá decidir sobre a reutilização efetiva da funcionalidade existente ou sua melhoria mínima sem iniciar novas solicitações para o desenvolvimento de um novo relatório.

Módulo de descrição da transformação técnica e DataLineage


Você pergunta, quais são esses módulos? Não basta apenas implementar o Registro de Relatórios e o Glossário, você ainda precisa estabelecer todos os termos de negócios no modelo de banco de dados físico. Assim, conseguimos concluir o processo de formação do ciclo de vida dos dados, dos sistemas de origem à visualização de BI em todas as camadas do armazém de dados. Em outras palavras, crie um DataLineage.

Desenvolvemos uma interface baseada no formato usado pela empresa para a descrição das regras e lógica de transformação de dados. Por meio da interface, as mesmas informações são adquiridas como antes, mas a determinação do termo identificador no glossário comercial tornou-se um pré-requisito. Então, construímos a conexão entre as camadas física e de negócios.

Quem precisa disso? O que não se adequava ao formato antigo com o qual eles trabalhavam por vários anos? Quanto aumento das exigências de mão-de-obra para a formação de exigências? Tivemos que lidar com essas questões no processo de implementação da ferramenta. Aqui as respostas são bastante simples - todos precisamos, o escritório de dados da nossa empresa e nossos usuários.

De fato, os funcionários tiveram que ser reestruturados, a princípio isso levou a aumentos insignificantes nos custos de mão-de-obra para a preparação da documentação, mas resolvemos esse problema. Prática, identificação e otimização de áreas problemáticas fizeram seu trabalho. Conseguimos o principal - melhoramos a qualidade dos requisitos desenvolvidos. Campos obrigatórios, diretórios unificados, máscaras de entrada, verificações internas - tudo isso tornou possível melhorar significativamente a qualidade das descrições de transformação. Deixamos a prática de transferir scripts na forma de requisitos de desenvolvimento, conhecimento compartilhado que estava disponível apenas para a equipe de desenvolvimento. O banco de dados de metadados gerado reduz o tempo necessário para realizar uma análise de regressão várias vezes e fornece a capacidade de avaliar rapidamente o impacto das alterações em qualquer uma das camadas do cenário de TI (relatórios da loja, agregados, fontes).

E onde estão os usuários comuns de relatórios, quais são as vantagens para eles? Graças à capacidade de criar um DataLineage, nossos usuários, mesmo aqueles que estão longe do SQL e de outras linguagens de programação, recebem rapidamente informações sobre fontes e objetos, com base nos quais este ou aquele relatório é gerado.

Módulo de controle de qualidade de dados


Tudo o que falamos acima sobre transparência de dados não é importante sem entender que os dados que fornecemos aos usuários estão corretos. Um dos módulos importantes do nosso conceito de Governança de Dados é o módulo de controle de qualidade de dados.

No estágio atual, este é um catálogo de verificações para entidades seletivas. O objetivo imediato do desenvolvimento de produtos é expandir a lista de inspeções e integrar-se ao registro de relatórios.
O que vai dar e para quem? Para o usuário final do registro, as informações estarão disponíveis nas datas planejadas e reais da disponibilidade do relatório, nos resultados das inspeções concluídas com dinâmica e nas fontes carregadas no relatório.

Para nós, o módulo de qualidade de dados integrado aos processos de trabalho é:

  • Rápida formação de expectativas dos clientes.
  • Tomar decisões sobre o uso futuro dos dados.
  • Obter um conjunto preliminar de pontos problemáticos nos estágios iniciais do trabalho para o desenvolvimento de controles regulares de qualidade.

Obviamente, essas são as primeiras etapas na criação de um processo de gerenciamento de dados completo. Mas temos certeza de que somente ao fazer esse trabalho propositadamente, introduzindo ativamente as ferramentas DataGovernance no fluxo de trabalho, forneceremos aos nossos clientes informações, um alto nível de confiança nos dados, transparência no recebimento e aumentar a velocidade de saída de novas funcionalidades.

Equipe do DataOffice

All Articles