Um olhar sobre as promissoras direções de desenvolvimento de sistemas de gerenciamento de dados geológicos, geofísicos e de campo

A pedido da Gazpromneft, em 2019, escreveu uma breve revisão de ensaio sobre o que os geólogos e geofísicos precisam lidar no gerenciamento de dados em geral. Talvez seja interessante para um círculo mais amplo de leitores - publico aqui de acordo.

Na série The Big Bang Theory, a garçonete mais doce Penny pergunta ao físico teórico Leonard (para apoiar a conversa) sobre o que há de novo no mundo da física de partículas? E ele responde que, desde a descoberta do bóson de Higgs, ou seja, desde 1964, basicamente nada. A conversa não é colada :)



E no campo de bancos de dados e bancos de dados geológico-geofísicos e de produção (GGiP), tudo é sobre o mesmo chato. Como você pode ver na pesquisa da Deloitte Digital, trabalhadores de petróleo, mineradores e grandes caminhoneiros estão longe de serem grandes explosões. Novos bancos de dados e armazenamentos são criados, mas quase sempre para garantir a funcionalidade de trabalhar com dados para um aplicativo específico. Os sistemas para organizar e armazenar dados criados de maneira direcionada para organizar e armazenar aguardam uma realidade dura. Eles abandonam um processo de negócios que gira em torno de sistemas de processamento, interpretação e modelagem de aplicativos. Nesse sentido, os dados continuam a se acumular nos bancos de dados de aplicativos, fluem por sistemas especializados e são convenientemente organizados em tabelas e pastas de arquivos do Excel, na melhor das hipóteses, corporativos e centralizados (se esse recurso for fornecido aos usuários).

A principal diretriz dos novos sistemas de armazenamento e organização de dados é, em nossa opinião, diferente da estrutura relacional. Historicamente, todas as tarefas de organização de dados eram resolvidas usando modelagem relacional devido à posição dominante das ferramentas relacionais no mercado. A situação mudou e a ineficiência do uso de tecnologias relacionais em muitos sistemas de arquivamento (escreva uma vez leia muitos) tornou-se aparente.

Se finalmente descartarmos as ilusões de um "anel onipotente", que as unirá para sempre, resta aceitar que esse conjunto de bancos de dados de aplicativos distribuídos geograficamente de vários tipos, sistemas de arquivos e tabelas - esse é o nosso banco de dados. Um banco de dados moderadamente distribuído, extremamente heterogêneo e pouco acoplado, com o qual precisamos aprender a trabalhar, porque é improvável que as características acima sejam alteradas na próxima década devido à natureza dos negócios. Como Neil McNotan, um dos poucos pesquisadores sistemáticos na área de gerenciamento de dados, disse: “O trabalho em projetos é limitado. Somos forçados a recortar os dados no projeto apenas pelo motivo de ainda não podermos trabalhar com todos os dados de uma vez ”(orçamento gratuito).

Portanto, abandonando as tentativas de sistematizar o processo de acumulação de dados globalmente (carregue tudo!) E abandonando o cuidado de sua remasterização, garantindo integridade, backup e proteção contra desastres naturais aos especialistas em DIT - só temos uma preocupação: acesso! Mas isso é uma preocupação significativa, porque o acesso não é apenas transferência e velocidade físicas, mas também delimitação e direitos, confiabilidade e um certo nível de qualidade, estruturação de informações, tanto preliminares quanto de acordo com a solicitação, etc.

Estamos envolvidos no acesso a dados com base em tecnologias de pesquisa, mas a pesquisa foi muito além do que costumávamos chamá-los. Toda a nossa interação com informações fora do local de trabalho ocorre de fato por meio de tecnologias de pesquisa internas. Vamos nos concentrar brevemente nas dificuldades de organizar o acesso transparente aos dados e as maneiras de superá-los:

Interfaces com um número significativo de sistemas.Mesmo que a interface seja somente leitura, a tarefa não é trivial. Os sistemas estão mudando tanto em termos de infraestrutura de TI quanto em modelos de dados (por exemplo, com novas versões). O controle de acesso em muitos sistemas é puramente individual. Consequentemente, um sistema que suporta interfaces persistentes, mesmo as mais simples, com um grande número de outros sistemas, precisa de suporte contínuo para essas interfaces. Custos e ciclo de desenvolvimento contínuo.

Interfaces push ou pull?Do ponto de vista da natureza das interfaces, é difícil confiar no fato de que sistemas de terceiros preparam e transmitem dados para o exterior (mesmo que os desenvolvedores o declarem) - isso não faz parte de suas responsabilidades funcionais. Consequentemente, principalmente as interfaces / agentes da plataforma da ferramenta de acesso serão responsáveis ​​pela recuperação de dados de sistemas de terceiros.

Multi-modelo.Cada um dos sistemas possui seu próprio modelo de dados, diferente dos outros. Você precisará suportar os dados de diferentes modelos, bem como suas generalizações ou metamodelos semânticos para diferentes requisitos de negócios, a fim de trabalhar com todos os dados como um todo. A GPN está realizando pesquisas ativamente no campo da modelagem semântica. Também é apropriado aqui falar sobre enriquecimento de dados, extração de entidades nomeadas e a aplicação ativa das abordagens realmente industriais do aprendizado de máquina. Eu também gostaria de mencionar o problema da apresentação estruturada de dados “multi-modelo” para o usuário. Apenas uma lista de documentos que nem pessoas nem algoritmos funcionarão. É difícil superestimar a importância de facetização cuidadosa, metamodelos e consultas de ponta a ponta.

Cache e índice reverso.A prática mostra que em um sistema que se tornou completamente dependente de outros sistemas para solicitações (e os sistemas clássicos de acesso ao portal geralmente são organizados), existem dois problemas significativos:

a. Desempenho - sistemas de terceiros processam solicitações com desempenho imprevisível, às vezes extremamente devagar.

b. Confiabilidade - com um grande número de sistemas conectados a qualquer momento, um ou mais deles necessariamente falharão e não poderão responder à solicitação.

A única maneira de derrotar essas doenças é a indexação profunda das informações e o trabalho eficaz com o índice.

Controle de acesso.O acesso aos dados deve ser diferenciado. Nem todos os sistemas de TI organizam o controle de acesso da mesma maneira. Nesse sentido, para alguns sistemas, é necessário armazenar ou restaurar e atualizar constantemente a comunicação de usuários internos com usuários e grupos do domínio corporativo.

Comunicação com o NSI. Qualidade.Ao conectar uma grande quantidade de dados de um grande número de sistemas, encontramos inevitavelmente problemas de determinação confiável da relevância e qualidade dos dados. Qualquer pré e pós-processamento de dados, incluindo ferramentas cognitivas que nos ajudarão a determinar de forma confiável a relevância e a qualidade dos dados recebidos em resposta a uma solicitação, está em demanda! Curiosamente, a qualidade é uma função do uso, e não o contrário. Dados de alta qualidade onde alguém os utiliza constantemente. O melhor banco de dados com os dados da mais alta qualidade que não são reclamados há 10 anos é repleto de muitas surpresas.

No processo de resolução de todos os problemas acima, descobrimos que, embora tenhamos relativamente poucos dados, o volume de indexação, processamento e análise é tão significativo que caímos com confiança no campo de sistemas altamente carregados e nas implementações industriais somos forçados a confiar em soluções industriais sérias.

Quero concluir este pequeno ensaio com um parágrafo preenchido com palavras-chave. Especialização em DevOps - seu desenvolvimento na empresa requer atenção especial. Essas pessoas, juntamente com as pessoas da especialização DataScience , são responsáveis ​​pelo futuro do trabalho com dados na empresa. JSON ainda é um script em árabe para os amantes da sintaxe SQL, mas parece ser necessário dominar. Pitão- o principal problema não é tanto a posse da sintaxe, como a disponibilidade de tempo e motivação para os especialistas em especialidades geológicas e geofísicas usá-la. Dos melhores, o COSS (software comercial de código aberto) é, obviamente, o Elasticsearch . E, como em qualquer OSS - deixe todo o tipo de ilusões sobre a solução pronta para uso do próprio fabricante.

Termine uma piada da mesma série:
- Olá! Eu vejo que você está ocupado?
- Oh sim! Matéria escura! O equilíbrio da gravidade e a mecânica quântica. Simetria de Fermi-Bose. Compreendi os maiores desafios da física de hoje!
"E então, você decidiu todos eles de uma só vez?"
- Não, só percebi que são as maiores tarefas.

All Articles