展望地质,地球物理和野外数据管理系统的发展方向

应俄罗斯天然气工业股份公司(Gazpromneft)的要求,2019年写了一篇简短的文章,回顾了地质学家和地球物理学家在数据管理中必须处理的内容。也许这对于更广泛的读者群会很有趣-我在此发表。

在“大爆炸理论”系列中,最甜蜜的女服务生潘妮(Penny)向理论物理学家伦纳德(Leonard)询问粒子物理学世界中的新事物(以支持对话)。他回答说,自从发现希格斯玻色子以来,即从1964年左右开始,基本上什么都没有。对话未粘:)



在数据库和地质-地球物理与生产(GGiP)数据库领域,一切都差不多。从Deloitte Digital的研究中可以看出,石油工人,矿工和大型卡车司机远未爆炸。创建了新的数据库和存储,但是几乎总是要确保为特定应用程序处理数据的功能。用于组织和存储以目标方式创建的用于组织和存储的数据的系统正在等待严峻的现实。他们退出了围绕应用程序处理,解释和建模系统的业务流程。在这方面,数据继续累积在应用程序数据库中,在专用系统周围流动,并且方便地安排在Excel表和文件夹中,最好是公司和集中式(如果将这种资源提供给用户)。

我们认为,新数据存储和组织系统的主要指南与关系结构不同。历史上,由于关系工具在市场中的主导地位,所有数据组织任务都是使用关系模型解决的。情况已经改变,在许多归档(一次写入多次读取)系统中使用关系技术的效率低下变得很明显。

如果我们最终放弃一个“万能环”的幻象,它将永远团结在一起,那么我们仍然可以接受这套地理分布的各种类型的应用程序数据库,文件系统和表是我们的数据库。我们必须学习使用适度分布的,极其异构的,松散耦合的数据库,因为由于业务的性质,上述特征在未来十年内不太可能改变。正如数据管理领域为数不多的系统研究人员之一尼尔·麦克诺坦(Neil McNotan)所说:“项目工作非常有限。我们被迫将数据修剪到项目中的原因仅在于我们尚无法一次处理所有数据”(免费报价)。

因此,放弃尝试将全球范围内的数据累积过程系统化(上传所有内容!),而放弃了对它们进行重新制作的工作,从而确保了DIT专家的完整性,备份和免受自然灾害的侵害-我们只关心一个问题:访问!但这是一个重大问题,因为访问不仅是物理传输和速度,而且还是定界和权利,可靠性和一定质量的质量,初步的和符合要求的信息结构等。

我们从事基于搜索技术的数据访问,但是搜索早已超出了我们以前所说的范围。实际上,我们与工作场所外部信息的所有交互都是通过内置的搜索技术进行的。让我们简要地介绍一下组织透明访问数据的困难以及克服这些困难的方法:

与大量系统的接口。即使接口是只读的,任务也不是简单的。系统在IT基础架构和数据模型(例如,新版本)方面都在发生变化。许多系统中的访问控制纯粹是个别的。因此,支持持久的甚至是最简单的接口以及大量其他系统的系统也需要对这些接口的持续支持。成本和持续的开发周期。

推或拉接口?从接口的性质的角度来看,很难依靠第三方系统将数据准备并传输到外部(即使开发人员声明了数据)这一事实-这不是其功能职责的一部分。因此,访问工具平台的接口/代理主要负责从第三方系统检索数据。

多模型。每个系统都有自己的数据模型,与其他系统不同。您将需要支持不同模型的数据,以及它们针对不同业务需求的语义概括或元模型,以便整体上处理所有数据。 GPN正在语义建模领域积极进行研究。在这里还应该讨论数据丰富,命名实体的提取以及机器学习的实际工业方法的积极应用。我还想提到向用户进行“多模型”数据的结构化展示的问题。只是文档列表,无论是人还是算法都无法使用。周到的构面,元模型和端到端查询的重要性很难高估。

缓存和反向索引。实践证明,在一个系统,已经成为完全依赖于其他系统的请求(和经典门户访问系统经常组织),有两个显著的问题:

一。性能-第三方系统以不可预测的性能处理请求,有时速度非常慢。

b。可靠性-随时都有大量连接的系统,其中一个或多个系统必定会发生故障,无法响应请求。

克服这些疾病的唯一方法是对信息进行深度索引并有效地使用索引。

访问控制。必须区分对数据的访问。并非所有的IT系统都以相同的方式组织访问控制。在这方面,对于某些系统,必须存储或还原并不断更新内部用户与公司域的用户和组的通信。

与NSI通信。质量。当从大量系统中连接大量数据时,我们不可避免地会遇到可靠确定数据相关性和质量的问题。需要任何数据的预处理和后处理,包括有助于我们可靠地确定响应请求而接收到的数据的相关性和质量的认知工具!有趣的是,质量是使用的功能,而不是相反的方式。有人不断使用的高质量数据。十年来无人问津的具有最高质量数据的最佳数据库充满了许多惊喜。

在解决上述所有问题的过程中,我们发现尽管我们的数据相对较少,但索引,处理和分析的数量如此巨大,以至于我们有信心落入高负载系统领域,并且在工业实现中被迫依赖严重的工业解决方案。

我想用一段充满关键字的段落来完成这篇小文章。DevOps专业化-在公司中的发展需要特别关注。这些人员以及DataScience专业领域的人员,对未来在公司中使用数据负责。JSON仍然是SQL语法爱好者的阿拉伯语脚本,但似乎有必要掌握它。蟒蛇-主要问题不是拥有语法,而是地质和地球物理专业专家有足够的时间和动力来使用它。最好的当然是COSS(开源商业软件)是Elasticsearch与任何OSS一样-OSS制造商本身对开箱即用的解决方案有种种幻想。

完成来自同一系列的一个玩笑:
-您好!我看到你很忙吗?
- 哦耶!暗物质!引力和量子力学之间的平衡。费米-玻色对称性。我理解了当今物理的最大挑战!
“所以,你决定一口气把他们全部都搞定?”
-不,我只意识到它们是最艰巨的任务。

All Articles