在家中的数据治理

哈Ha!

数据是公司最有价值的资产。几乎每个有数字偏见的公司都说过这一点。很难争辩:在不讨论管理,存储和处理数据的方法的情况下,现在没有举行任何大型IT会议。

数据是从外部传给我们的,它们也是在公司内部形成的,如果我们谈论电信公司的数据,那么对于内部员工而言,它是有关客户,他的兴趣,习惯,位置的信息的仓库。通过出色的性能分析和细分,广告可以最有效地进行拍摄。但是,实际上,并非所有事情都如此乐观。该公司存储的数据可能已经过时,冗余,重复,或者除了狭窄的用户圈子之外没人知道它的存在。 ¯\ _(ツ)_ /¯


简而言之,需要对数据进行有效的管理-只有在这种情况下,它们才能成为为企业带来实际利益和利润的资产。不幸的是,要解决数据管理问题,必须克服许多困难。它们主要是由于系统“动物园”形式的历史遗产,以及缺乏管理它们的通用流程和方法。但是“管理数据”是什么意思?

这就是我们将要讨论的内容,以及开源堆栈如何帮助我们。

战略数据管理数据治理(DG)的概念已在俄罗斯市场中广为人知,并且由于实施该业务而实现的目标很明确。我们公司也不例外,并为自己设定了实施数据管理概念的任务。

那么我们从哪里开始呢?首先,我们为自己制定了关键目标:

  1. 确保我们的数据的可用性。
  2. 确保数据生命周期的透明度。
  3. 为公司用户提供一致,一致的数据。
  4. 向公司用户提供经过验证的数据。

迄今为止,软件市场上有12种DataGovernance类工具。



但是,在对解决方案进行了详细的分析和研究之后,我们为自己修复了一些关键意见:

  • 大多数制造商提供了一套全面的解决方案,对我们而言,这些解决方案是多余的,并且重复了现有功能。此外,将资源昂贵的集成到当前的IT环境中。
  • 功能和界面仅供技术人员使用,而不是最终用户使用。
  • 产品生存率低,并且在俄罗斯市场缺乏成功的实施方法。
  • 高昂的软件成本和进一步的维护。

上面提到的有关俄罗斯公司的软件进口替代的标准和建议说服了我们致力于在开源堆栈上进行自己的开发。作为平台,他们选择了Django,这是一个用Python编写的免费框架。因此,我们为自己确定了有助于实现上述目标的关键模块:

  1. 报告登记册。
  2. -.
  3. .
  4. BI-.
  5. .




根据大公司内部研究的结果,为解决与数据相关的问题,员工花费40-80%的时间进行搜索。因此,我们将自己的任务设定为公开有关以前仅对客户可用的现有报告的信息。因此,我们减少了形成新报告的时间,并确保了数据的民主化。



报告注册已成为来自各个地区,部门,部门的内部用户的单个报告窗口。它整合了在公司的几个公司存储设施中创建的信息服务的信息,并且Rostelecom中有很多信息服务。

但是注册表不仅是已开发报告的干清单。对于每个报告,我们提供用户独立了解他所必需的信息:

  • ;
  • ;
  • ;
  • ;
  • ;
  • - ;
  • ;
  • ;
  • .

根据报告,可以使用可用性级别的分析,并且基于唯一用户数量的日志分析,报告位于列表的顶部。不仅如此。除了一般特征外,我们还提供了报告属性构成的详细说明,并提供了一些示例值和计算方法。这样的细节已经立即为用户提供了一个答案,即该报告是否对他有用。

在数据民主化方面,该模块的开发是重要的一步,大大减少了查找所需信息所需的时间。除了减少搜索时间外,致电支持团队寻求建议的次数也有所减少。不可能不注意到我们通过开发单个报告集获得的一个更有用的结果-防止针对不同结构单元开发重复的报告。

商业词汇


你们都知道,即​​使在同一家公司中,一家企业也会说不同的语言。是的,它们使用相同的术语,但含义完全不同。业务词汇表旨在解决此问题。

对于我们来说,业务术语表不仅是术语描述和计算方法的指南。这是术语开发,协调和批准,术语与公司其他信息资产之间关系的构建的成熟环境。在进入业务词汇表之前,该术语必须经过与业务客户和数据质量中心的所有协调阶段。只有在此之后,它才可以使用。

正如我在上面所写,该工具的独特之处在于它使您能够建立从业务术语级别到使用该术语的特定用户报告以及物理数据库对象级别的连接。



通过在注册表报告的详细描述和物理数据库对象的描述中使用术语表术语标识符,可以做到这一点。

现在,词汇表中已经定义并达成了4000多个术语。它的使用简化并加快了公司信息系统中传入变更请求的处理。如果在任何报告中都已经实现了所需的指标,那么用户将立即在使用该指标的地方看到一组现成的报告,并且能够决定是否有效使用现有功能或对其进行最小的改进,而无需发起新的请求来开发新的报告。

技术转换描述模块和数据沿袭


您问,这些模块是什么?仅实现报表注册表和词汇表还不够,您仍然需要将所有业务术语放在物理数据库模型上。因此,我们能够完成形成从数据源系统到BI可视化的整个数据生命周期的整个数据生命周期的过程。换句话说,构建一个DataLineage。

我们根据公司用于描述规则和数据转换逻辑的格式开发了一个接口。通过该界面,可以获得与以前相同的信息,但是从业务词汇表中确定术语标识符成为了先决条件。因此,我们在业务层和物理层之间建立了连接。

谁需要这个?是什么不适合他们使用多年的旧格式?劳动力需求增加了多少形成要求?在实施该工具的过程中,我们不得不处理此类问题。答案很简单-我们都需要它,包括公司数据办公室和用户。

确实,必须对员工进行重组,起初这导致准备文档的人工成本微不足道的增加,但是我们发现了这个问题。实践,确定和优化问题区域已完成工作。我们实现了主要目标-我们提高了已开发要求的质量。必填字段,统一目录,输入掩码,内置检查-所有这些都可以显着提高转换描述的质量。我们放弃了以开发需求的形式传输脚本的实践,共享知识仅对开发团队可用。生成的元数据数据库将进行回归分析所需的时间减少了数倍,并提供了快速评估更改对IT格局的任何层(店面报告,汇总,源)的影响的能力。

普通报表用户在哪里,对他们有什么好处?由于具有构建DataLineage的能力,我们的用户,甚至是那些远离SQL和其他编程语言的用户,都可以快速接收有关源和对象的信息,并以此为基础生成报告。

数据质量控制模块


在不了解我们提供给用户的数据正确无误的情况下,我们上面讨论的有关数据透明性的所有内容都不重要。数据治理概念的重要模块之一是数据质量控制模块。

在当前阶段,这是对选择性实体进行检查的目录。产品开发的近期目标是扩大检查清单并与报告注册表集成。
它会给什么,给谁?对于注册表的最终用户,将提供有关报告可用性的计划日期和实际日期,动态完成的检查结果以及上载到报告的来源的信息。

对于我们来说,集成到工作流程中的数据质量模块是:

  • 迅速形成客户期望。
  • 决定未来数据的使用。
  • 在工作的初始阶段获取一组初步的问题点,以开发常规质量控制。

当然,这些是构建完善的数据管理流程的第一步。但是我们确信,只有通过有目的地进行这项工作,并在工作流程中积极引入DataGovernance工具,我们才能为客户提供信息,对数据的高度信任,对数据的接收透明性并提高新功能的输出速度。

数据办公室团队

All Articles