石化产品中数据驱动的功能

创建任何业务时,其每个部门都会自动实现自动化。通常,它们之间的端到端数据流是单个的。这就导致了一个事实,即数据无法相互比较,因为每个部门都以自己的方式考虑它们。没问题,如果您收集整个公司的一些指标,但是在计算端到端指标,预测或解决建模和优化问题时,混乱就开始了。

数据仓库(DWH)并不是一个新故事。传统上,它们已用于报告。但是基于DWH数据的端到端业务流程的全面建模和预测是相对较早开始的。使用收集的数据,现代分析工具不仅可以制作带有下拉窗口的仪表板,而且可以为每个属性设置预测和优化算法,从而扩展整个企业的博弈论算法。并且还建立并立即测试有关在真实数据上业务进一步发展的假设。



似乎一切听起来都很不错。但是,并非所有公司都急于从领先专家(Booking.com,Amazon.com)中树立榜样,并继续照常工作。那么阻止他们的是什么?至少要了解对数据处理工具进行大规模投资的可行性,实施数据描述过程的艰辛性,新角色的出现(负责数据质量的数据负责人,数据工程师和架构师等)的知识,学习如何考虑实施数据管理的经济影响,明确隔离成本驱动因素,如何使办公室自我维持,与公司战略保持一致并选择能够推动公司发展的策略,等等。

我叫Victoria Krasnova,我是SIBUR企业数据管理部门的负责人。我们将与我的同事,数据治理团队的负责人Rinat Abdurakhmanov一起告诉您我们如何做到这一点。

当大型零售商(Wallmart)开始数字化时,他们必须弄清一个业务流程留下了哪些数字足迹和人工制品,以及下一个业务流程作为输入。也就是说,描述端到端的业务流程。任何其他公司的数字化都需要这样做。满足此请求的一种方法是数据管理和数据体系结构的概念。

从应用的意义上讲,这意味着:在一个地方收集最重要但不是很重要的公司数据,以一种清晰的语言对其进行描述,链接到业务流程并创建用户友好的方法来访问这些数据。

数据体系结构以及其他功能为“在哪里考虑?”,“在考虑什么?”,“为什么在考虑?”,“谁对质量负责?”等问题提供了明确的答案。和“它位于哪里,它在哪个系统中?”。

将这些问题的答案与业务本身分开是很重要的。它经常以这种方式发生:分析师想要检验假设。为此,他需要去询问所有者的必要数据,证明为什么以及为什么这是必要和重要的,花半天时间。最佳情况。最终遭到拒绝。为什么?由于数据所有者负责提供对数据的访问及其后续分发,因为尚不清楚分析师将如何解释数据,并且可能不适合他等。

因此,有必要建立一种直观的结构和逻辑,并按照统一的规则工作,并且不会分散分析人员本人或数据所有者的注意力。

出于这些目的,逻辑数据模型非常出色-与灵活的角色模型结合使用以业务语言描述的数据,详细描述了技术细节。在这种情况下,分析人员可以根据其在公司中的角色来访问存储库和数据集。而且他是根据常识收集所需的数据集,而不是在2005年知道某位同志在公司工作时知道的,而该同志的文件中包含了所需的数据。

这种结构化方法使人们可以快速分析,使数据具有可比性,从而实现次要利益-分阶段将整个业务数字化。

我们面临的挑战是什么


在SIBUR中,一些流程已很好地数字化,例如,为营销,财务,供应链管理,生产数据和生产工厂旁路准备数据。其他所有事情都更加困难,因为SIBUR是一个循环生产的产品,从业务的角度来看,它不需要以与零售,电信或银行所需的速度相同的速度来收集信息。因此,也没有提出数据分析中的速度问题。但是困难-并不意味着不可能。今年,我们计划优化流程,使数据计算更加透明,提高决策的数据传输率,并在可能的所有阶段开始收集数字轨道。

为什么数字公司的决策高度准确,快速?因为如果数据突然被证明是错误的,那么它们几乎没有错误余地。在生产中,一切都是不同的-如果分析数据不准确,它不会停止,工厂也不会站起来。因此,与所有事物相反,数据体系结构是推动数字化生产的强大力量。数据管理是一个库,可让您简化整个公司的数据流。

最近,我们启动了处理数据描述的生产线。当我们在寻找一种工具来描述数据时,请存储并舒适地访问描述。如果用于描述的工具不方便,并且由于这个原因,我们将无法保持最新​​的编目,那么使用它就不再有意义。结果,存储库中的数据本身可能不相关。为什么我们需要根据过期日期已过期的数据来构建某些内容?

在这里,我们还有另一个任务:如何激励与现有信息系统一起的架构师,描述数据并保持最新。 “您构建,运行”的原则在数字公司中很流行。我们从历史上开始实施它,以便有人引入它,但其他人则支持它。通常,文档不是最新的,并且某些算法只存在于旧人们的脑海中。因此,对系统的描述是非常耗时的工作,尤其是从头开始执行时(如本例所示)。实际上,实际上,只有在描述了关键数据量之后,这项工作的影响才会在更晚的时候显现出来。但是最后,当引入另一个新系统时,他们将不必寻找数据来为其提供动力。现在平均需要花费两周或更长时间来搜索这些数据。

不仅需要数据来引入新系统,还需要数据来检验假设。它们通常会大量出现,并且需要分批进行测试。实际上,事实证明,这里有数据,有很多,它们是多种多样的,但是在搜索上却花费了大量的时间和金钱。

在某一位置“无警告”更改数据时,另一点会导致另一位置的数据变得不正确。例如,指标“生产量”曾经用于考虑再分配阶段的损失,然后就停止了。他们更改了系统,但其余的都不是最新的,并继续像以前一样使用指示器。结果,用于做出管理决策的数据不正确。或在某个时候发现数据不可比,人们开始寻找错误。这也是劳动,只是看不见和无法估量的。

一般而言,如您所知,我们已经彻底面对了选择用于处理数据的工具的问题。在选择一种仪器之前,您需要为这种选择编写足够的标准。

仪器选择标准


我们正在寻找一种工具,该工具将以对象模型的形式支持元数据的描述,并能够独立添加新类型的对象。并非所有产品都提供此功能。例如,某些工具仅允许您将物理表显示为对象,但没有概念或逻辑实体的对象类。
对象之间的连接的灵活配置非常重要。例如,今天我们具有三个逻辑抽象级别,但是我们在删除或添加任何数量的级别的能力上应该受到限制。

另一个重要标准是存在到源系统(尤其是SAP)的内置连接器。我们有很多SAPa(原则上,我认为任何大公司都有很多SAPa)-庞大的安装,用手铲动它是完全不费力的任务。理想的话有一个。如果没有这样的连接器,则可以自己编写。

让我们不要忘记全文搜索,即语义搜索,它可以添加自己的同义词词典(例如,集成的Elasticsearch)。

反馈的可能性起着重要作用。此外,理想的应该有评论,在1-5星,与负责该实体或特定实体的属性的人直接沟通的原则评估,以及设置标志和标签,以提醒大家注意,以及将对象添加到收藏夹的可能性。

此外,它的好将具有与SAS DQ或其他任何可用于评估数据质量并显示特定实体的运行状况指数的工具的本机连接器,以便用户可以立即看到该数据是可信任的,因为它们是通过验证运行的。并对此提供您的反馈。

通常,您需要这样的东西:



这是为您提供的一个典型案例的示例:一个人看到您可以信任数据,仔细查看并发现错误,然后直接写信给所有者,要求他进行修复。事实证明,这样的数据健康展示。这种开放性和广泛的数据可用性逐渐减少了用户和所有者的不信任程度。甚至具有最基本数据访问权限的分析人员,都可以快速获取已验证的必要信息,与此同时,它不依赖提供此信息的数据所有者。双赢。

但是通常每个人都拥有Excel中的所有内容,这是一个大问题(当然,不是Excel本身,而是这种情况)。人们先对指标进行计数,然后在自己的平板电脑中对其进行更正,但总体系统没有任何变化。分析师不敢从公开的公司渠道中获取一些数据,去找同事索要文件更容易。这是很难解决的。实际上,成功实施数据办公室的标准可以被认为是创建环境的环境,在这种环境中,员工通常在决策时依赖分析结果,并且更喜欢工具中的SQL和Python。

另外,值得一提的是保持“商业秘密”,“公共数据”,“个人数据”,“有限分发的企业数据”数据的当前状态。也就是说,对于数据分析师来说,重要的是要知道他当前正在浏览和卸载的内容,或者是让他的同事看到的内容。

毕竟,当普通人转向有关商业秘密和机密信息的立法时,他会看到有关可能危害公司的一般信息。在很多情况下,他们通常将包含数字(突然是某些数字)的所有内容视为重要数据。因此,当被要求提供数据进行分析时,所有者开始问自己:“这是商业秘密吗?”,“申请人的行为会要求损害吗?”,而且,再保险后,它经常拒绝。毕竟,他对这些信息负责,并且不知道分析师将如何使用它。

还有另一种情况:当我们在为数据民主化项目处理机密信息列表时,事实证明,该列表包含所有者称为机密的数据,法律要求我们在官方网站上提供这些数据。并且,当然,它们在此处发布。就是说,在没有一种工具可以使所有人立即看到明确验证的信息的情况下,很多人都以“无论发生什么情况”的方式工作,并且重新投保了保险。

因此,这一切都与标准有关。但是从我们究竟选择了什么。

寻找解决方案


我们说“选择”是因为我们尚未选择,我们仍在寻找完美的工具。最初,我们从Collibra,SAS DG,Alation,Alteryx Connect和Informatica中进行选择。我们还浏览了国外的开源项目,但它们几乎立即就被它们扫除了,因为没人知道如何使用西里尔字母。

然后,Collibra经历了一次失败的经历。我们几乎完成了交易,但是失败了-我们不同意条件。在短期内,它们将完全迁移到云中,对于任何俄罗斯公司来说,这都是不可行的选择。实际上,他们不会提供产品,而是提供服务:Collibra提供订阅,我们提供数据。正式地,这不是商业秘密,而是元数据,但实际上,如果出现问题,业务将完全瘫痪。

经过这个故事,我们意识到我们会选择很长一段时间的盒子:我们的过程很长,我们仔细地处理交易,条件和承包商,我们会多次检查所有内容以确保风险最小。了解了所有这些功能后,我们开始进行自己的开发,以便至少为用户提供一个临时解决方案。毕竟,数据正在涌入,没有描述就无法使用它!同时,我们仔细研究了Alation和Alteryx Connect,并将它们的功能和成本与我们的解决方案进行了比较。

我们自己发明了逻辑存储模型,对于我们来说,这比其他行业要复杂得多。例如,对于银行和电信业,存在参考数据体系结构—关于如何分解数据以及如何分解数据的公认结构和建议。对于石化产品,公共领域没有完整的创意借阅来源。仅花了一年时间就了解了整个业务的运作方式。 SIBUR具有复杂的生产,大量的术语,流程和业务,这反映在系统中,这意味着需要进行分析。

在这里,这帮助了我们所谓的知识密集型领导。例如,在其他行业中,经理和经理往往并不精通该行业本身。发生这种情况,从原则上讲,这并不是直接可怕的事情,最后,他们的业务是管理项目,事实证明,每个新经理的链接通常比上一个知道的少。但是事实证明,例如,管理人员是能够在您的手指上向您解释丁二烯在其整个生命过程中可能发生的所有过程的人。

因此,关于决定。创造性的搜索需要花费一年,两年或几条生命。因此,搜索很好,但是您现在需要进行一些工作。

因此,我们进行了自己的开发,称为dg_light。前端的开发花了四个星期的时间(说实话,不是从零开始,我们重用了最近从生产线下线的分时度假分析工具的成果)。

项目组成:

  • 后端:Docker,Node.js,NGINX,Crossbar.io
  • 前端:React,Redux,Material UI,Highcharts,Autobahn.js
  • 数据存储:PostgreSQL
  • 通讯协定:WAMP,WebSocket,HTTP(S)
  • 作业系统:CentOS 7

存储设施的结构和方法是从数据架构师那里输入的。为了研究前端设计,他们安排了许多成熟度不同的分析师,并问:“您希望它如何?” 实际上,他们为自己画画。

所有开发过程都花了6周的时间。

一个合理的问题,当购买工业产品时,我们将如何处理决定?最初计划将两种解决方案并行使用:在“大型” DG中,将有数据模型,词汇表,角色模型,而dg_light将留下复杂的芯片,这些芯片不容易在盒装解决方案(如数据沿袭)中实现。未来将发生的事情将展示使用经验。

资料模型


物理学。这一切都始于建立仓库数据模型。我们就如何构建详细的存储层争论了很长时间,并决定不将一个现成的概念投入工作,而是将Data Vault 2.0和Anchor(6NF)结合在一起。同样,由于我们拥有的数据源非常不同。一方面,这是SAP,在深度上是OLAP,在OLTP处,并且业务逻辑遵循自己的法律并要求最大的细节。另一方面,他们过着制造过程控制系统(MES)的多变生活,在该过程中,数据流和键值历史一直在流逝。

集线器,卫星,DV2.0中的链接以及Ankor的最大粒度的结合使所有这些都可以整合到一个地方。是的,在这样的系统中手动编写查询会很困难,但是其所有内容都是正确的。即使周围的一切突然开始改变或崩溃,我们也可以保证系统的完整性。

逻辑学。在物理层面解决了架构组织的问题之后,我们继续进行逻辑描述。我们与同事的讨论进入了一个哲学的层面,试图为我们自己确定什么是本质以及它们如何相互联系。争论了一会后,他们转向DAMA-DMBOK,从中取出定义并将其应用于上下文。结果,事实证明实体是我们在SIBUR框架内与之合作的名词,具有完整的商业价值并回答了许多问题。关于是否在实体中包含汇总和报告,仍存在争议。每个建筑师都有自己的见解,自己的计算,现在我们正在尝试将我们的思想带入一个共同的分母。这是我们必须解决的任务之一,包括我们正在寻找团队的人。

但是逻辑模型不是全部。此外,在此基础上,我们还建立了管理层需要了解的所有概念模型。它们的逻辑模型过于详细,因此我们将所有内容归为数据域,这些数据域非常适合公司中所描述的业务流程。现在,我们正在尝试与流程办公室进行协商,以便将每个这样的逻辑实体分组绑定到ARIS中的流程。

更进一步,我们进入了更广的范围甚至更高的层次:我们创建了一个逻辑数据模型,我们在其中输入每个系统的逻辑实体,同时指示源系统并指出系统之间的关系。

我们将这些知识导出到Sparx Enterprise Architect中的公司架构师,他们需要它来将实体绑定到集成流和接口。
这样的数据体系结构组织将帮助计划将来进行影响分析的人员,从而有可能建立完整的数据沿袭。总的来说,我们希望该解决方案不仅会被各行各业的架构师使用,还将被业务部门中的分析人员,数据科学家以及与分析有某种联系的每个人使用。

现在,我们面临着更加艰巨的任务-如何教员工如何使用所有这一切。

人与数据


我们的全球计划是使SIBUR成为数据驱动的公司,而绝对任何员工都可以分析某些东西。我们将总体策略分为三个部分-关于人员,关于流程和关于工具。也许有人会说,有了这些工具,他们就决定了问题,并用数据搭建了平台。现在我们需要人们开始使用它。

主要特点是员工的心态。他们在危险的石油化学工业中工作,在那里为每个被采血的人都写安全。而且人们都经过严格遵守指令的培训,字面上的字样确实印在了皮层下。这种状态与分析人员的自由思想完全相反。

我们从小做起:逐渐让员工断断续续地在几乎任何重要的场合进行演示,然后将其转移到仪表板。由于公司中的人员是负责任和高管的,因此他们尝试进行现成的演示,并以交互方式进行绘制。但是仪表板是根据不同的法律生活的,对于一个人而言,这是完全不同的人工成本水平,因此有必要加载数据的整个历史并进行验证。数据将自动计算和不被处理-除非您最初进行了正确的设置,否则您不会动手修改数据。

实际上,内部流程的所有自动化都以一堆Excel +邮件结束。用Excel移植人几乎是不可能的任务。好吧,对,为什么我们需要Python和SQL,因为在Excel中您可以做所有事情!而且很难解决。


在SIBUR的早期版本的数据管理系统中,存在着这样的情况:信息档案的所有者-允许访问数据并知道哪个数字正确的员工。这种方法造成了我上面提到的障碍。为了打破它们,我们利用了Gartner的“最佳实践”,并分别确定了数据管理员和数据质量官。

数据策展人是该部门主管一级的经理,负责确定他可以用来访问数据的规则。数据质量官直接处理信息本身,并知道哪个数字正确。现在,我们正在努力确保每个人都有一个负责质量的人,如果有错误或不准确,他们将响应同事的要求。我们已经将数据分为公司内每个人可以使用的信息,特定单位内可以使用的信息以及代表商业秘密的信息。

如果有经理想要关闭特定数据,我们将进行穿梭谈判,并解释信息的关闭将如何直接或间接影响其他部门。因此,对公司内部开放数据的百分比进行了彻底的修订。按照西布尔的标准,这是一次真正的革命。

结论


我们有一个现成的工具,但是到目前为止,很少有人可以使用它。并且我们教育他们。在我们建立了粉丝培训流程之后,这一过程明显加快了,我们培训的每位员工都承担了以下培训的责任。我们采取的方式是培训自己的员工,而不是雇用分析人员,因为在我们的案例中,比起出色的分析人员,他们更容易教给SQL和Python宏这些神仙来解释热解及其功能。并同时看他们的脸。

我们如何吸引人并激发学习动机是一个值得单独撰写的故事。

除了对内部分析师进行培训之外,我们还在寻找架构师,他们是数据管理方面的专家。这不仅是俄罗斯的新方向,也是整个世界的新方向,人们继续在其中解释数据架构的概念。有关业务分析,系统分析和公司架构的故事可以理解。

在SIBUR,我们将数据体系结构定义为一门学科,即系统部分与业务相关的数据库和流程的交汇处。一个人必须了解他所工作的组织是如何安排的,以及流程如何在不同的系统中保留有关其自身的数据。以及如何连接第一个和第二个。

All Articles