AutoML既强大又强大

目前,也许没有一个人对信息技术感兴趣,却没有听说过机器学习,数据挖掘,决策支持系统是实现数字化转型方案的关键领域之一。

使用ML(机器学习)的业务场景涵盖业务的所有领域,并使用大多数类型的数据:表格,文本和音频,图像等。项目越来越多,专家的数量增长并不那么快。有一种想法认为,这些“昂贵”数据科学家的部分工作可以实现自动化。 AutoML来了。

对于AutoML,它们的含义不同。在SAP,我们相信这是数据科学常规操作的自动化。可能没有必要在本文中更详细地描述该定义,因为Aleksey Natekin 在这里已经做得很好

如果您观看视频没有任何欲望,那么这里有一些关于该主题的想法:

图片

在这个问题上有一个很好的例子。有一次,在DS小组中,我们讨论了一个实践案例–一个声称高级DS角色来采访的人,
他所能做的就是运行一种流行的AutoML工具。对于一个合理的问题,一个人如何拥有这样的知识才有资格晋升为高级职位,他的回答是无可挑剔的:“我把钱带入企业,这就是我的工具。”也就是说,在已经在店面中整齐地收集数据,生成域功能以及定义质量指标的情况下,使用AutoML可以使您快速启动新服务。是的,结果可能会比教授差。 DS,但很可能比6月好,在某些情况下,您可以立即使用它。

以下是社区中民众对此看法的更多示例(第一条评论是对Google的AutoML位居第二的新闻的讨论)。

图片

由于现在不存在高级元训练,因此可以使用大量资源。更准确地说,这在某些决策中或在准备就绪的非常早期是有目的的。也可以以原型形式找到它。其余的是对超参数或更有希望的方法的随机搜索:TPE,贝叶斯优化,NAS,RL。

为了可以比较AutoML解决方案和方法,出现了一个开放基准。商业解决方案由于非常简单的原因而不喜欢这种比较-公开对抗几乎是不可能的。除了准确性之外,还过于关注数据类型,嵌入和使用。要使模型本身占工作量的15%至20%(或更少),此外,还有大量其他工作-从转让到服务发布。

SAP占据了AutoML市场的地位。我们有几种具有不同成熟度的引擎。

SAP HANA上的SAP自动化掠夺性图书馆(在2013年收购KXEN之后历史上就出现了),进一步专门开发为可最快实施模型的工具。当没有大量(及时的)培训模型预算时,这很方便,但是足够高质量的结果很重要。实际上-考虑一下这是AutoGBDT的快速版本,现在已经有大多数人熟悉的python包装器,它看起来像这样(图1)。

图片
图片1。

SAP的SAP Data Intelligence中的AutoML解决方案的第二个分支出现在2019年12月。这是在熟悉的开源工具的基础上构建的方法,并通过我们自己的开发加以补充。这里设置了可能的计算时间,并在集群中选择了步骤,算法和超参数的最佳组合,其中最终管线看起来像这样(图2)。

图片
图2.

这是AutoML,它是SAP Data Intelligence平台的一部分,可以在云和本地环境中工作。此外,此处还显示了管理数据集,集成以及最重要的是SAP S / 4HANA中的标准集成机制以及生成接口和服务所需的一切。

如果考虑下一步,很显然,从业务的角度来看,数据应该充满与某些任务相关的注释。这些是域标志,是具有业务对象某些关系的最佳聚合形式,以及经过预训练的微神经网络-特征提取器。

如果您查看AutoML领域的竞赛和文章,则可以清楚地确定以下领域:

  1. AutoTable-表格数据
  2. AutoCV-图片和视频
  3. AutoNLP-文本
  4. AutoTS-时间序列
  5. AutoGraph-图形
  6. AutoSpeach-声音
  7. AutoAD-搜索异常

我想在AutoRL下也会有解决方案-进行增援训练。

目前,SAP致力于使用AutoML解决方案来处理表格数据,时间序列和异常。原因很简单,只能在每个业务领域中建立具有大量模型的智能企业。

好吧,当然,每个公司都有自己的详细信息,因此,如果标准模型(典型)不合适,则必须对其进行自定义。最简单的方法是使用不需要DS专家参与的工具。

总的来说,将来会有很多新奇有趣的事情在等待着我们

。SAP CIS高级业务解决方案架构师Dmitry Buslov发表。

All Articles