NVIDIA的Pavel Klemenkov:我们正在努力缩小数据科学家可以做的事情与他需要做的事情之间的差距。

数据科学和商业智能硕士课程的第二批学生开始学习-为了决定离开应用程序并通过在线测试变得更加容易,我们询问了该课程的老师对培训和使用数据有何期待。

图片 NVIDIA的首席数据科学家兼大数据与数据工程课程老师Pavel Klemenkov谈到了为什么数学家在Ozon Masters编写代码并学习两年。

-是否有许多使用数据科学算法的公司?


-其实很多。很多拥有真正大数据的大公司要么开始有效地与他们合作,要么已经工作了很长时间。很明显,一半的市场使用的数据可以放入Excel平板电脑,也可以在大型服务器上计数,但是不能说只有少数几家公司可以处理数据。

-告诉我一些有关使用数据科学的项目的信息。


-例如,在Rambler中工作时,我们制作了一个基于实时出价(Real Time Bidding)原理的广告系统-我们需要建立许多模型来优化广告购买,或者例如可以预测点击,转化等的可能性。同时,广告拍卖会生成大量数据:向潜在广告购买者发出的网站请求日志,广告展示日志,点击日志-这些每天的数据量达到数十TB。

此外,对于这些任务,我们观察到了一个有趣的现象:训练模型所提供的数据越多,其质量就越高。通常,对于一定数量的数据,预测质量会停止提高,并且为了进一步提高准确性,您需要使用根本不同的模型,采用不同的方法来准备数据,功能等。在这里,我们注入了更多数据,质量得到了提高。

这是典型的情况,首先,分析人员必须处理大量数据才能至少进行实验,而无法获得适合舒适Macbook的小样本。同时,我们需要分布式模型,因为否则无法训练它们。随着计算机视觉在生产中的引入,此类示例变得越来越普遍,因为图片是大量数据,并且需要数百万张图片来训练大型模型。

问题立即浮出水面:如何存储所有这些信息,如何有效地处理它们,如何使用分布式学习算法-裸数学的重点正在转向工程学。即使您不在生产中编写代码,也需要能够使用工程工具来进行实验。

-近年来,处理数据科学职位空缺的方法有何变化?


-大数据已经不再是炒作,而是变成了现实。硬盘很便宜,这意味着一般来说有机会收集所有数据,以便将来它们足以测试任何假设。结果,用于处理大数据的工具的知识变得非常普及,结果,数据工程师的工作机会越来越多。

以我的理解,数据科学家的工作结果不是实验,而是已经投入生产的产品。从这个角度来看,在大数据炒作出现之前,过程就比较简单:工程师从事机器学习以解决特定问题,并且将算法投入生产没有任何问题。

-保持受欢迎的专家需要什么?


-现在有许多人学习了数学,机器学习理论,并参加了提供现成基础设施的数据分析竞赛:数据已清除,指标已定义并且对解决方案的可重复性和快速性没有任何要求,他们已经学习了数学,机器学习理论。

结果,对业务现实准备不足的人开始工作,并且在初学者和经验丰富的开发人员之间形成了鸿沟。

随着工具的开发,使您可以从现成的模块组装自己的模型-微软,谷歌和许多其他公司已经有了此类解决方案-以及机器学习自动化,这种差距将变得更加明显。将来,该行业将需要认真的研究人员提出新的算法,以及具有高级工程技能的员工来实施模型和自动化流程。仅Ozon数据工程硕士课程侧重于开发工程技能以及对大数据使用分布式机器学习算法的能力。我们正在努力缩小数据科学家可以做的事情与他应该在实践中应该做的事情之间的差距。

-为什么持有文凭的数学可以去商业学习?


-俄罗斯数据科学界已经了解到,技能和经验很快就会转化为金钱,因此,只要有实践经验的专家,其成本就会开始迅速增长,最熟练的人员也非常昂贵-在当前的发展时刻这是事实市场。

数据科学家的大部分工作是进入数据,了解其中的内容,咨询负责业务流程的人员并生成此数据-然后才使用它们来构建模型。要开始使用大数据,拥有工程技能非常重要-规避数据科学中很多尖锐的角落要容易得多。

一个典型的故事:您编写了一个使用Hive框架执行的SQL查询,该框架在大数据上运行。在最坏的情况下,请求在十分钟内得到处理-一两个小时,通常,当您收到此数据的上载时,您意识到忘记了考虑某些因素或其他信息。您必须重新发送请求并等待这些分钟和小时。如果您是效率的天才,那么我们将承担另一项任务,但是,正如实践所示,我们几乎没有效率的天才,人们只是在等待。因此,在课程中,我们将花费大量时间来提高工作效率,以便最初编写查询,该查询的工作时间不是两小时,而是几分钟。该技能使生产力成倍增长,并因此提高了专家的价值。

-Ozon大师课程与其他课程有何不同?


-Ozon员工在Ozon Masters任教,而工作分配则基于公司解决的实际业务案例。实际上,除了缺乏工程技术外,在大学学习数据科学的人还有另一个问题:业务任务是用业务语言来制定的,其目标很简单:赚更多钱。数学家非常了解如何优化数学指标-但要找到与业务指标相关的指标很困难。您需要了解自己正在解决业务问题,制定可以在数学上与业务一起优化的指标。获得这种技能是以牺牲实际案例为代价的,Ozon给予了他们。
即使您放弃案件,学校也会教导许多解决实际公司业务问题的从业人员。结果,教学方法仍然更加实用。至少在我的课程中,我将尝试将重点转移到如何使用工具,现有方法等上。与学生一起,我们将了解每个任务都有其自己的工具,并且每个工具都具有适用性。

-当然,最著名的数据分析培训计划ShAD-到底有什么不同?


-很明显,除教育功能外,ShAD和Ozon大师还解决了本地培训问题。SHAD的顶级毕业生主要是被Yandex招募的,但要注意的是Yandex由于其特殊性-当它不是足够好的用于处理大数据的工具时就非常大-具有自己的基础结构和用于处理数据的工具,这意味着将不得不掌握它们。Ozon Masters传达了不同的信息-如果您已经成功掌握了该计划,并且Ozon或其他99%的公司之一邀请您工作,那么开始使该业务受益就容易得多;通过Ozon Masters获得的技能将足以开始工作。

-课程为期两年。为什么要花这么长时间?


- 好问题。长期以来,由于教师的内容和水平是不可或缺的硕士课程,因此需要大量时间进行掌握,包括作业。

从我的课程的角度来看,期望学生每周花2-3个小时来完成任务是很平常的事情。首先,任务是在培训集群上执行的,任何常见的集群都意味着几个人同时使用它。也就是说,您必须等待任务开始运行,才能选择一些资源并将其转移到更高优先级的队列。另一方面,任何使用大数据的工作都是耗时的。

, — , 25 12:00, Ozon Masters . c Zoom YouTube.

All Articles