数据搜索和分析的新模型。在Yandex.Tolki团队眼中的WSDM 2020

国际科学会议有助于监控行业趋势,了解领先公司,大学的先进发展并谈论自己。当然,这仅适用于世界没有陷入大流行的深渊的时候。

在所有国家切换到自我隔离之前,我们设法参加Yandex.Tolki团队参加的WSDM会议(发音为智慧)进行了众包教程,介绍我们的文章并与同事聊天。

我叫Alexei Drutsa,是Yandex众包和平台管理效率和开发部门的负责人。该公司从事与离散算法,拍卖理论,机器学习,数据分析和计算数学有关的理论和应用研究。在我的工作中,我发表了20多篇科学文章,包括在NIPS,KDD,WWW,WSDM,SIGIR和CIKM会议上发表的那些文章。在这篇文章中,我将介绍访问WSDM之后的印象,并简要概述最有趣的报告。


会议海报

什么样的会议?


WSDM是与数据挖掘和分析相关的主要研究会议之一。今年,她连续第13年获奖,并于2月3日至7日在得克萨斯州休斯顿举行。

一些统计。约有700人参加了会议。 615篇科学论文的作者提交了申请,以便能够在会议上发表论文。组织者选择了91篇文章,包括我们在收集众包数据方面的工作。在进行教程的20个应用程序中,WSDM组织者接受了9个应用程序,其中包括Yandex的应用程序。

会议的主要部分是海报会议。在所有此类科学活动中,这都是介绍工作的主要方式:被接受的文章的作者准备海报,其中包含有关研究的全面信息,并回答感兴趣的同事的问题( 有关格式的更多信息)。除了发布者会议外,参与者还可以通过三种格式讲述他们的成就:

  • 5分钟的进度报告(46位参与者获得了这次机会);
  • 进行了60秒钟的闪电交谈,简要介绍了报告的主要内容(此格式提供给45位参与者);
  • 演示,并演示工具的工作原理。

会议上发表的作品中有我们团队的一篇文章。它也涉及众包,但它讨论了通过验证码收集的众包数据的另一个来源。


我们的文章海报

使用验证码收集标记的方法早已为许多公司所熟知和使用。它的工作原理是:邀请可疑用户从两张图片中输入文字。第一张图片是一个对照图片,我们已经有了正确的答案。第二张图片包含我们未知的文本,我们只想在用户的帮助下对其解密。如果一个人从第一个(控制)图像输入正确的文本,那么我们认为它足够可靠,并写下第二个答案。

这是一种非常方便,可扩展且免费的标记方法。但是有一个问题:验证码通常提供给可疑用户,其中一些是机器人。使用此类机器人解密图片时,我们经常会遇到类似的一致错误。人们与机器人不同,很少写相同的字母。

通常,使用这种标记方法的公司会考虑大多数用户给出正确答案的答案。但是考虑到机器人产生类似错误的可能性很高,因此这种方案会导致数据不正确。

我们已经训练了ML模型,该模型通过验证码输入因素预测答案将是最正确的。文章的全部内容可以在这里找到

教程呢?


会议的第一天,我们举办了一个基于Yandex.Tolki实用教程。我的同事已经介绍了我们在哈布雷(Habré)上的服务,此处提供了详细说明。简而言之,Toloka是一个众包平台,可以帮助您完成许多任务。使用Toloka,您可以使用从机器学习中获得的数据解密录音,进行焦点小组讨论,进行温和评论或识别图片。

在关于WSDM的教程中,只有我们的教程全天进行。


教程之前

我们讨论了如何使用众包解决问题。为了使用这种组织工作流的方法有效地标记数据,您不仅需要给人们一个任务,而且需要正确地分解它,正确地制定任务并建立流程,例如质量控制。我们与会议参与者分享的一些信息可以在我们发布的视频课程中找到。其中,以众包的基本理论为例,解决了图像中对象的分割问题。


辅导课程

在会议中,我们专门提出了一个管道,其中包括分类,互联网上的数据收集,验收后和并排比较。它包括四个阶段。教程的参与者将自己描述为在线服装店的所有者。他们拍了张照片,在上面选择了某种服装(例如靴子),并给任务负责人提供了在商店数据库中查找最相似商品的任务。然后将这些产品与其他toloker进行相似性排名。


筹备阶段

在结果出现的第二天结束时,所有参与者都收到了反馈和实用技巧,旨在帮助使每个项目更有效。

例如,在现实世界中,可以使用API​​根据可用数据自动执行我们流程中的某些步骤。但是在会议上,对我们而言重要的是,展示如何使用众包高效高效地处理每个阶段。


为了获得更好的结果和花费更少的钱,可以做些其他的事情,

几乎所有教程的参与者都完全完成了它,达到了最后一步。他们学习了如何使用众包从在线商店的类似产品中组装数据集。我们在本教程中回顾的管道非常通用,它不仅可以用于在线交易,还可以用于需要提供类似对象的任何行业。

其他公司在谈论什么?



可在会议网站上找到已出版作品的 完整列表

我们注意到大量与推荐者搜索引擎和电子商务领域相关的作品。我们认为,大多数团队没有提供新的科学理论,而是介绍了将某些技术引入产品的结果。关于基于神经网络的解决方案的报道很多-作者告诉使用了哪些库。

以下是一些引起我们注意的海报,并附有评论:

关联判断任务中


的CrowdWorker策略关联判断任务中的CrowdWorker策略海报

这项工作使我们对其主题感兴趣。作者讨论了表演者在众包中的经历如何影响他们的行为:单击任务,使用热键和提前期。


在采取更多的和经验不足的执行者之间完成任务的时间差

实验结束后,研究人员发现,经过两个任务的众包平台上进行的,缺乏经验的工作人员取得了相当的速度有经验的人。

总体结论:如果有控制任务质量的方法,执行者的经验不会极大地影响数据的最终质量。

通过细心卷积网络预测人类活动海报通过细心卷积网络


预测人类活动

本文旨在预测用户的路线,即将来的路线。这些预测方法大多数都与GPS坐标一起使用,并且这项工作的作者专注于社交网络中的地理标记。

该工作的作者将用户轨迹视为图片,并对其使用了过滤器。每张图片都有连续的图案作为指示。注意机制也被添加到该神经网络以考虑长期偏好。

作者对三个数据集进行了实验,得出的结论是,它们的模型比现有的具有GPS坐标的模型更好。

指标,用户模型和满意度

作者研究了描述搜索引擎用户行为的指标如何与他们的满意度相关联。


度量,用户模型和满意度的发布者

他们确认,具有反映典型行为的用户模型的度量也往往是与用户满意度评级良好相关的度量。

电子商务推荐系统


的分层用户分析电子商务推荐系统的分层用户分析海报

本文的作者解决了针对不同细节级别的建议问题。

他们提出的用户配置文件的层次结构使用金字塔递归神经网络对用户的多层次兴趣进行建模,金字塔神经递归神经网络通常由一个微层,一层元素和几层递归神经网络类别组成。

结果是什么?


这次会议对从事改进搜索的专家很有用。

在参加WSDM和任何其他会议之前,我们建议您仔细研究该程序和被接受的作品-这不仅有助于在张贴者,研讨会和演讲之间产生混淆,而且还可以与感兴趣的项目的作者进行交流。

并且不要忘记所有的工作都在网络上,您可以自己学习。顺便说一下,这是利用您的空闲时间的好方法。

All Articles