Nouveaux modèles de recherche et d'analyse de données. WSDM 2020 à travers les yeux de l'équipe Yandex.Tolki

Les conférences scientifiques internationales aident à surveiller les tendances de l'industrie, à se renseigner sur les développements avancés des grandes entreprises, des universités et à parler de vous. Bien sûr, cela ne s'applique qu'au moment où le monde n'est pas plongé dans l'abîme d'une pandémie.

Avant que tous les pays ne basculent vers l'auto-isolement, nous avons réussi à nous rendre à la conférence WSDM (sagesse prononcée) de l'équipe Yandex.Tolki pour mener un tutoriel de crowdsourcing, présenter notre article et discuter avec des collègues.

Je m'appelle Alexei Drutsa, je suis le chef du département efficacité et développement du crowdsourcing et de la gestion de plateforme chez Yandex. La société est engagée dans la recherche théorique et appliquée dans des domaines liés aux algorithmes discrets, à la théorie des enchères, à l'apprentissage automatique, à l'analyse des données et aux mathématiques computationnelles. Au cours de mon travail, j'ai publié plus de 20 articles scientifiques, dont ceux des conférences NIPS, KDD, WWW, WSDM, SIGIR et CIKM. Dans cet article, je vais parler de mes impressions après avoir visité WSDM, ainsi que donner un petit aperçu des rapports les plus intéressants.


Affiche de la conférence

Quel genre de conférence?


WSDM est l'une des principales conférences de recherche liées à l'exploration et à l'analyse de données. Cette année, elle est devenue la treizième consécutive et s'est tenue du 3 au 7 février à Houston, au Texas.

Quelques statistiques. La conférence a réuni environ 700 personnes. Les auteurs de 615 articles scientifiques ont soumis des candidatures afin de pouvoir présenter leurs articles à la conférence. Les organisateurs ont sélectionné 91 articles, dont nos travaux sur la collecte de données de crowdsourcing. Sur les 20 candidatures pour la réalisation de tutoriels, les organisateurs du WSDM en ont accepté 9, dont la candidature de Yandex.

La partie principale de la conférence était une session d'affiches. Dans tous ces événements scientifiques, c'est la principale façon de présenter le travail: les auteurs des articles acceptés préparent des affiches avec des informations complètes sur l'étude et répondent aux questions des collègues intéressés ( plus  sur le format). En plus de la session d'affiches, les participants pouvaient parler de leurs réalisations sous trois formats:

  • Rapport d'étape de 5 minutes (46 participants ont eu cette opportunité);
  • discours éclair pendant 60 secondes avec une brève description de l'essentiel du rapport (ce format a été proposé à 45 participants);
  • démo avec une démonstration du travail d'un outil.

Parmi les travaux publiés lors de la conférence figurait un article de notre équipe. Il s'agit également de crowdsourcing, mais il parle d'une autre source de données de crowdsourcing - collectées via captcha.


Affiche de notre article

La méthode de collecte du balisage à l'aide de captcha est connue et utilisée depuis longtemps par de nombreuses entreprises. Cela fonctionne comme ceci: les utilisateurs suspects sont invités à saisir du texte à partir de deux images. La première image est une image de contrôle, nous avons déjà la bonne réponse. La deuxième image contient du texte qui nous est inconnu, nous voulons juste le décrypter avec l'aide de l'utilisateur. Si une personne entre le texte correct à partir de la première image de contrôle, nous la considérons comme suffisamment fiable et notons sa deuxième réponse.

Il s'agit d'un moyen de balisage très pratique, évolutif et gratuit. Mais il y a un problème: le captcha est généralement proposé aux utilisateurs suspects, dont certains sont des bots. Lors du décryptage d'images avec de tels robots, nous obtenons souvent des erreurs similaires et cohérentes. Contrairement aux bots, les gens font rarement la même lettre.

En règle générale, les entreprises utilisant cette méthode de balisage considèrent la réponse que la plupart des utilisateurs ont donnée la bonne réponse. Mais compte tenu de la forte probabilité d'erreurs similaires commises par des robots, un tel schéma conduit à des données incorrectes.

Nous avons formé le modèle ML, qui prédit par les facteurs d'entrée captcha que la réponse sera la plus correcte. Le contenu complet de l'article est disponible ici .

Et le tutoriel?


Le tout premier jour de la conférence, nous avons organisé un tutoriel pratique basé sur Yandex.Tolki . Mes collègues ont déjà parlé de notre service sur Habré, sa description détaillée ici . En bref, Toloka est une plateforme de crowdsourcing qui vous aide à effectuer de nombreuses tâches. À l'aide de Toloka, vous pouvez décrypter des enregistrements audio, organiser des groupes de discussion, modérer des commentaires ou reconnaître des images à l'aide des données obtenues pour l'apprentissage automatique.

Parmi les tutoriels sur WSDM, seul le nôtre a eu lieu toute la journée.


Avant le tutoriel

Nous avons parlé de la façon de résoudre les problèmes en utilisant le crowdsourcing. Pour baliser efficacement les données à l'aide de cette méthode d'organisation d'un flux de travail, vous devez non seulement attribuer une tâche aux personnes, mais la décomposer correctement, formuler correctement une tâche et configurer des processus, par exemple, le contrôle de la qualité. Certaines des informations que nous avons partagées avec les participants à la conférence se trouvent dans notre cours vidéo publié . Dans ce document, la théorie de base du crowdsourcing est présentée comme un exemple de résolution du problème de la segmentation des objets dans l'image.


Programme de didacticiel

Pour la conférence, nous avons spécialement conçu un pipeline comprenant la classification, la collecte de données sur Internet, la post-acceptation et les comparaisons côte à côte. Il comprenait quatre étapes. Les participants au tutoriel se sont présentés comme les propriétaires d'une boutique de vêtements en ligne. Ils ont pris une photo, sélectionné une sorte d’article vestimentaire (par exemple, des bottes) et ont donné aux agents de recherche la tâche de trouver les produits les plus similaires dans la base de données du magasin. Ensuite, ces produits ont été classés par similitude avec d'autres tolokers.


Étapes du pipeline

À la fin de la journée après la publication des résultats, tous les participants ont reçu des commentaires et des conseils pratiques conçus pour rendre chaque projet plus efficace.

Par exemple, dans le monde réel, certaines des étapes de notre pipeline pourraient être automatisées en fonction des données disponibles à l'aide de l'API. Mais lors de la conférence, il était important pour nous de montrer comment chacune des étapes peut être traitée à l'aide du crowdsourcing - de manière efficace et évolutive.


Quoi d'autre peut être fait pour obtenir de meilleurs résultats et dépenser moins d'argent

Presque tous les participants au didacticiel l'ont terminé complètement, atteignant les toutes dernières étapes. Ils ont appris à assembler des ensembles de données à partir de produits similaires d'une boutique en ligne en utilisant le crowdsourcing. Le pipeline que nous avons analysé dans le tutoriel est assez universel, il peut être utilisé non seulement dans le commerce en ligne, mais aussi dans toute industrie où des objets similaires doivent être proposés.

De quoi d'autres entreprises ont-elles parlé?



Une liste complète des travaux publiés peut être consultée sur le site Web de la conférence.

Nous avons noté un grand nombre de travaux liés aux moteurs de recherche de recommandation et au domaine du commerce électronique. À notre avis, la plupart des équipes n'ont pas proposé de nouvelles théories scientifiques, mais ont présenté les résultats de l'introduction de certaines technologies dans le produit. Il y avait de nombreux rapports sur des solutions basées sur des réseaux de neurones - les auteurs ont dit quelles bibliothèques étaient utilisées pour cela.

Voici quelques affiches qui ont retenu notre attention, avec des commentaires:

Stratégies de CrowdWorker dans les tâches de jugement de pertinence


Affiche par CrowdWorker Stratégies dans les tâches de jugement de pertinence

Ce travail nous a intéressé par son sujet. Les auteurs expliquent comment l'expérience des artistes interprètes ou exécutants dans le crowdsourcing affecte leur comportement: clics sur les tâches, utilisation des raccourcis clavier et délais.


La différence de temps nécessaire à l'exécution des tâches entre les exécuteurs expérimentés et les moins expérimentés

Après l'expérience, les auteurs ont constaté qu'après deux tâches effectuées sur la plateforme de crowdsourcing, les travailleurs moins expérimentés atteignaient une vitesse comparable à celle des expérimentés.

Conclusion générale: s'il existe des moyens de contrôler la qualité des tâches, l'expérience des interprètes n'affecte pas grandement la qualité finale des données.

Prédire la mobilité humaine via un réseau de convolution attentif


Affiche pour prédire la mobilité humaine via un réseau de convolution attentif

Cet article concerne la prévision de l'itinéraire de l'utilisateur - le point auquel il se trouvera à l'avenir. La plupart de ces méthodes de prédiction fonctionnent avec des coordonnées GPS, et les auteurs de ces travaux se sont concentrés sur les balises géographiques dans les réseaux sociaux.

Les auteurs de l'ouvrage considèrent les trajectoires des utilisateurs comme des images et utilisent des filtres pour celles-ci. Chaque image a des modèles successifs comme indicateurs. Un mécanisme d'attention est également ajouté à ce réseau neuronal pour prendre en compte les préférences à long terme.

Les auteurs ont mené des expériences sur trois ensembles de données et ont conclu que leur modèle fonctionne mieux que les modèles existants avec coordonnées GPS.

Mesures, modèles d'utilisateurs et satisfaction

Les auteurs ont étudié comment les paramètres décrivant le comportement des utilisateurs d'un moteur de recherche sont liés à leur satisfaction.


Affiche pour les métriques, les modèles d'utilisateurs et la satisfaction

Ils ont confirmé que les métriques avec des modèles d'utilisateurs qui reflètent un comportement typique ont également tendance à être des métriques qui correspondent bien aux notes de satisfaction des utilisateurs.

Profilage hiérarchique des utilisateurs pour les systèmes de recommandation de commerce électronique


Affiche pour le profilage hiérarchique des utilisateurs pour les systèmes de recommandation de commerce électronique

Les auteurs de l'article résolvent le problème des recommandations pour différents niveaux de détail.

La structure hiérarchique du profilage des utilisateurs qu'ils ont proposée modélise les intérêts à plusieurs niveaux des utilisateurs utilisant les réseaux de neurones récurrents Pyramid, qui se composent généralement d'une microcouche, d'une couche d'éléments et de plusieurs couches de catégories de réseaux de neurones récurrents.

Quel est le résultat?


Cette conférence sera utile aux spécialistes qui cherchent à améliorer la recherche.

Avant d'assister au WSDM et à toute autre conférence, nous vous conseillons d'étudier attentivement le programme et les travaux acceptés - cela vous aidera non seulement à vous promener confus entre affiches, ateliers et discours, mais aussi à communiquer avec les auteurs des projets intéressés.

Et n'oubliez pas que toutes les œuvres sont en ligne , et vous pouvez les étudier vous-même. Soit dit en passant, c'est un excellent moyen d'utiliser votre temps libre.

All Articles