Neue Modelle der Datensuche und -analyse. WSDM 2020 mit den Augen des Yandex.Tolki-Teams

Internationale wissenschaftliche Konferenzen helfen dabei, Trends in der Branche zu überwachen, sich über die fortgeschrittenen Entwicklungen führender Unternehmen und Universitäten zu informieren und über sich selbst zu sprechen. Dies gilt natürlich nur für die Zeit, in der die Welt nicht in den Abgrund einer Pandemie gerät.

Bevor alle Länder auf Selbstisolation umstellten , gelang es uns, zur WSDM-Konferenz (ausgesprochene Weisheit) des Yandex.Tolki- Teams zu gehen, um ein Crowdsourcing-Tutorial durchzuführen, unseren Artikel zu präsentieren und mit Kollegen zu chatten.

Mein Name ist Alexei Drutsa, ich bin Leiter der Abteilung für Effizienz und Entwicklung im Bereich Crowdsourcing und Plattformmanagement bei Yandex. Das Unternehmen beschäftigt sich mit theoretischer und angewandter Forschung in Bereichen wie diskrete Algorithmen, Auktionstheorie, maschinelles Lernen, Datenanalyse und Computermathematik. Während meiner Arbeit veröffentlichte ich mehr als 20 wissenschaftliche Artikel, darunter die auf den Konferenzen NIPS, KDD, WWW, WSDM, SIGIR und CIKM. In diesem Beitrag werde ich über meine Eindrücke nach dem Besuch von WSDM berichten und einen kleinen Überblick über die interessantesten Berichte geben.


Konferenzplakat

Was für eine Konferenz?


WSDM ist eine der wichtigsten Forschungskonferenzen zum Thema Data Mining und Analyse. Dieses Jahr wurde sie die dreizehnte in Folge und fand vom 3. bis 7. Februar in Houston, Texas, statt.

Einige Statistiken. An der Konferenz nahmen rund 700 Personen teil. Die Autoren von 615 wissenschaftlichen Arbeiten reichten Anträge ein, um ihre Artikel auf der Konferenz präsentieren zu können. Die Organisatoren wählten 91 Artikel aus, darunter unsere Arbeit zur Erfassung von Crowdsourcing-Daten. Von den 20 Bewerbungen für die Durchführung von Tutorials akzeptierten die WSDM-Organisatoren 9, einschließlich der Bewerbung von Yandex.

Der Hauptteil der Konferenz war eine Postersitzung. Bei all diesen wissenschaftlichen Veranstaltungen ist dies die Hauptmethode, um die Arbeit zu präsentieren: Die Autoren der akzeptierten Artikel bereiten Poster mit umfassenden Informationen über die Studie vor und beantworten Fragen interessierter Kollegen ( mehr  zum Format). Zusätzlich zur Postersitzung konnten die Teilnehmer in drei Formaten über ihre Leistungen berichten:

  • 5-minütiger Fortschrittsbericht (46 Teilnehmer erhielten diese Gelegenheit);
  • 60 Sekunden langes Blitzgespräch mit einer kurzen Beschreibung des Hauptinhalts des Berichts (dieses Format wurde 45 Teilnehmern angeboten);
  • Demo mit einer Demonstration der Arbeit eines Werkzeugs.

Zu den auf der Konferenz veröffentlichten Arbeiten gehörte ein Artikel unseres Teams. Es geht auch um Crowdsourcing, aber es geht um eine andere Quelle von Crowdsourcing-Daten - die über Captcha gesammelt werden.


Poster unseres Artikels

Die Methode zum Sammeln von Markups mit Captcha ist seit langem bekannt und wird von vielen Unternehmen verwendet. Das funktioniert so: Verdächtige Benutzer werden aufgefordert, Text aus zwei Bildern einzugeben. Das erste Bild ist ein Kontrollbild, wir haben bereits die richtige Antwort darauf. Das zweite Bild enthält uns unbekannten Text, wir wollen ihn nur mit Hilfe des Benutzers entschlüsseln. Wenn eine Person den richtigen Text aus dem ersten Kontrollbild eingibt, halten wir ihn für zuverlässig genug und schreiben ihre zweite Antwort auf.

Dies ist eine sehr bequeme, skalierbare und kostenlose Möglichkeit zum Markieren. Es gibt jedoch ein Problem: Captcha wird normalerweise verdächtigen Benutzern angeboten, von denen einige Bots sind. Beim Entschlüsseln von Bildern mit solchen Robotern treten häufig ähnliche, konsistente Fehler auf. Menschen machen im Gegensatz zu Bots selten den gleichen Brief.

In der Regel berücksichtigen Unternehmen, die diese Markup-Methode verwenden, die Antwort, die die meisten Benutzer mit der richtigen Antwort gegeben haben. Unter Berücksichtigung der hohen Wahrscheinlichkeit, dass Bots ähnliche Fehler machen, führt ein solches Schema jedoch zu falschen Daten.

Wir haben das ML-Modell trainiert, das anhand der Captcha-Eingabefaktoren vorhersagt, welche Antwort am korrektesten ist. Den vollständigen Inhalt des Artikels finden Sie hier .

Was ist mit dem Tutorial?


Am ersten Tag der Konferenz haben wir ein praktisches Tutorial abgehalten, das auf Yandex.Tolki basiert . Meine Kollegen haben bereits von unserem Service auf Habré erzählt, dessen ausführliche Beschreibung hier . Kurz gesagt, Toloka ist eine Crowdsourcing-Plattform, mit der Sie viele Aufgaben erledigen können. Mit Toloka können Sie Audioaufnahmen entschlüsseln, Fokusgruppen durchführen, Kommentare moderieren oder Bilder anhand der für maschinelles Lernen erhaltenen Daten erkennen.

Unter den Tutorials zu WSDM fanden nur unsere den ganzen Tag statt.


Vor dem Tutorial

Wir haben darüber gesprochen, wie Probleme mit Crowdsourcing gelöst werden können. Um Daten mithilfe dieser Methode zum Organisieren eines Workflows effizient zu kennzeichnen, müssen Sie den Mitarbeitern nicht nur eine Aufgabe zuweisen, sondern diese auch korrekt zerlegen, eine Aufgabe korrekt formulieren und Prozesse einrichten, z. B. Qualitätskontrolle. Einige der Informationen, die wir den Konferenzteilnehmern mitgeteilt haben, finden Sie in unserem veröffentlichten Videokurs . Darin wird die grundlegende Theorie des Crowdsourcing als Beispiel für die Lösung des Problems der Segmentierung von Objekten im Bild gezeigt.


Tutorial-Programm

Für die Konferenz haben wir speziell eine Pipeline entwickelt, die Klassifizierung, Datenerfassung im Internet, Post-Acceptance und Side-by-Side-Vergleiche umfasst. Es bestand aus vier Stufen. Die Teilnehmer des Tutorials präsentierten sich als Besitzer eines Online-Bekleidungsgeschäfts. Sie machten ein Foto, wählten ein Kleidungsstück (z. B. Stiefel) darauf aus und gaben den Taskern die Aufgabe, die ähnlichsten Produkte in der Datenbank des Geschäfts zu finden. Dann wurden diese Produkte nach Ähnlichkeit mit anderen Tolokern eingestuft.


Pipeline-Phasen

Am Ende des Tages nach Erscheinen der Ergebnisse erhielten alle Teilnehmer Feedback und praktische Tipps, um jedes Projekt effektiver zu gestalten.

In der realen Welt könnten beispielsweise einige der Schritte in unserer Pipeline basierend auf den verfügbaren Daten mithilfe der API automatisiert werden. Auf der Konferenz war es uns jedoch wichtig zu zeigen, wie jede der Phasen mithilfe von Crowdsourcing verarbeitet werden kann - effizient und skalierbar.


Was kann man noch tun, um bessere Ergebnisse zu erzielen und weniger Geld auszugeben?

Fast alle Teilnehmer des Tutorials haben es vollständig durchlaufen und die letzten Schritte erreicht. Sie lernten, wie man mithilfe von Crowdsourcing Datensätze aus ähnlichen Produkten eines Online-Shops zusammenstellt. Die Pipeline, die wir im Tutorial analysiert haben, ist ziemlich universell. Sie kann nicht nur im Online-Handel verwendet werden, sondern auch in jeder Branche, in der ähnliche Objekte angeboten werden müssen.

Worüber haben andere Unternehmen gesprochen?



Eine vollständige Liste der veröffentlichten Werke finden Sie auf der Konferenzwebsite.

Wir haben eine große Anzahl von Arbeiten im Zusammenhang mit Empfehlungssuchmaschinen und dem Bereich E-Commerce festgestellt. Unserer Meinung nach haben die meisten Teams keine neuen wissenschaftlichen Theorien angeboten, sondern die Ergebnisse der Einführung bestimmter Technologien in das Produkt vorgestellt. Es gab viele Berichte über Lösungen, die auf neuronalen Netzen basierten - die Autoren sagten, welche Bibliotheken dafür verwendet wurden.

Hier sind einige Poster, die unsere Aufmerksamkeit mit Kommentaren erregt haben:

CrowdWorker-Strategien bei Aufgaben zur Beurteilung der Relevanz


Poster von CrowdWorker Strategien bei Aufgaben zur Beurteilung der Relevanz

Diese Arbeit interessierte uns für das Thema. Die Autoren sprechen darüber, wie sich die Erfahrung von Darstellern im Crowdsourcing auf ihr Verhalten auswirkt: Klicks auf Aufgaben, Verwendung von Tastenkombinationen und Vorlaufzeit.


Der Unterschied in der Zeit, die für die Erledigung von Aufgaben zwischen mehr und weniger erfahrenen Ausführenden benötigt wird

Nach dem Experiment stellten die Autoren fest, dass weniger erfahrene Mitarbeiter nach zwei Aufgaben auf der Crowdsourcing-Plattform eine vergleichbare Geschwindigkeit erreichten wie erfahrene.

Allgemeine Schlussfolgerung: Wenn es Möglichkeiten gibt, die Qualität der Aufgaben zu kontrollieren, hat die Erfahrung der Darsteller keinen großen Einfluss auf die endgültige Qualität der Daten.

Vorhersage der menschlichen Mobilität über ein aufmerksames Faltungsnetzwerk


Poster zur Vorhersage der menschlichen Mobilität über ein aufmerksames Faltungsnetzwerk

In diesem Artikel geht es darum, die Route des Benutzers vorherzusagen - den Punkt, an dem sie in Zukunft liegen wird. Die meisten dieser Vorhersagemethoden arbeiten mit GPS-Koordinaten, und die Autoren dieser Arbeit konzentrierten sich auf Geotags in sozialen Netzwerken.

Die Autoren der Arbeit betrachten die Benutzerbahnen als Bilder und verwenden Filter für sie. Jedes Bild hat aufeinanderfolgende Muster als Indikatoren. Diesem neuronalen Netzwerk wird auch ein Aufmerksamkeitsmechanismus hinzugefügt, um langfristige Präferenzen zu berücksichtigen.

Die Autoren führten Experimente mit drei Datensätzen durch und kamen zu dem Schluss, dass ihr Modell besser funktioniert als vorhandene Modelle mit GPS-Koordinaten.

Metriken, Benutzermodelle und Zufriedenheit

Die Autoren der Arbeit untersuchten, wie Metriken, die das Verhalten von Benutzern einer Suchmaschine beschreiben, mit ihrer Zufriedenheit zusammenhängen.


Poster für Metriken, Benutzermodelle und Zufriedenheit

Sie bestätigten, dass Metriken mit Benutzermodellen, die das typische Verhalten widerspiegeln, auch Metriken sind, die gut mit den Bewertungen der Benutzerzufriedenheit korrelieren.

Hierarchische Benutzerprofilerstellung für E-Commerce-Empfehlungssysteme


Poster für die hierarchische Benutzerprofilerstellung für E-Commerce-Empfehlungssysteme

Die Autoren des Papiers lösen das Problem der Empfehlungen für verschiedene Detailebenen.

Die von ihnen vorgeschlagene hierarchische Struktur der Benutzerprofilerstellung modelliert die mehrstufigen Interessen von Benutzern unter Verwendung von Pyramid Recurrent Neural Networks, die normalerweise aus einer Mikroschicht, einer Schicht von Elementen und mehreren Schichten von wiederkehrenden neuronalen Netzwerkkategorien bestehen.

Was ist das Ergebnis?


Diese Konferenz ist für Spezialisten nützlich, die sich mit der Verbesserung der Suche befassen.

Bevor Sie an WSDM und anderen Konferenzen teilnehmen, empfehlen wir Ihnen, das Programm und die akzeptierten Werke sorgfältig zu studieren. Dies hilft nicht nur, zwischen Postern, Workshops und Reden zu wechseln, sondern auch mit den Autoren interessierter Projekte zu kommunizieren.

Und vergessen Sie nicht, dass sich die gesamte Arbeit im Netzwerk befindet und Sie sie selbst studieren können. Dies ist übrigens eine großartige Möglichkeit, Ihre Freizeit zu nutzen.

All Articles