Nuevos modelos de búsqueda y análisis de datos. WSDM 2020 a través de los ojos del equipo Yandex.Tolki

Las conferencias científicas internacionales ayudan a monitorear las tendencias en la industria, aprender sobre los desarrollos avanzados de compañías líderes, universidades y hablar sobre usted. Por supuesto, esto se aplica solo al momento en que el mundo no está sumido en el abismo de una pandemia.

Antes de que todos los países cambiaran al modo de autoaislamiento, logramos ir a la conferencia WSDM (pronunciada sabiduría) por el equipo de Yandex.Tolki para realizar un tutorial de crowdsourcing, presentar nuestro artículo y conversar con colegas en el taller.

Mi nombre es Alexei Drutsa, soy el jefe del departamento de eficiencia y desarrollo de crowdsourcing y gestión de plataformas en Yandex. La compañía se dedica a la investigación teórica y aplicada en áreas relacionadas con algoritmos discretos, teoría de subastas, aprendizaje automático, análisis de datos y matemática computacional. Durante mi trabajo publiqué más de 20 artículos científicos, incluidos los de las conferencias NIPS, KDD, WWW, WSDM, SIGIR y CIKM. En esta publicación, hablaré sobre mis impresiones después de visitar WSDM, y daré una pequeña descripción de los informes más interesantes.


Cartel de la conferencia

¿Qué tipo de conferencia?


WSDM es una de las principales conferencias de investigación relacionadas con la minería y el análisis de datos. Este año, se convirtió en la decimotercera consecutiva y se llevó a cabo del 3 al 7 de febrero en Houston, Texas.

Algunas estadísticas. A la conferencia asistieron unas 700 personas. Los autores de 615 artículos científicos presentaron solicitudes para poder presentar sus artículos en la conferencia. Los organizadores seleccionaron 91 artículos, incluido nuestro trabajo en la recopilación de datos de crowdsourcing. De las 20 solicitudes para realizar tutoriales, los organizadores de WSDM aceptaron 9, incluida la solicitud de Yandex.

La parte principal de la conferencia fue una sesión de pósters. En todos estos eventos científicos, esta es la forma principal de presentar el trabajo: los autores de los artículos aceptados preparan carteles con información exhaustiva sobre el estudio y responden preguntas de colegas interesados ​​( más  sobre el formato). Además de la sesión de pósters, los participantes pudieron contar sus logros en tres formatos:

  • Informe de progreso de 5 minutos (46 participantes recibieron esta oportunidad);
  • charla relámpago durante 60 segundos con una breve descripción de la esencia principal del informe (este formato se ofreció a 45 participantes);
  • demostración con una demostración del trabajo de una herramienta.

Entre los trabajos publicados en la conferencia había un artículo de nuestro equipo. También se trata de crowdsourcing, pero habla de otra fuente de datos de crowdsourcing, recopilada a través de captcha.


Cartel de nuestro artículo

El método de recopilación de marcas usando captcha ha sido conocido y utilizado por muchas compañías. Funciona así: los usuarios sospechosos están invitados a ingresar texto de dos imágenes. La primera imagen es de control, ya tenemos la respuesta correcta. La segunda imagen contiene texto desconocido para nosotros, solo queremos descifrarlo con la ayuda del usuario. Si una persona ingresa el texto correcto de la primera imagen de control, entonces consideramos que es lo suficientemente confiable y escribimos su segunda respuesta.

Esta es una forma de marcado muy conveniente, escalable y gratuita. Pero hay un problema: el captcha generalmente se ofrece a usuarios sospechosos, algunos de los cuales son bots. Al descifrar imágenes con tales robots, a menudo obtenemos errores similares y consistentes. Las personas, a diferencia de los bots, rara vez hacen la misma letra.

Por lo general, las empresas que utilizan este método de marcado consideran la respuesta que la mayoría de los usuarios dieron la respuesta correcta. Pero teniendo en cuenta la alta probabilidad de que los robots cometan errores similares, tal esquema conduce a datos incorrectos.

Hemos entrenado el modelo ML, que predice por factores de entrada de captcha qué respuesta será la más correcta. El contenido completo del artículo se puede encontrar aquí .

¿Qué hay del tutorial?


El primer día de la conferencia, realizamos un tutorial práctico basado en Yandex.Tolki . Mis colegas ya hablaron sobre nuestro servicio en Habré, su descripción detallada aquí . En resumen, Toloka es una plataforma de crowdsourcing que te ayuda a completar muchas tareas. Con Toloka, puede descifrar grabaciones de audio, realizar grupos focales, moderar comentarios o reconocer imágenes utilizando los datos obtenidos para el aprendizaje automático.

Entre los tutoriales sobre WSDM, solo el nuestro tuvo lugar todo el día.


Antes del tutorial

Hablamos sobre cómo resolver problemas usando crowdsourcing. Para etiquetar eficientemente los datos utilizando este método de organizar un flujo de trabajo, no solo necesita asignar una tarea a las personas, sino descomponerla correctamente, formular una tarea correctamente y configurar procesos, por ejemplo, control de calidad. Parte de la información que compartimos con los participantes de la conferencia se puede encontrar en nuestro video curso publicado . En él, la teoría básica de crowdsourcing se muestra como un ejemplo de resolución del problema de segmentación de objetos en la imagen.


Programa Tutorial

Para la conferencia, ideamos especialmente una tubería que incluía clasificación, recopilación de datos en Internet, post-aceptación y comparaciones paralelas. Consistió en cuatro etapas. Los participantes en el tutorial se presentaron como dueños de una tienda de ropa en línea. Le tomaron una foto, seleccionaron algún tipo de prenda de vestir (por ejemplo, botas) y le dieron a los encargados la tarea de encontrar los productos más similares en la base de datos de la tienda. Luego, estos productos se clasificaron por similitud con otros tolokers.


Etapas de la tubería

Al final del día después de que aparecieron los resultados, todos los participantes recibieron comentarios y consejos prácticos diseñados para ayudar a que cada proyecto sea más efectivo.

Por ejemplo, en el mundo real, algunos de los pasos de nuestra cartera podrían automatizarse en función de los datos disponibles mediante la API. Pero en la conferencia, fue importante para nosotros mostrar cómo se puede procesar cada una de las etapas utilizando crowdsourcing, de manera eficiente y escalable.


¿Qué más se puede hacer para obtener mejores resultados y gastar menos dinero?

Casi todos los participantes en el tutorial lo completaron por completo, llegando a los últimos pasos. Aprendieron a ensamblar conjuntos de datos de productos similares de una tienda en línea utilizando crowdsourcing. El canal que revisamos en el tutorial es bastante universal, se puede usar no solo en el comercio en línea, sino también en cualquier industria donde se deban ofrecer objetos similares.

¿De qué hablaron otras compañías?



Puede encontrar una lista completa de trabajos publicados en el sitio web de la conferencia.

Observamos una gran cantidad de trabajos relacionados con los motores de búsqueda de recomendaciones y el campo del comercio electrónico. En nuestra opinión, la mayoría de los equipos no ofrecieron nuevas teorías científicas, pero presentaron los resultados de la introducción de ciertas tecnologías en el producto. Hubo muchos informes sobre soluciones basadas en redes neuronales: los autores dijeron qué bibliotecas se utilizaron para esto.

Aquí hay algunos carteles que llamaron nuestra atención, con comentarios:

Estrategias CrowdWorker en tareas de juicio de relevancia


Poster por CrowdWorker Estrategias en tareas de juicio de relevancia

Este trabajo nos interesó en su tema. Los autores hablan sobre cómo la experiencia de los artistas intérpretes o ejecutantes en crowdsourcing afecta su comportamiento: clics en tareas, uso de teclas de acceso rápido y tiempo de espera.


La diferencia en el tiempo necesario para completar las tareas entre los ejecutores más y menos experimentados

Después del experimento, los autores descubrieron que después de dos tareas realizadas en la plataforma de crowdsourcing, los trabajadores menos experimentados alcanzaron una velocidad comparable con los experimentados.

Conclusión general: si hay formas de controlar la calidad de las tareas, la experiencia de los artistas no afecta en gran medida la calidad final de los datos.

Predicción de la movilidad humana a través de una atenta red convolucional


Cartel para predecir la movilidad humana a través de una atenta red convolucional

Este artículo trata de predecir la ruta del usuario, el punto en el que se encontrará en el futuro. La mayoría de estos métodos de predicción funcionan con coordenadas GPS, y los autores de este trabajo se centraron en geoetiquetas en las redes sociales.

Los autores del trabajo consideran las trayectorias de los usuarios como imágenes y usan filtros para ellas. Cada imagen tiene patrones sucesivos como indicadores. También se agrega un mecanismo de atención a esta red neuronal para tener en cuenta las preferencias a largo plazo.

Los autores realizaron experimentos en tres conjuntos de datos y concluyeron que su modelo funciona mejor que los modelos existentes con coordenadas GPS.

Métricas, modelos de usuario y satisfacción.

Los autores estudiaron cómo las métricas que describen el comportamiento de los usuarios de un motor de búsqueda están relacionadas con su satisfacción.


Cartel de métricas, modelos de usuario y satisfacción

Confirmaron que las métricas con modelos de usuario que reflejan el comportamiento típico también tienden a ser métricas que se correlacionan bien con las calificaciones de satisfacción del usuario.

Perfil de usuario jerárquico para sistemas de recomendación de comercio electrónico


Cartel para el perfil de usuario jerárquico para sistemas de recomendación de comercio electrónico

Los autores del artículo resuelven el problema de las recomendaciones para diferentes niveles de detalle.

La estructura jerárquica de los perfiles de usuarios que propusieron modela los intereses multinivel de los usuarios que usan redes neuronales recurrentes de pirámide, que generalmente consisten en una microcapa, una capa de elementos y varias capas de categorías de redes neuronales recurrentes.

Cual es el resultado?


Esta conferencia será útil para especialistas que se dedican a mejorar la búsqueda.

Antes de asistir a WSDM y cualquier otra conferencia, le aconsejamos que estudie cuidadosamente el programa y los trabajos aceptados; esto ayudará no solo a deambular confusamente entre carteles, talleres y discursos, sino también a comunicarse con los autores de los proyectos interesados.

Y no olvide que todo el trabajo está en la red , y puede estudiarlos usted mismo. Esto, por cierto, es una excelente manera de usar su tiempo libre.

All Articles