Novos modelos de pesquisa e análise de dados. WSDM 2020 através dos olhos da equipe Yandex.Tolki

As conferências científicas internacionais ajudam a monitorar as tendências do setor, aprender sobre os desenvolvimentos avançados das principais empresas, universidades e falar sobre você. Obviamente, isso se aplica apenas ao momento em que o mundo não está mergulhado no abismo de uma pandemia.

Antes de todos os países mudarem para o auto-isolamento, conseguimos ir à conferência do WSDM (sabedoria pronunciada) pela equipe Yandex.Tolki para realizar um tutorial de crowdsourcing, apresentar nosso artigo e conversar com colegas.

Meu nome é Alexei Drutsa, sou chefe do departamento de eficiência e desenvolvimento de crowdsourcing e gerenciamento de plataformas da Yandex. A empresa dedica-se à pesquisa teórica e aplicada em áreas relacionadas a algoritmos discretos, teoria de leilões, aprendizado de máquina, análise de dados e matemática computacional. Durante o meu trabalho, publiquei mais de 20 artigos científicos, incluindo os das conferências NIPS, KDD, WWW, WSDM, SIGIR e CIKM. Neste post, falarei sobre minhas impressões depois de visitar o WSDM, além de fornecer uma pequena visão geral dos relatórios mais interessantes.


Cartaz da conferência

Que tipo de conferência?


O WSDM é uma das principais conferências de pesquisa relacionadas à mineração e análise de dados. Este ano, ela se tornou a décima terceira consecutiva e foi realizada de 3 a 7 de fevereiro em Houston, Texas.

Algumas estatísticas. Participaram da conferência cerca de 700 pessoas. Os autores de 615 artigos científicos apresentaram solicitações para poderem apresentar seus artigos na conferência. Os organizadores selecionaram 91 artigos, incluindo nosso trabalho na coleta de dados de crowdsourcing. Dos 20 pedidos de realização de tutoriais, os organizadores do WSDM aceitaram 9, incluindo o pedido do Yandex.

A parte principal da conferência foi uma sessão de pôsteres. Em todos esses eventos científicos, esta é a principal maneira de apresentar o trabalho: os autores dos artigos aceitos preparam pôsteres com informações abrangentes sobre o estudo e respondem a perguntas de colegas interessados ​​( mais  sobre o formato). Além da sessão de pôsteres, os participantes puderam contar sobre suas realizações em três formatos:

  • Relatório de progresso de 5 minutos (46 participantes receberam esta oportunidade);
  • conversa fiada por 60 segundos com uma breve descrição da essência principal do relatório (este formato foi oferecido a 45 participantes);
  • demonstração com uma demonstração do trabalho de uma ferramenta.

Entre os trabalhos publicados na conferência, havia um artigo de nossa equipe. Também se trata de crowdsourcing, mas fala de outra fonte de dados de crowdsourcing - coletados através do captcha.


Cartaz do nosso artigo

O método de coleta de marcação usando o captcha é conhecido e usado por muitas empresas. Funciona assim: usuários suspeitos são convidados a inserir texto de duas figuras. A primeira imagem é de controle, já temos a resposta correta. A segunda imagem contém texto desconhecido para nós, apenas queremos decifrá-lo com a ajuda do usuário. Se uma pessoa digita o texto correto a partir da primeira imagem de controle, nós o consideramos confiável o suficiente e anote sua segunda resposta.

Essa é uma maneira muito conveniente, escalável e gratuita de marcação. Mas há um problema: o captcha geralmente é oferecido a usuários suspeitos, alguns dos quais são bots. Ao descriptografar imagens com esses robôs, geralmente obtemos erros semelhantes e consistentes. As pessoas, diferentemente dos bots, raramente fazem a mesma letra.

Normalmente, as empresas que usam esse método de marcação consideram a resposta que a maioria dos usuários deu a resposta correta. Mas, levando em consideração a alta probabilidade de erros semelhantes serem cometidos por bots, esse esquema leva a dados incorretos.

Nós treinamos o modelo ML, que prevê pelos fatores de entrada captcha que responderão ser os mais corretos. O conteúdo completo do artigo pode ser encontrado aqui .

E o tutorial?


No primeiro dia da conferência, realizamos um tutorial prático baseado no Yandex.Tolki . Meus colegas já falaram sobre nosso serviço em Habré, sua descrição detalhada aqui . Em resumo, Toloka é uma plataforma de crowdsourcing que ajuda você a concluir muitas tarefas. Com o Toloka, você pode descriptografar gravações de áudio, conduzir grupos focais, moderar comentários ou reconhecer imagens usando os dados obtidos para o aprendizado de máquina.

Entre os tutoriais sobre o WSDM, apenas o nosso ocorreu o dia todo.


Antes do tutorial

Falamos sobre como resolver problemas usando o crowdsourcing. Para marcar de maneira eficiente os dados usando esse método de organização de um fluxo de trabalho, é necessário não apenas dar uma tarefa às pessoas, mas decompô-la corretamente, formular uma tarefa corretamente e configurar processos, por exemplo, controle de qualidade. Algumas das informações que compartilhamos com os participantes da conferência podem ser encontradas em nosso curso em vídeo publicado . Nele, a teoria básica do crowdsourcing é mostrada como um exemplo de solução do problema de segmentação de objetos na imagem.


Programa Tutorial

Para a conferência, criamos um pipeline que incluía classificação, coleta de dados na Internet, pós-aceitação e comparações lado a lado. Consistia em quatro etapas. Os participantes do tutorial apresentaram-se como proprietários de uma loja de roupas online. Eles tiraram uma foto, selecionaram algum tipo de item de roupa (por exemplo, botas) e deram aos encarregados da tarefa a tarefa de encontrar os produtos mais semelhantes no banco de dados da loja. Em seguida, esses produtos foram classificados por similaridade com outros tolokers.


Etapas do pipeline

No final do dia após a exibição dos resultados, todos os participantes receberam feedback e dicas práticas projetadas para ajudar a tornar cada projeto mais eficaz.

Por exemplo, no mundo real, algumas das etapas de nosso pipeline podem ser automatizadas com base nos dados disponíveis usando a API. Mas na conferência, foi importante mostrar como cada um dos estágios pode ser processado usando o crowdsourcing - de maneira eficiente e escalável.


O que mais pode ser feito para obter melhores resultados e gastar menos dinheiro

Quase todos os participantes do tutorial o concluíram completamente, alcançando as últimas etapas. Eles aprenderam como montar conjuntos de dados de produtos similares de uma loja online usando crowdsourcing. O pipeline que analisamos no tutorial é bastante universal, pode ser usado não apenas no comércio on-line, mas também em qualquer setor em que objetos semelhantes precisem ser oferecidos.

Sobre o que as outras empresas falaram?



Uma lista completa de trabalhos publicados pode ser encontrada no site da conferência.

Observamos um grande número de trabalhos relacionados aos mecanismos de pesquisa de recomendação e ao campo do comércio eletrônico. Em nossa opinião, a maioria das equipes não ofereceu novas teorias científicas, mas apresentou os resultados da introdução de determinadas tecnologias no produto. Havia muitos relatórios sobre soluções baseadas em redes neurais - os autores disseram que bibliotecas foram usadas para isso.

Aqui estão alguns pôsteres que chamaram nossa atenção, com comentários:

Estratégias do CrowdWorker em tarefas de julgamento de relevância


poster por CrowdWorker Estratégias em tarefas de julgamento de relevância

Este trabalho nos interessou em seu tópico. Os autores falam sobre como a experiência dos artistas no crowdsourcing afeta seu comportamento: clica em tarefas, usa teclas de atalho e lead time.


A diferença no tempo necessário para concluir tarefas entre executores mais e menos experientes

Após o experimento, os autores descobriram que, após duas tarefas executadas na plataforma de crowdsourcing, os trabalhadores menos experientes atingiram uma velocidade comparável à dos experientes.

Conclusão geral: se existem maneiras de controlar a qualidade das tarefas, a experiência dos executores não afeta muito a qualidade final dos dados.

Predizer a mobilidade humana por meio da rede convolucional atenta


Pôster para prever a mobilidade humana por meio da rede convolucional atenta

Este artigo é sobre a previsão da rota do usuário - o ponto em que será no futuro. A maioria desses métodos de previsão trabalha com coordenadas GPS, e os autores deste trabalho focaram em geotags nas redes sociais.

Os autores do trabalho consideram as trajetórias do usuário como figuras e usam filtros para elas. Cada imagem tem padrões sucessivos como indicadores. Um mecanismo de atenção também é adicionado a essa rede neural para levar em consideração as preferências de longo prazo.

Os autores realizaram experimentos em três conjuntos de dados e concluíram que seu modelo funciona melhor que os modelos existentes com coordenadas GPS.

Métricas, modelos de usuário e satisfação

Os autores estudaram como as métricas que descrevem o comportamento dos usuários de um mecanismo de pesquisa estão relacionadas à sua satisfação.


Pôster para métricas, modelos de usuário e satisfação

Eles confirmaram que as métricas com modelos de usuário que refletem um comportamento típico também tendem a ser métricas que se correlacionam bem com as classificações de satisfação do usuário.

Perfil de usuário hierárquico para sistemas de recomendação de comércio eletrônico


Cartaz para o perfil de usuário hierárquico para sistemas de recomendação de comércio eletrônico

Os autores do artigo resolvem o problema de recomendações para diferentes níveis de detalhe.

A estrutura hierárquica de criação de perfil de usuário que eles propõem modela os interesses em vários níveis dos usuários que usam redes neurais recorrentes da pirâmide, que geralmente consistem em uma microcamada, uma camada de elementos e várias camadas de categorias de redes neurais recorrentes.

Qual é o resultado?


Esta conferência será útil para especialistas que estão empenhados em melhorar a pesquisa.

Antes de participar do WSDM e de qualquer outra conferência, recomendamos que você estude cuidadosamente o programa e os trabalhos aceitos - isso ajudará não apenas a vagar confusos entre pôsteres, workshops e discursos, mas também a se comunicar com os autores de projetos interessados.

E não esqueça que todo o trabalho está na rede e você pode estudá-los. A propósito, essa é uma ótima maneira de usar seu tempo livre.

All Articles