Model baru pencarian dan analisis data. WSDM 2020 melalui mata tim Yandex.Tolki

Konferensi ilmiah internasional membantu memantau tren dalam industri ini, mempelajari tentang perkembangan perusahaan, universitas, dan berbicara tentang diri Anda. Tentu saja, ini hanya berlaku pada saat dunia tidak terjerumus ke dalam jurang pandemi.

Sebelum semua negara beralih ke isolasi diri, kami berhasil pergi ke konferensi WSDM (diucapkan kebijaksanaan) oleh tim Yandex.Tolki untuk melakukan tutorial crowdsourcing, menyajikan artikel kami dan mengobrol dengan kolega.

Nama saya Alexei Drutsa, saya adalah kepala departemen efisiensi dan pengembangan crowdsourcing dan manajemen platform di Yandex. Perusahaan ini terlibat dalam penelitian teoritis dan terapan di bidang yang terkait dengan algoritma diskrit, teori lelang, pembelajaran mesin, analisis data dan matematika komputasi. Selama pekerjaan saya, saya menerbitkan lebih dari 20 artikel ilmiah, termasuk yang ada di konferensi NIPS, KDD, WWW, WSDM, SIGIR dan CIKM. Dalam posting ini saya akan menceritakan tentang kesan saya setelah mengunjungi WSDM, serta memberikan ikhtisar kecil tentang laporan yang paling menarik.


Poster konferensi

Konferensi macam apa?


WSDM adalah salah satu konferensi riset utama yang terkait dengan penambangan dan analisis data. Tahun ini ia menjadi yang ketiga belas berturut-turut dan diadakan dari 3 hingga 7 Februari di Houston, Texas.

Beberapa statistik. Konferensi ini dihadiri oleh sekitar 700 orang. Para penulis dari 615 makalah ilmiah mengajukan aplikasi agar dapat mempresentasikan artikel mereka di konferensi. Panitia memilih 91 artikel, termasuk pekerjaan kami mengumpulkan data crowdsourcing. Dari 20 aplikasi untuk melakukan tutorial, penyelenggara WSDM menerima 9, termasuk aplikasi dari Yandex.

Bagian utama dari konferensi adalah sesi poster. Di semua acara ilmiah semacam itu, ini adalah cara utama untuk mempresentasikan karya: penulis artikel yang diterima menyiapkan poster dengan informasi komprehensif tentang penelitian dan menjawab pertanyaan dari rekan kerja yang tertarik ( lebih lanjut  tentang format). Selain sesi poster, peserta dapat menceritakan tentang pencapaian mereka dalam tiga format:

  • Laporan kemajuan 5 menit (46 peserta menerima kesempatan ini);
  • bicara kilat selama 60 detik dengan deskripsi singkat tentang esensi utama laporan (format ini ditawarkan kepada 45 peserta);
  • demo dengan demonstrasi karya alat.

Di antara karya-karya yang diterbitkan di konferensi adalah artikel dari tim kami. Ini juga tentang crowdsourcing, tetapi berbicara tentang sumber data crowdsourcing lain - dikumpulkan melalui captcha.


Poster artikel kami

Metode pengumpulan markup menggunakan captcha telah lama dikenal dan digunakan oleh banyak perusahaan. Ini berfungsi seperti ini: pengguna yang mencurigakan diundang untuk memasukkan teks dari dua gambar. Gambar pertama adalah gambar kontrol, kami sudah memiliki jawaban yang benar untuk itu. Gambar kedua berisi teks yang tidak diketahui oleh kami, kami hanya ingin mendekripsi dengan bantuan pengguna. Jika seseorang memasukkan teks yang benar dari gambar kontrol pertama, maka kami menganggapnya cukup andal dan menuliskan jawaban keduanya.

Ini adalah cara markup yang sangat nyaman, dapat diskalakan dan gratis. Tapi ada masalah: captcha biasanya ditawarkan kepada pengguna yang mencurigakan, beberapa di antaranya adalah bot. Saat mendekripsi gambar dengan robot seperti itu, kita sering mendapatkan kesalahan yang serupa dan konsisten. Orang, tidak seperti bot, jarang membuat surat yang sama.

Biasanya, perusahaan yang menggunakan metode markup ini mempertimbangkan jawaban yang sebagian besar pengguna memberikan jawaban yang benar. Tetapi dengan mempertimbangkan tingginya kemungkinan kesalahan serupa yang dilakukan oleh bot, skema semacam itu mengarah ke data yang salah.

Kami telah melatih model-ML, yang diprediksi oleh faktor input captcha yang jawabannya paling benar. Konten lengkap artikel dapat ditemukan di sini .

Bagaimana dengan tutorialnya?


Pada hari pertama konferensi, kami mengadakan tutorial praktis berdasarkan Yandex.Tolki . Rekan-rekan saya sudah memberi tahu tentang layanan kami di Habré, deskripsi terperinci di sini . Singkatnya, Toloka adalah platform crowdsourcing yang membantu Anda menyelesaikan banyak tugas. Menggunakan Toloka, Anda dapat mendekripsi rekaman audio, melakukan fokus grup, memoderasi komentar atau mengenali gambar menggunakan data yang diperoleh untuk pembelajaran mesin.

Di antara tutorial tentang WSDM, hanya tutorial kami yang berlangsung sepanjang hari.


Sebelum tutorial

Kami berbicara tentang cara mengatasi masalah menggunakan crowdsourcing. Untuk secara efisien menandai data menggunakan metode pengorganisasian alur kerja ini, Anda tidak hanya perlu memberi orang tugas, tetapi untuk menguraikannya dengan benar, merumuskan tugas dengan benar, dan mengatur proses, misalnya, kontrol kualitas. Beberapa informasi yang kami bagikan dengan peserta konferensi dapat ditemukan di kursus video yang kami terbitkan . Di dalamnya, teori dasar crowdsourcing ditampilkan sebagai contoh pemecahan masalah segmentasi objek dalam gambar.


Program tutorial

Untuk konferensi, kami secara khusus membuat saluran pipa yang mencakup klasifikasi, pengumpulan data di Internet, pasca-penerimaan dan perbandingan berdampingan. Itu terdiri dari empat tahap. Para peserta dalam tutorial menampilkan diri mereka sebagai pemilik toko pakaian online. Mereka mengambil gambar, memilih beberapa jenis pakaian (misalnya, sepatu bot) di atasnya dan memberi tugas pada penugasi untuk menemukan produk yang paling mirip di basis data toko. Kemudian produk-produk ini diberi peringkat berdasarkan kesamaan dengan tolokers lainnya.


Tahap-tahap pipa

Pada akhir hari setelah hasilnya muncul, semua peserta menerima umpan balik dan kiat-kiat praktis yang dirancang untuk membantu membuat setiap proyek lebih efektif.

Misalnya, di dunia nyata, beberapa langkah dalam pipa kami dapat diotomatisasi berdasarkan data yang tersedia menggunakan API. Tetapi di konferensi, penting bagi kami untuk menunjukkan bagaimana masing-masing tahap dapat diproses menggunakan crowdsourcing - secara efisien dan terukur.


Apa lagi yang bisa dilakukan untuk mendapatkan hasil yang lebih baik dan menghabiskan lebih sedikit uang.

Hampir semua peserta dalam tutorial menyelesaikannya sepenuhnya, mencapai langkah terakhir. Mereka belajar cara mengumpulkan kumpulan data dari produk serupa toko online menggunakan crowdsourcing. Pipa yang kami analisis dalam tutorial ini cukup universal, dapat digunakan tidak hanya dalam perdagangan online, tetapi juga di industri mana pun di mana objek serupa perlu ditawarkan.

Apa yang dibicarakan perusahaan lain?



Daftar lengkap karya yang diterbitkan dapat ditemukan di situs web konferensi.

Kami mencatat sejumlah besar pekerjaan yang terkait dengan mesin pencari pemberi rekomendasi dan bidang e-commerce. Menurut pendapat kami, sebagian besar tim tidak menawarkan teori ilmiah baru, tetapi mempresentasikan hasil memperkenalkan teknologi tertentu ke dalam produk. Ada banyak laporan tentang solusi berdasarkan jaringan saraf - penulis mengatakan perpustakaan mana yang digunakan untuk ini.

Berikut adalah beberapa poster yang menarik perhatian kami, dengan komentar:

Strategi CrowdWorker dalam Tugas Penilaian Relevansi


Poster oleh Strategi CrowdWorker dalam Tugas Penilaian Tugas Relevansi

Karya ini membuat kami tertarik dengan topiknya. Para penulis berbicara tentang bagaimana pengalaman pemain dalam crowdsourcing mempengaruhi perilaku mereka: klik pada tugas, menggunakan tombol pintas, dan waktu tunggu.


Perbedaan waktu yang dibutuhkan untuk menyelesaikan tugas antara lebih banyak dan kurang berpengalaman pelaksana

Setelah percobaan, penulis menemukan bahwa setelah dua tugas dilakukan pada platform crowdsourcing, pekerja yang kurang berpengalaman mencapai kecepatan yang sebanding dengan yang berpengalaman.

Kesimpulan umum: jika ada cara untuk mengontrol kualitas tugas, pengalaman para pelaku tidak banyak mempengaruhi kualitas akhir data.

Memprediksi Mobilitas Manusia melalui Poster Jaringan Konvolusional


Atribut untuk Memprediksi Mobilitas Manusia melalui Jaringan Konvolusional Penuh Perhatian

Artikel ini adalah tentang memprediksi rute pengguna - titik di mana itu akan terjadi di masa depan. Sebagian besar metode prediksi ini bekerja dengan koordinat GPS, dan penulis karya ini berfokus pada geotag di jejaring sosial.

Para penulis karya menganggap lintasan pengguna sebagai gambar dan menggunakan filter untuknya. Setiap gambar memiliki pola berturut-turut sebagai indikator. Mekanisme perhatian juga ditambahkan ke jaringan saraf ini untuk memperhitungkan preferensi jangka panjang.

Para penulis melakukan percobaan pada tiga set data dan menyimpulkan bahwa model mereka bekerja lebih baik daripada model yang ada dengan koordinat GPS.

Metrik, Model Pengguna, dan Kepuasan

Para penulis mempelajari bagaimana metrik yang menggambarkan perilaku pengguna mesin pencari terkait dengan kepuasan mereka.


Poster untuk Metrik, Model Pengguna, dan Kepuasan

Mereka mengonfirmasi bahwa metrik dengan model pengguna yang mencerminkan perilaku tipikal juga cenderung berupa metrik yang berkorelasi baik dengan peringkat kepuasan pengguna.

Pembuatan Profil Pengguna Hirarki untuk Sistem Rekomendasi E-commerce


Poster untuk Pembuatan Profil Pengguna Hirarki untuk Sistem Rekomendasi E-commerce

Penulis makalah ini memecahkan masalah rekomendasi untuk berbagai tingkat detail.

Struktur hierarkis dari profil pengguna yang mereka usulkan memodelkan kepentingan multi-level pengguna menggunakan Jaringan Syaraf Berulang Piramida, yang biasanya terdiri dari pembayaran mikro, lapisan elemen, dan beberapa lapisan kategori jaringan saraf berulang.

Apa hasilnya?


Konferensi ini akan bermanfaat bagi para spesialis yang terlibat dalam meningkatkan pencarian.

Sebelum menghadiri WSDM dan konferensi lainnya, kami menyarankan Anda untuk mempelajari program dan karya-karya yang diterima dengan hati-hati - ini akan membantu tidak hanya untuk berkeliaran dengan bingung antara poster, lokakarya dan pidato, tetapi juga untuk berkomunikasi dengan penulis proyek yang tertarik.

Dan jangan lupa bahwa semua pekerjaan ada di jaringan , dan Anda bisa mempelajarinya sendiri. Omong-omong, ini adalah cara terbaik untuk menggunakan waktu luang Anda.

All Articles