نماذج جديدة للبحث عن البيانات وتحليلها. WSDM 2020 من خلال عيون فريق Yandex.Tolki

تساعد المؤتمرات العلمية الدولية على مراقبة الاتجاهات في الصناعة ، والتعرف على التطورات المتقدمة للشركات الرائدة والجامعات والتحدث عن نفسك. بالطبع ، هذا ينطبق فقط على الوقت الذي لا يكون فيه العالم غارقًا في هاوية الوباء.

قبل أن تتحول جميع البلدان إلى العزلة الذاتية ، تمكنا من الذهاب إلى مؤتمر WSDM (الحكمة الواضحة) من قبل فريق Yandex.Tolki لإجراء برنامج تعليمي للتعهيد الجماعي ، وتقديم مقالتنا والدردشة مع الزملاء.

اسمي أليكسي دروتسا ، وأنا رئيس قسم الكفاءة والتطوير في مجال التعهيد الجماعي وإدارة المنصات في ياندكس. تشارك الشركة في البحوث النظرية والتطبيقية في المجالات المتعلقة بالخوارزميات المنفصلة ، ونظرية المزاد ، وتعلم الآلة ، وتحليل البيانات ، والرياضيات الحسابية. خلال عملي ، قمت بنشر أكثر من 20 مقالة علمية ، بما في ذلك المقالات في مؤتمرات NIPS و KDD و WWW و WSDM و SIGIR و CIKM. في هذا المنشور ، سأخبر عن انطباعاتي بعد زيارة WSDM ، بالإضافة إلى تقديم نظرة عامة صغيرة على التقارير الأكثر إثارة للاهتمام.


ملصق المؤتمر

أي نوع من المؤتمرات؟


WSDM هو أحد المؤتمرات البحثية الرئيسية المتعلقة بالتنقيب عن البيانات وتحليلها. هذا العام أصبحت الثالثة عشرة على التوالي وعقدت من 3 إلى 7 فبراير في هيوستن ، تكساس.

بعض الإحصائيات. حضر المؤتمر حوالي 700 شخص. قدم مؤلفو 615 ورقة علمية طلبات لكي يتمكنوا من عرض مقالاتهم في المؤتمر. اختار المنظمون 91 مقالة ، بما في ذلك عملنا على جمع بيانات التعهيد الجماعي. من بين 20 تطبيقًا لإجراء دروس ، قبل منظمو WSDM 9 ، بما في ذلك التطبيق من Yandex.

كان الجزء الرئيسي من المؤتمر جلسة ملصقات. في جميع هذه الأحداث العلمية ، هذه هي الطريقة الرئيسية لتقديم العمل: يقوم مؤلفو المقالات المقبولة بإعداد ملصقات تحتوي على معلومات شاملة حول الدراسة والإجابة على أسئلة الزملاء المهتمين ( المزيد  حول التنسيق). بالإضافة إلى جلسة الملصقات ، يمكن للمشاركين معرفة إنجازاتهم في ثلاثة أشكال:

  • تقرير مرحلي مدته 5 دقائق (حصل 46 مشاركًا على هذه الفرصة) ؛
  • حديث البرق لمدة 60 ثانية مع وصف موجز للجوهر الرئيسي للتقرير (تم تقديم هذا الشكل إلى 45 مشاركًا) ؛
  • عرض توضيحي مع عرض لعمل أداة.

من بين الأعمال المنشورة في المؤتمر مقال من فريقنا. يتعلق الأمر أيضًا بالاستعانة بمصادر خارجية ، ولكنه يتحدث عن مصدر آخر لبيانات التعهيد الجماعي - التي يتم جمعها من خلال اختبار CAPTCHA.


ملصق

مقالنا لطالما عرفت العديد من الشركات طريقة جمع الترميز باستخدام اختبار CAPTCHA. إنه يعمل على هذا النحو: تتم دعوة المستخدمين المريبين لإدخال نص من صورتين. الصورة الأولى هي صورة تحكم ، لدينا بالفعل الإجابة الصحيحة لها. تحتوي الصورة الثانية على نص غير معروف لنا ، نريد فقط فك تشفيره بمساعدة المستخدم. إذا قام الشخص بإدخال النص الصحيح من الصورة الأولى - عنصر التحكم - فإننا نعتبرها موثوقة بما فيه الكفاية ونكتب إجابته الثانية.

هذه طريقة مريحة للغاية وقابلة للتطوير ومجانية للترميز. ولكن هناك مشكلة: عادةً ما يتم تقديم اختبار CAPTCHA للمستخدمين المشبوهين ، وبعضهم روبوتات. عند فك تشفير الصور بمثل هذه الروبوتات ، غالبًا ما نحصل على أخطاء متشابهة ومتسقة. الناس ، على عكس الروبوتات ، نادرا ما يصنعون نفس الرسالة.

عادةً ، تأخذ الشركات التي تستخدم طريقة الترميز هذه في الاعتبار الإجابة التي قدمها معظم المستخدمين للإجابة الصحيحة. ولكن مع الأخذ في الاعتبار الاحتمال الكبير لارتكاب أخطاء مماثلة بواسطة الروبوتات ، فإن مثل هذا المخطط يؤدي إلى بيانات غير صحيحة.

لقد قمنا بتدريب نموذج ML ، والذي يتنبأ بعوامل إدخال اختبار CAPTCHA والتي ستكون الإجابة الأكثر صحة. يمكن العثور على المحتوى الكامل للمقال هنا .

ماذا عن البرنامج التعليمي؟


في اليوم الأول من المؤتمر ، عقدنا برنامجًا تعليميًا عمليًا يعتمد على Yandex.Tolki . أخبر زملائي بالفعل عن خدمتنا في حبري ، الوصف التفصيلي هنا . باختصار ، تولوكا هي منصة التعهيد الجماعي التي تساعدك على إكمال العديد من المهام. باستخدام Toloka ، يمكنك فك تشفير التسجيلات الصوتية أو إجراء مجموعات التركيز أو الإشراف على التعليقات أو التعرف على الصور باستخدام البيانات التي تم الحصول عليها لتعلم الآلة.

من بين الدروس على WSDM ، تم عقد برامجنا فقط طوال اليوم.


قبل البرنامج التعليمي

تحدثنا عن كيفية حل المشكلات باستخدام التعهيد الجماعي. لترميز البيانات بكفاءة باستخدام هذه الطريقة لتنظيم سير العمل ، لا تحتاج فقط إلى إعطاء الأشخاص مهمة ، ولكن لتحليلها بشكل صحيح ، وصياغة مهمة بشكل صحيح وإعداد العمليات ، على سبيل المثال ، مراقبة الجودة. يمكن العثور على بعض المعلومات التي شاركناها مع المشاركين في المؤتمر في دورة الفيديو المنشورة . في ذلك ، يتم عرض النظرية الأساسية للتعهيد الجماعي كمثال على حل مشكلة تجزئة الأشياء في الصورة.


برنامج تعليمي

بالنسبة للمؤتمر ، توصلنا بشكل خاص إلى خط أنابيب يتضمن التصنيف وجمع البيانات على الإنترنت ومقارنات ما بعد القبول جنبًا إلى جنب. يتكون من أربع مراحل. قدم المشاركون في البرنامج التعليمي أنفسهم على أنهم أصحاب متجر ملابس عبر الإنترنت. التقطوا صورة ، واختاروا نوعًا من عناصر الملابس (على سبيل المثال ، الأحذية) وأعطوا للمهمة مهمة العثور على المنتجات الأكثر تشابهًا في قاعدة بيانات المتجر. ثم تم ترتيب هذه المنتجات حسب التشابه مع المتداولين الآخرين.


مراحل خط الأنابيب

في نهاية اليوم التالي لظهور النتائج ، تلقى جميع المشاركين ملاحظات ونصائح عملية مصممة للمساعدة في جعل كل مشروع أكثر فعالية.

على سبيل المثال ، في العالم الحقيقي ، يمكن أتمتة بعض الخطوات في خط أنابيبنا استنادًا إلى البيانات المتاحة باستخدام واجهة برمجة التطبيقات. ولكن في المؤتمر ، كان من المهم بالنسبة لنا أن نوضح كيف يمكن معالجة كل مرحلة باستخدام التعهيد الجماعي - بكفاءة وقابلية للتوسع.


ما الذي يمكن فعله أيضًا للحصول على نتائج أفضل وإنفاق أموال أقل

تقريبًا أكمله جميع المشاركين في البرنامج التعليمي بالكامل ، ووصلوا إلى الخطوات الأخيرة. لقد تعلموا كيفية تجميع مجموعات البيانات من منتجات مماثلة لمتجر عبر الإنترنت باستخدام التعهيد الجماعي. إن خط الأنابيب الذي استعرضناه في البرنامج التعليمي عالمي تمامًا ، ويمكن استخدامه ليس فقط في التداول عبر الإنترنت ، ولكن أيضًا في أي صناعة تحتاج إلى عرض أشياء مماثلة.

ما الذي تحدثت عنه الشركات الأخرى؟



يمكن الاطلاع على قائمة كاملة بالأعمال المنشورة على موقع المؤتمر.

لاحظنا عددًا كبيرًا من الأعمال المتعلقة بمحركات البحث الموصى بها ومجال التجارة الإلكترونية. في رأينا ، لم تقدم معظم الفرق نظريات علمية جديدة ، لكنها قدمت نتائج إدخال تقنيات معينة في المنتج. كان هناك العديد من التقارير حول الحلول القائمة على الشبكات العصبية - أخبر المؤلفون المكتبات التي تم استخدامها لهذا الغرض.

إليك بعض الملصقات التي لفتت انتباهنا ، مع التعليقات:

استراتيجيات CrowdWorker في مهام الحكم ذات الصلة


ملصق بواسطة CrowdWorker استراتيجيات في مهام الحكم ذات الصلة

هذا العمل أثار اهتمامنا بموضوعه. يتحدث المؤلفون عن كيفية تأثير تجربة فناني الأداء في التعهيد الجماعي على سلوكهم: النقر على المهام ، واستخدام مفاتيح التشغيل السريع ، والمهلة الزمنية.


الفرق في الوقت المستغرق لإنجاز المهام بين المنفذين الأكثر والأقل خبرة

بعد التجربة ، وجد المؤلفون أنه بعد أداء مهمتين على منصة التعهيد الجماعي ، حقق العمال الأقل خبرة سرعة مماثلة مع التنفيذيين ذوي الخبرة.

الاستنتاج العام: إذا كانت هناك طرق للتحكم في جودة المهام ، فإن تجربة المؤدين لا تؤثر بشكل كبير على الجودة النهائية للبيانات.

توقع الحراك البشري من خلال ملصق شبكة تلافيفية يقظة لتنبؤ بالحراك


البشري عبر شبكة تلافيفية يقظة

تدور هذه المقالة حول التنبؤ بمسار المستخدم - النقطة التي ستكون عندها في المستقبل. تعمل معظم طرق التنبؤ هذه مع إحداثيات GPS ، وركز مؤلفو هذا العمل على العلامات الجغرافية في الشبكات الاجتماعية.

يعتبر مؤلفو العمل مسارات المستخدم كصور ويستخدمون المرشحات لها. كل صورة لها أنماط متتالية كمؤشرات. تمت إضافة آلية الانتباه أيضًا إلى هذه الشبكة العصبية لمراعاة التفضيلات طويلة المدى.

أجرى المؤلفون تجارب على ثلاث مجموعات بيانات وخلصوا إلى أن نموذجهم يعمل بشكل أفضل من النماذج الحالية مع إحداثيات GPS.

المقاييس ونماذج المستخدم والرضا

درس المؤلفون كيفية ارتباط المقاييس التي تصف سلوك مستخدمي محرك البحث برضاهم.


ملصق المقاييس ونماذج

المستخدم ورضاهم أكدوا أن المقاييس مع نماذج المستخدمين التي تعكس السلوك النموذجي تميل أيضًا إلى أن تكون مقاييس ترتبط بشكل جيد مع تقييمات رضا المستخدمين.

ملف


تعريف المستخدم الهرمي لأنظمة مقترح التجارة الإلكترونية لملف تعريف المستخدم الهرمي لأنظمة مقترح التجارة الإلكترونية

يحل مؤلفو الورقة مشكلة التوصيات لمستويات مختلفة من التفاصيل.

يحاكي هيكل ملف تعريف المستخدم الهرمي الذي يقترحونه الاهتمامات المتعددة المستويات للمستخدمين باستخدام Pyramid Recurrent Neural Networks ، والتي تتكون عادة من طبقة مصغرة وطبقة من العناصر وعدة طبقات من فئات الشبكة العصبية المتكررة.

ما هي النتيجة؟


سيكون هذا المؤتمر مفيدًا للمتخصصين المشاركين في تحسين البحث.

قبل حضور WSDM وأي مؤتمر آخر ، ننصحك بدراسة البرنامج والأعمال المقبولة بعناية - سيساعد هذا ليس فقط على التجول بين الملصقات وورش العمل والخطب ، بل أيضًا على التواصل مع مؤلفي المشاريع المهتمة.

ولا تنس أن كل العمل موجود على الشبكة ، ويمكنك دراستها بنفسك. هذه ، بالمناسبة ، طريقة رائعة لاستخدام وقت فراغك.

All Articles