🙌🏿 🚵🏿 👨🏼‍💻 كيفية فتح التعليقات وعدم الغرق في الرسائل غير المرغوب فيها 💒 👧🏿 🌇

عندما تكون وظيفتك هي إنشاء شيء جميل ، لا يمكنك التحدث عنه بشكل خاص ، لأن النتيجة أمام أعين الجميع. ولكن إذا قمت بمسح النقوش من الأسوار ، فلن يلاحظ أحد عملك حتى تبدو الأسوار لائقة أو حتى تمحو شيئًا خاطئًا.

أي خدمة يمكنك فيها ترك تعليق أو مراجعة أو إرسال رسالة أو تحميل صور ، ستواجه عاجلاً أم آجلاً مشكلة البريد العشوائي والاحتيال واللغة الفاحشة. لا يمكن تجنب ذلك ، ولكن يجب محاربة ذلك.

اسمي ميخائيل ، أعمل في فريق مكافحة البريد العشوائي ، الذي يحمي مستخدمي خدمات Yandex من مثل هذه المشاكل. نادرًا ما يكون عملنا ملحوظًا (وجيدًا!) ، لذلك سأتحدث عنه اليوم بمزيد من التفصيل. سوف تكتشف الحالات التي يكون فيها الاعتدال عديم الفائدة ولماذا لا تكون الدقة المؤشر الوحيد لفعاليته. سنتحدث أيضًا عن رفيق باستخدام مثال القطط والكلاب ولماذا يكون من المفيد أحيانًا "التفكير مثل المحتال".

في Yandex ، هناك المزيد والمزيد من الخدمات حيث ينشر المستخدمون المحتوى الخاص بهم. يمكنك طرح سؤال أو كتابة إجابة في Yandex.Kew ، مناقشة أخبار الفناء في Yandex.Rayon ، مشاركة حالة حركة المرور في المحادثات على Yandex.Maps. ولكن عندما ينمو جمهور الخدمة ، يصبح جذابًا للمحتالين والمرسلين غير المرغوب فيهم. يأتون ويملؤون التعليقات: يقدمون أموالاً سهلة ، ويعلنون عن أموال خارقة ، ويعدون بمزايا اجتماعية. بسبب مرسلي الرسائل غير المرغوب فيها ، يفقد بعض المستخدمين المال ، بينما يفقد البعض الآخر الرغبة في قضاء الوقت في خدمة غير دقيقة ومتضخمة.

وهذه ليست المشكلة الوحيدة. نحن نسعى جاهدين ليس فقط لحماية المستخدمين من المحتالين ، ولكن أيضًا لخلق جو مريح للتواصل. إذا واجه الأشخاص في التعليقات لغة وإهانات فاحشة ، فمن المرجح جدًا أن يغادروا ولن يعودوا أبدًا. لذا ، يجب أن يكون هذا أيضًا قادرًا على القتال.

تنظيف الويب

كما يحدث غالبًا معنا ، ظهرت التطورات الأولى في البحث ، في الجزء الذي يحارب الرسائل غير المرغوب فيها في نتائج البحث. قبل عشر سنوات ، ظهرت مهمة تصفية محتوى البالغين لعمليات البحث العائلية والاستعلامات التي لا تتضمن إجابات من فئة 18+. لذلك ظهر أول قواميس مكتوبة يدويًا عن المواد الإباحية والحصيرة ، تم تجديدها من قبل المحللين. كانت المهمة الرئيسية هي تصنيف الطلبات إلى تلك التي يكون فيها محتوى البالغين مقبولًا وحيث لا. لهذه المهمة ، تم جمع الترميز ، وبناء الاستدلال ، وتم تدريب النماذج. لذا ظهرت التطورات الأولى لتصفية المحتوى غير اللائق.

بمرور الوقت ، بدأت Yandex في ظهور UGC (محتوى من إنشاء المستخدم) - الرسائل التي كتبها المستخدمون أنفسهم ، وينشر Yandex فقط. للأسباب الموصوفة أعلاه ، لا يمكن نشر العديد من الرسائل دون البحث - مطلوب الإشراف. ثم قررنا إنشاء خدمة توفر الحماية ضد الرسائل غير المرغوب فيها ومجرمي الإنترنت لجميع منتجات Yandex UGC واستخدام أفضل الممارسات لتصفية المحتوى غير اللائق في البحث. كانت الخدمة تسمى Clean Web.

مهام جديدة ومساعدة للمتداولين

في البداية ، عملنا فقط أتمتة بسيطة: لقد أرسلت لنا الخدمات نصوصًا ، وقمنا بتشغيل قواميس حصيرة ، وقواميس إباحية وقواميس عادية - قام المحللون بعمل كل شيء يدويًا. ولكن بمرور الوقت ، تم استخدام الخدمة في عدد متزايد من منتجات Yandex ، وكان علينا أن نتعلم العمل مع مشاكل جديدة.

في كثير من الأحيان ، بدلاً من التذكر ، ينشر المستخدمون مجموعة من الرسائل التي لا معنى لها ، في محاولة لإنهاء إنجازاتهم ، وأحيانًا يعلنون عن شركاتهم في مراجعات لشركة منافس ، وأحيانًا ما يخلطون بين المؤسسات ويكتبون في مراجعة حول متجر للحيوانات الأليفة: "السمك المطهي تمامًا!". ربما يتعلم الذكاء الاصطناعي في يوم من الأيام كيفية التقاط معنى أي نص بشكل مثالي ، ولكن الأتمتة تتواءم أحيانًا بشكل أسوأ من البشر.

أصبح من الواضح أنه لا يمكن للمرء الاستغناء عن وضع العلامات اليدوي ، وقمنا بإضافة الخطوة الثانية إلى دائرتنا - وإرسالها للفحص اليدوي من قبل شخص. كانت هناك تلك النصوص المنشورة التي لم يجد المصنف مشاكل فيها. يمكنك بسهولة أن تتخيل حجم هذه المهمة ، وبالتالي فإننا لا نعتمد فقط على المقيّمين ، بل استخدمنا أيضًا "حكمة الجمهور" ، أي أننا طلبنا المساعدة من المتداولين. هم الذين يساعدوننا في تحديد ما فاته الجهاز ، وبالتالي تعليمه.

التخزين المؤقت الذكي وتجزئة LSH

هناك مشكلة أخرى واجهناها عند التعامل مع التعليقات وهي الرسائل غير المرغوب فيها ، أو بالأحرى حجمها وسرعة توزيعها. عندما بدأ جمهور Yandex.Ryon في النمو بسرعة ، جاء مرسلو البريد العشوائي إلى هناك. تعلموا الالتفاف حول النظامي من خلال تغيير النص بشكل طفيف. بالطبع ، لا يزال يتم العثور على الرسائل غير المرغوب فيها وإزالتها ، ولكن يمكن لمئات الأشخاص رؤية رسالة غير مقبولة حتى لمدة 5 دقائق على مقياس Yandex.

بالطبع ، هذا لا يناسبنا ، وقمنا بعمل تخزين مؤقت ذكي للنصوص استنادًا إلى LSH ( التجزئة الحساسة للمنطقة) إنه يعمل على هذا النحو: قمنا بتطبيع النص ، وأزلنا الروابط منه وقصناه إلى n-grams (سلاسل من n الحروف). علاوة على ذلك ، تم النظر في التجزئة من n-grams ، وتم بالفعل بناء ناقل LSH للمستند عليها. النقطة هي أن النصوص المتشابهة ، حتى لو تغيرت قليلاً ، تحولت إلى ناقلات مماثلة.

سمح هذا القرار بإعادة استخدام أحكام المصنفات والتوكينز لنصوص مماثلة. في هجوم الرسائل غير المرغوب فيها ، بمجرد أن اجتازت الرسالة الأولى الشيك ودخلت في ذاكرة التخزين المؤقت مع حكم البريد العشوائي ، تلقت جميع الرسائل الجديدة المماثلة ، حتى المعدلة ، نفس الحكم وتم حذفها تلقائيًا. في وقت لاحق ، تعلمنا تدريب المصنفات غير المرغوب فيها وإعادة تدريبها تلقائيًا ، ولكن هذه "ذاكرة التخزين المؤقت الذكية" ظلت معنا ولا تزال تساعدنا كثيرًا.

مصنف النصوص الجيدة

لم يكن لدينا الوقت لأخذ استراحة من مكافحة البريد العشوائي ، فقد أدركنا أن 95٪ من المحتوى الخاص بنا خاضع للإشراف يدويًا: المصنفين يستجيبون فقط للانتهاكات ، ومعظم النصوص جيدة. نقوم بتحميل المتداولين ، الذين وضعوا في 95 حالة من أصل 100 تصنيفًا "كل شيء على ما يرام". كان علي أن أقوم بعمل غير عادي - لجعل المصنفات ذات المحتوى الجيد ، تراكمت فائدة الترميز في هذا الوقت بما فيه الكفاية.

بدا المصنف الأول على هذا النحو: نحن نلفظ النص (نقوم بتقليص الكلمات إلى الشكل الأولي) ، ونرمي جميع أجزاء الخدمة في الكلام ونستخدم "قاموس الليمونات الجيدة" المعدة مسبقًا. إذا كانت جميع الكلمات "جيدة" في النص ، فإن النص بأكمله لا يحتوي على انتهاكات. على الخدمات المختلفة ، أعطى هذا النهج على الفور من 25 إلى 35 ٪ من أتمتة الترميز اليدوي. بالطبع ، هذا النهج ليس مثاليًا: من السهل الجمع بين عدة كلمات بريئة والحصول على بيان مسيء للغاية ، لكنه سمح لنا بالوصول بسرعة إلى مستوى جيد من الأتمتة وأعطى الوقت لتدريب نماذج أكثر تعقيدًا.

تضمنت الإصدارات التالية من المصنفات للنصوص الجيدة نماذج خطية وأشجار القرار ومجموعاتها. لتمييز الوقاحة والشتائم ، على سبيل المثال ، نجرب الشبكة العصبية BERT. من المهم هنا إدراك معنى الكلمة في السياق وربط الكلمات من جمل مختلفة ، ويقوم BERT بعمل جيد في هذا الصدد. (بالمناسبة ، أخبر زملاء من الأخبار مؤخرًا كيف يستخدمون التكنولوجيا في مهمة غير قياسية - للبحث عن الأخطاء في الرؤوس.) ونتيجة لذلك ، تمكنا من أتمتة ما يصل إلى 90٪ من التدفق اعتمادًا على الخدمة.

الدقة والاكتمال والسرعة

من أجل التطوير ، تحتاج إلى فهم نوع المصنفات التلقائية التي تجلب الفوائد والتغييرات فيها ، وما إذا كانت جودة الاختبارات اليدوية لا تتدهور. لهذا ، نستخدم مؤشرات الدقة والاكتمال.

الدقة هي نسبة الأحكام الصحيحة بين جميع أحكام المحتوى السيئ. كلما زادت الدقة ، قلت الإيجابيات الخاطئة. إذا كنت لا تتبع الدقة ، فمن الناحية النظرية يمكنك حذف جميع الرسائل غير المرغوب فيها والبذيئة ، ومعها نصف الرسائل الجيدة. من ناحية أخرى ، إذا كنت تعتمد فقط على الدقة ، فستكون أفضل تقنية هي عدم جذب أي شخص. لذلك ، هناك أيضًا مؤشر على الاكتمال: نسبة المحتوى السيئ المكتشف بين إجمالي حجم المحتوى السيئ. يقيس هذان المقياسان بعضهما البعض.

للقياس ، نقوم بأخذ عينات من التدفق الوارد بالكامل لكل خدمة ونقدم عينات من المحتوى للمقيمين لتقييم الخبراء والمقارنة مع حلول الماكينة.

ولكن هناك مؤشر مهم آخر.

كتبت أعلاه أن مئات الأشخاص يمكنهم رؤية رسالة غير مقبولة حتى في 5 دقائق. لذلك ، نأخذ في الاعتبار عدد المرات التي تمكنا فيها من عرض محتوى سيئ للناس قبل إخفائه. هذا مهم ، لأنه لا يكفي للعمل بكفاءة - تحتاج إلى العمل بسرعة. وعندما قمنا ببناء الدفاع ضد الحصيرة ، شعرنا بها بالكامل.

Antimat على سبيل المثال القطط والكلاب

انحدار غنائي طفيف. قد يقول شخص ما أن السب والسب والسب ليسا بنفس خطورة الروابط الخبيثة ، وليس مزعجًا مثل الرسائل غير المرغوب فيها. لكننا نسعى جاهدين للحفاظ على بيئة مريحة للتواصل بين ملايين المستخدمين ، ولا يحب الناس العودة إلى حيث يشعرون بالإهانة. لا عجب أن الحظر المفروض على اللغة والشتائم البذيئة منصوص عليه في قواعد العديد من المجتمعات ، بما في ذلك حبري. لكننا كنا مشتتين.

قواميس ماتا لا تتعامل مع كل ثروة اللغة الروسية. على الرغم من حقيقة أن هناك أربعة جذور فاحشة رئيسية فقط ، يمكنك من خلالها إنشاء عدد لا يحصى من الكلمات التي لا يمكنك التقاطها من قبل أي نظامي. بالإضافة إلى ذلك ، يمكنك الكتابة في جزء تحويل صوتي من كلمة ، واستبدال الحروف بمجموعات متشابهة ، وإعادة ترتيب الحروف ، وإضافة النجوم ، وما إلى ذلك. في بعض الأحيان ، بدون سياق ، من المستحيل تحديد ما يعنيه المستخدم كلمة فاحشة. نحن نحترم قواعد هبر ، لذلك ، سوف نظهر ذلك ليس في الأمثلة الحية ، ولكن على الأختام والكلاب.

قال القطة: "ياو". لكننا نفهم أن القطة قالت كلمة أخرى ...

بدأنا نفكر في خوارزميات "المطابقة غير الواضحة" لمفرداتنا وحول المعالجة المسبقة الأكثر ذكاءً: المساحات المترجمة والمرتبطة بعلامات الترقيم ، وبحثنا عن الأنماط وكتبنا أنظمة منتظمة منفصلة عنها. أسفر هذا النهج عن نتائج ، ولكن في كثير من الأحيان خفض الدقة ، دون إعطاء الاكتمال المطلوب.

ثم قررنا "التفكير مثل الكلمات البذيئة". بدأنا نحن أنفسنا بإدخال ضوضاء في البيانات: أعد ترتيب الحروف ، ولّدت أخطاء مطبعية ، واستبدل الحروف بنفس الهجاء ، وهكذا. تم وضع العلامات الأولية لهذا عن طريق تطبيق قواميس حصيرة على مجموعة كبيرة من النصوص. إذا كنت تأخذ جملة واحدة وتشوهها بعدة طرق ، فستكون لديك بالفعل العديد من الجمل. حتى تتمكن من زيادة عينة التدريب عشرات المرات. كل ما تبقى هو التدريب على مجموعة مستلمة بعض النماذج الذكية أكثر أو أقل التي أخذت في الاعتبار السياق.

من المبكر الحديث عن القرار النهائي. ما زلنا نجرّب مقاربات لهذه المشكلة ، لكننا نرى بالفعل أن شبكة الالتفاف الرمزية البسيطة المكونة من عدة طبقات تتجاوز بشكل كبير القواميس والنظامي: فقد اتضح لزيادة الدقة والاكتمال.

بالطبع ، نحن نتفهم أن هناك دائمًا طرق للتجول حتى في الأتمتة الأكثر تقدمًا ، خاصة عندما تكون متهورة للغاية: الكتابة بحيث لا تفهم الآلة الغبية. هنا ، كما هو الحال في مكافحة البريد العشوائي ، ليس لدينا هدف للقضاء على إمكانية كتابة شيء فاحش ، مهمتنا هي جعل اللعبة لا تستحق الشمعة.

من السهل فتح الفرصة لمشاركة رأيك والتواصل والتعليق. من الأصعب بكثير تحقيق بيئة آمنة ومريحة واحترام للناس. وبدون هذا لن يكون هناك تطور لأي مجتمع.