البريد المزعج ، البريد المزعج ، البريد المزعج ...

يتلقى كل مشترك نشط في المتوسط ​​أكثر من أربع مكالمات غير مرغوب فيها في الأسبوع - وهذا هو الإعلان والعروض المصرفية وأحيانًا الاحتيال فقط. يتفاعل معظم العملاء بشكل سلبي مع هذه الأنواع من المكالمات. لحل هذه المشكلة ، قمنا بتطوير خدمة "حظر مكالمات البريد العشوائي" ، من خلال الاتصال الذي يتوقف فيه المستخدم عن تلقي مكالمات غير مرغوب فيها ، وفي نهاية كل يوم يقوم النظام بإخطار المشترك بالمكالمات التي تم حظرها. في هذه المقالة ، سيخبر علماء بيانات MTS Anna Rozhkova ( RogotulkA ) و Olga Gerasimova ( ynonaolga ) كيف طوروا خوارزمية تميز أرقام مرسلي البريد العشوائي عن بقية قاعدة المشتركين.



بناء نموذج


لذلك ، واجهنا مهمة التصنيف الثنائي.

في الواقع ، كيف تميز المشترك (حتى اجتماعي جدًا ، مع مجموعة واسعة من جهات الاتصال الجديدة) من مرسل البريد المزعج الذي يفرض بلا كلل خدمات مركز طبي آخر؟ في البداية ، اعتبرنا تلك الأرقام التي اتصلت بالعديد من المشتركين المختلفين على أنها رسائل غير مرغوب فيها ، ولكن تبين أنه من الصعب التمييز عن المتاجر عبر الإنترنت. ثم قررنا أخذ الأرقام ، التي غالبًا ما يتم إسقاط مكالماتها ، ولكن في بعض الأحيان يسقط الأشخاص المكالمات عندما لا يشعرون بالراحة في التحدث. لقد اختبرنا أيضًا الفرضية القائلة بأن المشتركين لن يتصلوا بمرسلي الرسائل غير المرغوب فيها (في غضون فترة زمنية قصيرة بعد مكالمة فائتة) ، ولكن كان هناك عدد كبير جدًا من هذه الأرقام ، ربما يكون هذا سلوكًا قياسيًا بالنسبة لبعض المشتركين ، ولا يتصلون مرة أخرى بالأصدقاء. ونتيجة لذلك ، توصلنا إلى قرار بأن أعداد الرسائل غير المرغوب فيها تختلف في مستوى عدم رضا المستخدم عنها. لذلك كماتم أخذ المتغير المستهدف بأرقام ، والتي تلقت الكثير من الشكاوى ، وتم تمييز الأمثلة السلبية من تلك التي لديها القليل من المراجعات السلبية أو لا شيء على الإطلاق.

تم استخدام البيانات المجمعة لنشاط المتصلين كعلامات: متوسط ​​مدة المكالمة ، وفترات اليوم مع أعلى نشاط ، ومتوسط ​​مدة الفاصل بين المكالمات ، وسرعة تحديث دائرة جهات الاتصال ، وغيرها الكثير. لاحظنا أيضًا أن العديد من مرسلي البريد العشوائي يختارون "أرقامًا جميلة" أو ما يشبه الأرقام الموجودة المعروفة (على سبيل المثال ، رقم الخط الساخن للبنك) ويضيفون هذه الميزات الثنائية. 

اختيار المقياس


كانت الخطوة التالية هي اختيار مقياس التحسين. في قرارنا ، كان من المهم عدم حظر المكالمات من الأرقام العادية ، لذلك قررنا أن دقة النموذج يجب أن تكون 95٪ على الأقل. الدقة هي النسبة المئوية للأرقام المعترف بها ككائنات من فئة البريد العشوائي التي توقعها النموذج بشكل صحيح. ولكن من المهم حظر أكبر عدد ممكن من الأرقام غير المرغوب فيها ، لذلك اختر أقصى استدعاء (استدعاء) للحصول على مستوى مقبول من الدقة. تحتوي النسخة النهائية من النموذج على المؤشرات التالية: دقة 95٪ ، أذكر 94٪. الآن النموذج في الموعد المحدد ويعيد تدريبه بانتظام لملاحظة التغييرات في نشاط الاتصال لمجموعات مختلفة من المشتركين ، ويتم فحص هذه المقاييس للتأكد من أنها لا تقل عن 90 ٪ لكل منها.



نظرًا لحقيقة أن أرقام البريد العشوائي أصغر بكثير من المعتاد ، أي أن العينة غير متوازنة ، فقد تم تقليل عدد الأمثلة السلبية الإيجابية نسبيًا (اختزال العينة). في عينة التحقق ، تم اختيار نسبة الصف الحقيقية من أجل الحصول على فكرة عن جودة عمل النموذج "في المعركة". أيضًا ، تم تضمين فقط أرقام البريد العشوائي التي كانت نشطة في تاريخ معين بسبب عدم تناسق مرسلي الرسائل غير المرغوب فيها في العينة: هناك فترات للاتصال النشط ، وهناك فترة سلبية عند إجراء عدة مكالمات ، على الأرجح للحفاظ على الرقم. في بعض الأحيان يتم حظر الأرقام بعد الحملة ونقلها إلى مالك آخر.

كخوارزمية ، تم استخدام تنفيذ تعزيز xgboost ، لأنه أعطى أفضل النتائج في عينة التحقق. تبين أن العلامات المهمة للنموذج هي: بيانات عن نشاط المشتركين في أوقات مختلفة من اليوم ، وعدد المكالمات القصيرة ، واتساع دائرة الأصدقاء. كانت حقيقة مثيرة للاهتمام هي أن ميزة مشغل الاتصالات دخلت الميزات الرئيسية. أدناه على الرسم البياني قمنا بإخفاء هوية مشغلي الهاتف المحمول وقدمنا ​​إحصائيات حول استخدام أرقامهم من قبل مرسلي البريد العشوائي:


اختبارات


في هذه المهمة ، لم يكن من الممكن إجراء اختبار A / B: الخدمة على مستوى الشبكة لا تعني وجود قوائم مختلفة من أرقام البريد العشوائي ، لذلك أطلقنا الإصدار التجريبي من الإصدار الأول من النموذج داخل الشركة ، وأصبح الزملاء والإدارة العليا مختبرين. تعد التغذية المرتدة السريعة إحدى الميزات الإيجابية للاختبار الداخلي. بدأنا على الفور في طرح الأسئلة:

  • لماذا وصل هذا الرقم؟
  • لماذا حظرت هذا الرقم؟
  • لست بحاجة إلى تأمين آخر على السيارة (كم يمكنني؟!)


أصبحت تجربتنا الشخصية أيضًا سببًا إضافيًا للبحث عن ميزات جديدة للنموذج ، عندما تم العثور على هاتف شركة الشحن في قائمة الميزات المحظورة بعد انتظار طويل للتسليم من المتجر عبر الإنترنت.

إطلاق في همز


هناك مشكلة خطيرة أخرى في تصنيف الأرقام وهي الاختلاف في الأفكار حول ما هو البريد العشوائي: بالنسبة للبعض ، المكالمات مع عرض القرض هي معلومات غير ضرورية ، وينتظر شخص ما العروض الشخصية واختيار أفضلها ، لذلك تم منح المشترك الفرصة لعرض قائمة المتصلين أرقام مع خيار تعطيل تلك التي قد تكون مفيدة له.



كان أحد أكثر الطلبات شيوعًا من المستخدمين لإنهاء الخدمة هو توسيع المحتوى المعلوماتي لتقرير الرسائل القصيرة على الأرقام المحظورة يوميًا مع بيانات عن فئات المكالمات ، على سبيل المثال ، البنوك أو الخدمات الطبية أو العقارات.

تم بناء الإصدارات الأولى من النموذج على ميزات تم جمعها على مدى فترة طويلة من الزمن ، لكننا لاحظنا أن النموذج غالبًا لا يأخذ في الاعتبار الأرقام التي ظهرت مؤخرًا على أنها رسائل غير مرغوب فيها ، أي أرقام جديدة أو تلك التي بدأت مكالمات المتصل النشطة بعد فترة من "الصمت". لحل هذه المشكلة ، قمنا ببناء نموذج إضافي على الميزات التي تم جمعها على مدى فترة أقصر. لم يكن يكفي إضافة ميزات "قصيرة" إلى عرض التدريب ، لأن عينات التدريب نفسها مختلفة: لا يتطابق المشتركون النشطون لفترات طويلة وقصيرة.

تتضمن خططنا الإضافية لتطوير المنتج إنشاء قوائم فردية للرسائل غير المرغوب فيها ، مع مراعاة ملف تعريف العميل واحتياجاته ، ونقل النموذج إلى الوضع عبر الإنترنت ، بحيث يلتقط ذروة نشاط مرسلي الرسائل غير المرغوب فيها بدءًا من هنا والآن.

All Articles