المنافسة VK Sup. تتبع ML. المركز الرابع. كيف؟

صورة

في هذه المسابقة ، التي أقيمت كجزء من الجولة التأهيلية لـ VK up 2020 ، track ML ، كان من الضروري التنبؤ بنسبة الجمهور المحتمل الذي سيشاهد الإعلانات المعروضة على العديد من المنصات الإعلانية لعدد معين من المرات: 1،2،3 في المستقبل.

لم تكن هذه منافسة كلاسيكية لإرسال توقعات نهائية إلى بيانات الاختبار المعروفة ، ولكن توقعًا على بيانات غير معروفة تمامًا تم إرسالها إلى النموذج في عامل الميناء الذي تم إطلاقه على موقع المسابقة.

بشكل عام ، مثل هذا الحل يساوي فرص المشاركين ولا يسمح لأولئك الذين يرغبون في إلقاء نظرة خاطفة على الاختبار ، وإثراء مجموعة بيانات التدريب معهم ، وتناسب النموذج مع توزيع بيانات الاختبار. هنا كان الجميع على قدم المساواة ، لأنه ليس من الواضح ما قد يكون في البيانات: البيانات "غير المرغوب فيه" ، والقيم المتطرفة ، والمحدِّدات غير الصالحة ، وما إلى ذلك. ولكن كل هذه الفروق الدقيقة في نفس الوقت تجعلنا نفكر في التعامل مع الاستثناءات.

في هذه المسابقة ، حصلت على مكان رابع غير واضح وأريد أن أقول كيف كان ذلك ممكنًا.

نظرة عامة على البيانات


تم تقديم البيانات الأولية في الشكل التالي:

  1. users.tsv – : , , . , , , . ( ), .
  2. history.tsv — "-", ( ) . , , .
  3. ملف validate.tsv هو ملف تحقق لتدريب النموذج ، فهو يحتوي فقط على بيانات حول الفاصل الزمني وبأي سعر تم عرض إعلان لجمهور معين (النظام الأساسي والمستخدم). أعطيت المستخدمين والمواقع في شكل سلسلة من النموذج (1،5،7،3،14،6).
  4. ملف validate_answers.tsv - يتكون ملف الإجابات من ثلاثة أعمدة: النسبة المئوية (القيم من 0 إلى 1) ، يبدو الجمهور مصنفًا 1 ، 2 ، 3 مرات. وبالتالي ، فإن هذه التسلسلات لا تتزايد.

الغرض من المسابقة : التنبؤ بثلاث مجموعات من القيم للبيانات الجديدة من المستقبل (بتنسيق ملف Validate.tsv ) - ما هي نسبة الجمهور التي ستشاهد إعلانًا 1.2 ، 3 مرات.

مزيد من التفاصيل حول المهمة على موقع المسابقة .

المتنبئون


المتنبئات النهائية التي استخدمتها هي مجموعة من مجمعين:

  • تنبؤات تستند إلى التاريخ ومقارنتها بالبيانات الجديدة
  • تنبئ فقط على البيانات من المستقبل

من بين المعقد الأول ، استنادًا إلى ملف السجل ، تم إنشاء إحصائيات أساسية لأزواج موقع المستخدم المجمعة ، وبالتالي تجميعها لزوج موقع المستخدم في ملفات التحقق والاختبار. وأعقب ذلك اختيار المتنبئين بطرق مختلفة - بناءً على ترددات استخدام المتنبئات في مراحل التقسيم والاستخدام في النموذج نفسه ، وعلى عمليات التحقق من الأعلى إلى الأسفل ومن الأسفل إلى الأعلى. على الرغم من مخططات الاختيار المختلفة ، بشكل عام ، فإن كل ذلك يرجع إلى مجموعة واحدة من المتنبئات ونتيجة لذلك كان هناك سبعة منهم.

إن تفسير المتنبئين للمجمع الثاني (كان هناك سبعة منهم أيضًا بشكل مدهش) هو أبسط بكثير بشكل عام:

1. دلتا- فارق التوقيت. هل هذا منطقي؟ منطقياً: كلما زاد الفاصل الزمني ، زادت احتمالية المشاهدات. بالطبع ، لا يوجد اعتماد مباشر ، ولكن ماديًا يجب أن يكون على هذا النحو ؛ علاوة على ذلك ، يعد هذا أحد أقوى التنبئات إذا أخذناها بعين الاعتبار بشكل منفصل.

2. Delta2 هو أيضًا فرق زمني ، ولكن يتم تحويله يوميًا (أي قسمة صحيحة على 24). أي أننا نحول الاعتماد الخطي إلى اعتماد مجزأ. الفكرة هنا بسيطة: نحن لا نميز بين الساعات ، ولكن الفترات الطويلة جدًا (الأيام) ستحدد اتجاهها الخاص.

3. التكلفة لكل ألف ظهور - السعر نفسه ، بالمثل: كلما كان السعر أكثر تكلفة ، زادت احتمالية عرضه ، مرة أخرى ، بالطبع ، لا يوجد اعتماد مباشر ، ولكن في "مغازلة" المتنبئين الآخرين على أساس التاريخ ، يتم تتبع الاعتماد بشكل واضح.

4-7. هذه هي خطيئة و cos في أوقات البدء والانتهاء للإعلانات ، والتي تُترجم أيضًا إلى مقياس 24 ساعة. يسمح لك استخدام هذه الوظائف ، على عكس الوقت الخطي ، بمراعاة الفترات الزمنية التي تمر خلال اليوم. أدى استخدام هذه المتنبئات على الفور إلى تحسن بنسبة 1.5 نقطة مئوية.

المقياس والاستجابة


تم تقديم مقياس معدل دقة السجل المتوسط (المشار إليه فيما يلي باسم SMLAR ) من قبل المنظمين .

صورة

حيث يتم تقديم الاستجابة الأولية في نسبة الجمهور الذي شاهد الإعلان 1.2.3 مرة ، أي القيم في النطاق [0.1].

بالمناسبة ، يشير KDPV إلى سلوك هذا المقياس ، أو بالأحرى ، ليس المقياس بأكمله ، ولكن الجزء الخاص به ( MAE لوغاريتم تحيزات التنبؤ) لجميع تركيبات التنبؤ والقيمة الحقيقية عبر النطاق بأكمله [0،1].

إذا نظرت بعناية إلى صيغة المقياس ، فعندئذٍ: من جهة ، يتوافق هذا المقياس تقريبًا مع المتوسط ​​الهندسي لنسب التنبؤات والقيمة الحقيقية (مع التحيز) ، والتي من الواضح أنها أفضل من مقياس المتوسط ​​الحسابي (بسبب النتيجة النهائية الدنيا). من ناحية أخرى ، إذا حذفنا الأس ، الذي يتصرف عند القيم المنخفضة تقريبًا مثل أس درجته ، يتم تحويل المقياس إلى MAE بواسطة لوغاريتم الاستجابة مع الإزاحة. وبالتالي ، لبناء نماذج صحيحة أيديولوجيا ، كان من الضروري استخدام الاستجابة الأولية مع الإزاحة ووظيفة الخسارة التي يوجد فيها لوغاريتم في شكل صريح ، أو على العكس من ذلك ، استخدم أولاً لوغاريتم استجابة الإزاحة ووظيفة الخسارة الخطية ( MAE ، eps) ولكن ، بالنظر إلى نموذجي (حيث لم يتم تحديد وظيفة الخسارة بشكل صريح) ، اخترت التحول الأمثل للاستجابة بناءً على نتائج نموذج التحقق.

فكرت في خيارات الاستجابة التالية - المشاركات الأصلية ، لوغاريتم المشاركات ، الانتقال إلى القيم المطلقة لعدد المستخدمين ، لوغاريتمهم بإزاحات مختلفة (هنا كانت هناك محاولة لاستخدام إزاحة موحدة عند الانتقال إلى القيم المطلقة ، حيث يتم الإشارة إلى الإزاحة 0.005 للسهم ، وكان الجمهور مختلفة ، من 300 إلى 2500 ، لذلك يجب أن تكون الإزاحة في النطاق من 1 إلى 12 ، لكنني تحققت فقط من القيم 1 و 10) ، وجذر القيمة المطلقة للأشخاص الذين شاهدوا الإعلان.

صورة

توضح الصورة أعلاه نتائج نموذجين تدربا على استجابة مختلفة: مشاركة الجمهور الأولية والعدد المطلق للمشاركين.

يوضح المخطط العلوي القيم المصنفة للاستجابة الحقيقية (بواسطة كسور الفحص الأول) والقيم المتوقعة لكلا النموذجين. من الواضح على الفور أن معظم قيم الاستجابة صغيرة جدًا ، لذا فإن القيمة المتوسطة هي حوالي 5٪ ، وهذا فقط للمسح الأول (بالنسبة للمسح الثاني ، يكون الوسيط أقل بالفعل من 1٪ ، وبالنسبة للمسح الثالث ، ما يقرب من 0٪ ، وبالنسبة لهذا المقياس والأخطاء الصغيرة على هم مزعجون للغاية). من الواضح أيضًا في هذا الرسم البياني أن النموذج بالقيم المطلقة أفضل نوعيًا ، وانتشار التقديرات ضئيل للغاية ، وعلى الرغم من حقيقة أن الانحرافات غير مرئية تقريبًا على الرسم البياني عند القيم الصغيرة ، ونتيجة لذلك ، فإن الأخطاء في هذه القيم الصغيرة هي التي تؤثر بشدة النتيجة النهائية. ويمكن رؤية الشيء نفسه على KDPV، انحناء حاد جدًا عند قيم منخفضة ، خاصة قريبة من الصفر.

يوضح الرسم البياني المتوسط ​​خطأ كل توقع تم فرزه ؛ تظهر أخطاء قوية عند القيم الصغيرة وانخفاضها مع زيادة قيم الاستجابة.

في الرسم البياني السفلي ، يتم بالفعل رسم رسم تخطيطي للمقياس الهدف نفسه بواسطة الإجمالي المتراكم لجميع القيم التي تم فرزها. ما هي الاستنتاجات من كل هذا؟ الأول هو أن الاستجابة المختارة تؤثر بقوة على نتائج النموذج ، ولكن أكثر من ذلك أدناه ، الاستنتاج الثاني ، تولي اهتمامًا خاصًا للقيم الصغيرة ، خاصة قريبة من الصفر ، من الواضح أن النماذج لن تكون دائمًا قادرة على التنبؤ بصفر خالص ، وبالتالي فإن التصحيحات ضرورية. والأخطاء في القيم الكبيرة ليست مهمة جدًا ، أولاً ، فهي صغيرة نسبيًا ، وثانيًا ، ستكون النسبة المئوية للخطأ في القيم الكبيرة صغيرة ، وفي الوقت نفسه ستقدم أقل مساهمة إجمالية في المقياس.

ونتيجة لذلك ، وفقًا لنتائج العديد من التجارب ، كان الفائز بهامش واضح هو الاستجابة - جذر القيم المطلقة للمستخدمين. في الوقت نفسه ، على تنبؤات مختلفة (من خلال المشاهدات 1 و 2 و 3) ، وأحيانًا فازت نماذج ذات لوغاريتم من القيم المطلقة ، ويرجع ذلك إلى هيمنة واضحة على 0 في الردود ، ونتيجة لذلك ، كان اللوغاريتم مع بعض التحيز أفضل. ولكن إذا قمت بتوسيطه ، فإن الجذر البسيط بدون أي انحياز أظهر نتائج مستقرة جيدة ، لذلك لم أكن أرغب في تعقيد القرار ، ولكن التوقف عند طريقة موحدة بسيطة - فقط جذر الناس.

ما سبب حقيقة أن الانتقال إلى الأشخاص يحسن النتيجة بشكل ملحوظ بالنسبة إلى الأسهم (مرتين تقريبًا)؟

على ما يبدو ، الحقيقة هي أن التحول إلى الناس ، أو مضاعفة المشاركة من قبل الجمهور ، أو نفس الشيء الذي يقسم جميع المتنبئين على نفس الجمهور ، نذهب إلى البعد المتعلق بـ "شخص واحد" ، واعتبارًا أن أساس نموذجي هو الانحدار ، التقدير النهائي هو نوع من الاحتمالات المرجحة بالنسبة لكل متنبئ. من الممكن أنه إذا قمنا بتطبيع جزء من المتنبئين فقط للجمهور ، على سبيل المثال ، من متنبئي المجموعة الأولى (المجموع على جميع الأزواج ، على سبيل المثال) ، فإن هذا التطبيع سيجعل أبعاد جميع المتنبئين أقرب إلى نظام إبلاغ واحد (لكل شخص) ، والانحدار النهائي نظرًا لأن استجابتها لن تكون أكثر من متوسط ​​المجموع المرجح لمساهمات كل متنبئ (الذي يميز شخصًا واحدًا) إلى الاحتمال الكلي للمشاهدة ، فإن النتيجة ستكون أفضل.ولكن في وقت اتخاذ قرار المسابقة ، لم أقترب من هذا الجانب وعملت بشكل حصري مع استجابة متغيرة.

نموذج


في الواقع ، كان من الضروري وضع هذا القسم أعلى ، لأنه بسبب هذا النموذج كان علينا تحديد نوع الاستجابة والتنبؤات اللازمة المستخدمة (تم تعديل النموذج وفقًا للبيانات) ، وبطريقة أو بأخرى ، كان من الممكن الوصول إلى واحد مقبول على تنبؤات مختلفة والنتيجة حوالي 15٪. لكنني أردت أن يكون هناك في المتوسط ​​بعض المبررات لاختيار تنبؤات محددة ، لذلك ، تم اختيار مجموعات من التنبئات للتحقق من صحتها.

استخدمت نموذجًا من عائلة من أشجار نموذج الانحدار ، وهي النموذج التكعيبي (نموذج 1992!) ، وتطبيقه في حزمة تحمل نفس الاسم في R. بدلاً من ذلك ، تكون النتيجة النهائية هي المتوسط ​​الهندسي لمجموعتين من النماذج ، كل منها يتكون من 3 نماذج منفصلة ، ولكن في سلسلة متتالية: تم استخدام التنبؤ بالنموذج السابق (لطريقة عرض واحدة) كتنبؤ للنموذجين الثاني والثالث ، والتنبؤ النهائي للعرض الثاني كمتنبئ للمجموعة الثالثة نموذج. اختلف كلا الزوجين من النماذج قليلاً في التنبؤات والتعديلات المتوسطة ، وتم استخدام الوسط الهندسي الخاص بها بناءً على الحس السليم (حسنًا ، التحقق من الصحة ، مع دورة عامة) ، والمعنى بسيط: كما كتبت أعلاه ، يتم إيلاء اهتمام خاص للتنبؤات الصفرية ، وعمومًا إلى الحد الأدنى ، والمتوسط ​​الهندسي هو بالضبط ما يفعله: يختفي التنبؤ إذا كان أحدهما صفرًا بالفعل (وهذا منطقي إذا أظهر أحد النماذج صفرًا ، لذا دعه يبقى ،مما سنؤخر التنبؤ من الصفر).

وبفضل سلسلة النماذج ، "فهم" النموذج بشكل غير مباشر (منذ الانحدارات) أن كل استجابة لاحقة "تتشبث" بالإجابة المتوقعة سابقاً للتقدير السابق ، ويقوم المتنبئون المتبقيون بتصحيح الإجابة ، والتي يجب ألا تكون أكثر من السابقة. لقد اختبرت أيضًا ثلاثة نماذج منفصلة تنبأت بالردود بشكل فردي. كانت النتيجة أضعف بسبب وفرة الأصفار في المسحين الثاني والثالث ، ولم تستطع عائلة الانحدارات أن تصل بدقة كافية إلى 0 ، وعندما نضيف "دليل" للتقدير السابق ، الذي هو بالفعل 0 أو قريب منه ، فإن عائلة الانحدارات الناتجة تقع أيضًا بالقرب من هذا يقيم ويعدل فقط الاستجابة للعرض الثاني والثالث.

ما هو الجيد في هذا النموذج؟

عندما رأيت المهمة ، تذكرت على الفور عن هذا النموذج ، لأنه في إحدى المسابقات السابقة في مشكلة قابلة للمقارنة (العلاقات الخطية وتصحيحاتها) كان أيضًا أحد الأفضل ، وبشكل عام ، لدينا بيانات خطية إلى حد ما هنا ، هناك علاقة واضحة بين الكميات المشاهدات (الثانية أقل من الأولى ، والثالثة أقل من الثانية) ، هناك القليل من البيانات - فقط 1008 ملاحظة ، هناك عدد صغير من المتنبئات ، ربما نوع من التبعيات الخطية المكسورة. بالإضافة إلى ذلك ، هذا النموذج سريع جدًا ، استغرق البناء عدة ثوان ، لذلك كان من المناسب لها اختبار العديد من الفرضيات. ومع ذلك ، ليس لديها معلمات مفرطة (باستثناء الجيران (معلمة أخرى هي توقعات تصحيحية) ، والتي لم أستخدمها) ، والتي يمكنني إعادة التدريب عليها.

كيف هو التنبؤ في هذا النموذج لشجرة واحدة؟
, , 100 ( , , 10-20 ), , , , : ( ), , ( , ) .

, , .

التعديلات


بالإضافة إلى ذلك ، تم استخدام تعديلات صغيرة للتنبؤات ، وهي: عند التحول من العدد المطلق للأشخاص إلى حصصهم ، من المحتمل أن تحدث حالات قيم صغيرة جدًا (إيجابية ، أكثر بقليل من 0 ، أو أكثر من 1) ، وإذا كان في حالة القيم أكثر من 1 ، فإن تعديلهم لم يلعب دورًا أكبر (ربما كان هناك عدد قليل من هذه الرحلات ، وإذا كانت كذلك ، فعندئذ ليست كبيرة) ، ولكن في حالة القيم الصغيرة ، كانت حرجة نسبيًا. من خلال المنطق ، تم قبول أنه إذا توقعت ، على سبيل المثال ، شخص واحد (أو 0.5 شخص ، لم يتم تنفيذ التقريب) ، فإن الحد الأقصى لعدد الجمهور هو 2500 (وهذا غير معروف تمامًا بالبيانات المعروفة في القطار ، والتي تحدث بالفعل في بيانات الاختبار) ، وهو 0.0004 (بالمناسبة ، وفي القطار ، القيمة الدنيا هي 0.0004) ،هذا يعني في مكان ما بالقرب من هذه القيمة أنه من الضروري تحويل القيم الأقل إلى 0 ، وبالنظر إلى أن نماذجي مبنية في سلسلة ، فإن بناء النموذج التالي وتوقعاته يعتمد على الصفر المتوقع ، وما إلى ذلك. أثرت بشكل كبير.

لم يكن من المنطقي تحديد حد للتحقق من الصحة (لأن النموذج يتكيف مع هذه البيانات على أي حال ، وأنا أعلم التوزيع) ، لذلك نظرت إلى الجمهور (لبعض القيم المحددة) ، ولكن في النهاية تركت لأحد النماذج الثلاثة عتبة تقريب جميلة من 0.0005 ، وللنظرية الثانية 0.0004.

وكان التعديل من أعلى أسهل والقيم أكبر من 0.95 إلى 0.95 في الأجور، 0.95 قدم على أساس سهم كحد أقصى للبيانات الاختبار المستخدمة مع لمع أكبر هامش (0.93 كحد أقصى في القطار) ، لم يكن لهذا التعديل أي تأثير عمليًا على الجمهور (المغادرة الفردية على ما يبدو في الجمهور) ، تم تركها حصريًا للأمان في خصوصية. وأيضًا تمت إضافة تصحيح متعلق بالأصفار ، إذا كان التوقع صفرًا على المسح الأول ، ثم على الرغم من تنبؤات النماذج في المسح الثاني والثالث ، فإن تنبؤاتهم تذهب أيضًا إلى 0 ، وهذا لم يؤثر كثيرًا ، في مكان ما في العلامة الثانية (النموذج عمليًا دائمًا وهكذا فعلت نفسها (أقل من السابقة والصفر)) ، لكنها تركت للأمان على انفراد.

النتائج


كانت النتائج تعتمد بشكل كبير على نوع الاستجابة والتنبؤات المحددة ، على سبيل المثال ، حتى لو توقعت كسورًا ، أو حتى أفضل من اللوغاريتم ، يمكنك تحديد تنبؤات أخرى وستكون النتيجة حوالي 16٪ ، وإذا انتقلت إلى قيم مطلقة وأعدت أيضًا تحديد تنبؤات ، ثم بدأ كل شيء حوالي 15 ٪ ، لذلك كان هذا خط الأساس.

وبالمناسبة ، كانت هذه النتائج كافية بالفعل للبقاء في المراكز الخمسة الأولى ، ولكن كان من المثير للاهتمام "تعزيز" المزيد.

وبالتالي ، ما الذي أدى إلى تحسن كبير في هذه الـ 15٪؟

بشكل عام ، فقط إضافة ساعات ، ساعات فقط (وقت البدء والانتهاء) حقق 13.97٪ على الفور ، وتغييرها إلى جيب التمام تحسن إلى 13.44٪ ، ثم تحسن إلى 13.25٪ تقريب القيم الصغيرة إلى الصفر ، والمتوسط ​​الهندسي متوسط ​​النموذجين ، أي أنه كان بالفعل أكثر ملاءمة للاختبار (العام) ، وبسبب هذا ، ما زلت أتحمل القليل مع الجمهور.

في هذه المسابقة ، كان من الضروري اختيار حل واحد. الآن ، بالنظر إلى LC ، أرى أن الحل الذي اخترته تبين أنه الأفضل تقريبًا في القطاع الخاص أيضًا (لم يتغير المكان) (أفضل خصوصية أقل من 0.02 نقطة مئوية) ، ولكن إذا كنت تأخذ عمليات إرسال لم يتم تقريب الإجابة فيها ، فعندها في خصوصية كانت أسوأ قليلاً - 13.6 ٪ ، أي أنه لم يكن هناك إعادة تدريب قوية للجمهور ، ولكن هذا الضبط اللاحق لم يلعب دورًا كبيرًا أيضًا.

ونتيجة لذلك، فإن نجاح الاحتياطي الرئيسي: تنبئ المحددة ضمن نموذج استجابة مختارة التكعيبية ، ونماذج تتالي (1-> 2-> 3) والزماني الصورة الإلكترونية تنبئ ( الخطيئة ، كوس ).

استنتاج


على الرغم من حقيقة أن الفائزين في المراكز الخمسة الأولى استخدموا نماذج مختلفة ، بما في ذلك النماذج الحديثة (1 مكان - SVR ، 2 مكان - catboost ، 3 مكان - الشبكة العصبية ، 5 مكان - lightgbm ، على الرغم من أن هؤلاء الفائزين لديهم تنبؤات أكثر تعقيدًا) ، لقد احتلت المركز الرابع باستخدام أحد أقدم النماذج الكلاسيكية لعام 1992 (حتى ظهرت أفكار SVR لاحقًا) على تنبؤات بسيطة وواضحة إلى حد ما ، والتي تؤكد مرة أخرى: ليس دائمًا ما يكفي للتشغيل على أجهزة التنبؤ التي تم إنشاؤها (كانت هذه الأساليب أقل بكثير في التقييم النهائي ، حوالي 20٪) ، الحس السليم للمتنبئين ، وتحول الاستجابة ، واختيار وظيفة الخسارة في النماذج (إن وجدت) تلعب دورًا مهمًا هنا.

بشكل عام ، اتضح أن المنافسة مثيرة للاهتمام وخلاقة ، مع الاستنتاجات ذات الصلة.

آمل أنه في المرحلة النهائية (بدوام كامل) من المسابقة ، لن تكون المهمة أقل إثارة للاهتمام.

All Articles