اختبار نسج - 100 مرة أسرع من اختبار AB

اختبار A / B هو أحد الأدوات الرئيسية لإدارة المنتج ، حتى الآن لم يأتوا بطريقة أكثر موثوقية ورخيصة لتقييم موثوق تأثير تغيير واحد محدد على مقاييس الأعمال للمنتج ، وعزله عن جميع العوامل الأخرى.

في هذه المقالة ، أود أن أتحدث عن طريقة بديلة لاختبار التغييرات في المنتج: اختبار التشابك ، في الأدب الإنجليزي - اختبار التشذير. للكشف عن مزاياها وعيوبها ، سنقارنها بشكل خاص مع اختبار A / B التقليدي ، ولكن ليس لأنه نوع من طريقة جديدة وأكثر تقدمًا ، وهي أسرع وأكثر دقة ، ويجب أن تحل محل اختبارات A / B. هذه أداة إضافية لمدير المنتج مع مجال تطبيق مختلف والإجابة عن سؤال مختلف. المقارنة تجعل ببساطة من السهل إظهار الاختلافات ونقاط قوة الاختبارات عن طريق النسيج.

ملخص:

  • لماذا النسيج أسرع من اختبار أ / ب
  • متى يمكن نسج اختبار نسج؟
  • ما الفرق بين اختبار A / B ونسج النتائج
  • كيفية الجمع بين قوة النسيج واختبار A / B

لماذا اختبار نسج أسرع بكثير من اختبار A / B


في محاولات عديدة لنقل الفكرة الأساسية للنسيج إلى الزملاء ومديري المنتجات الآخرين ، توصلت إلى استنتاج مفاده أن المثال التالي يوضحها بشكل أفضل. خذ لحظة لدخول السياق ، أعدك أنه بنهاية المثال ستوافق على أن هذا واضح جدًا.

لنفترض أننا بحاجة إلى تحديد الصودا التي يجب تقديمها في البار الخاص بنا لبيع أكبر عدد ممكن من المشروبات: Coca-Cola أو Pepsi. إذا اقتربنا من هذا الحل من وجهة نظر اختبار A / B ، فيجب علينا فتح شريطين متطابقين تمامًا في أحدهما لن يكون هناك سوى الكولا ، وفي الآخر فقط بيبسي ، وتوجيه الزوار إلى أحد هذه الأشرطة بشكل عشوائي.

صورة

ثم نقارن الزائرين الذين طلبت منهم الحانات أكثر المشروبات المتاحة هناك ، ونستنتج أي المشروبات توفر أكبر عائد.

أعتقد أنه يمكنك بالفعل رؤية المشكلة: فالكثير من زوار هذا الشريط حيث لا يوجد لديهم مشروبهم المفضل سيظلون يطلبون ما يقدمونه ، لأنهم ما زالوا يريدون الشرب. والقليل جدا فقط هم الذين سيبدون في تفضيلاتهم لدرجة أنهم لن يشربوا على الإطلاق أو يشربوا أقل بكثير. لا يقلل الزوار المهمين من حساسية اختبارنا للتفضيلات للمشروبات ، لأنهم في الواقع لن يعطونا أي إشارة بشأن سلوكهم.

كيف تحل نفس المشكلة بالنسج؟ إذا كانت لدينا القدرة المادية على تقديم كل من الخيارين المقارنين للمستخدمين في نفس الوقت ومعرفة الخيار الذي يفضلونه ، فيمكننا تحديد تفضيلاتهم الحقيقية بسرعة.

صورة

إذا قمنا بتطبيق التداخل على استعارةنا باستخدام شريط ، فسنضع حنفيتين على المنضدة ونرى فقط المشروبات التي يطلبها الزوار أكثر. أعتقد أنك تشعر بشكل حدسي أن هذا الاختبار سيمنحنا نتيجة مهمة بشكل أسرع ، لأن كل طلب سيكون "تصويتًا" لصالح خيار أو خيار آخر ، بينما في اختبار A / B فقط الفرق في عدد الطلبات هو إشارة.

في مقال على مدونة Netflix Techيقدم دليلاً على أن النسج أسرع 100 مرة من A / B يحدد تفضيلات المستخدم. لسوء الحظ ، لا يمكنني نشر تجربتي الشخصية في النسيج ، ولكن في حالتي تم تأكيد هذا التقييم ، والنسيج مع أي حركة مرور معقولة تقريبًا سيؤدي إلى نتيجة مهمة في أقل من 24 ساعة. ومع ذلك ، فإن إجراء مدة الاختبار لمدة أقل من يوم ما زال لا يعمل ، لأنه من الضروري ضمان التمثيل التمثيلي للعينة (يمكن للزوار في الصباح وبعد الظهر والمساء أن يكون لديهم أنماط مختلفة من السلوك ، دعنا نتجاهل الدورات الأسبوعية).

متى يمكن نسج نسج


في البداية ، تم اختراع النسيج لاختبار الترتيب: إذا كان لديك مجموعة معينة من الأشياء (منتجات في متجر عبر الإنترنت ، أو روابط لصفحات على الإنترنت لمحرك بحث) وتحتاج إلى فرزها بحيث تكون تلك التي تتطابق بشكل وثيق مع طلب المستخدم في القمة.

إذا كان لديك خوارزميتان للترتيب وتريد مقارنتهما ، فلا يمكنك إظهار المستخدم إما التصنيف أ أو التصنيف ب ، ولكن يمكنك إظهار صفحة له على

النحو التالي : A1 B1 A2 B2 A3 B3 ... وهكذا ، حيث A2 - هذا هو السطر الثاني من خوارزمية التصنيف A ، و B3 هو السطر الثالث في الترتيب B.

صورةتوضيح للنسيج من مقالة على Netflix Tech Blog

التفاصيل الدقيقة للتنفيذ
:
  • , ,
  • : , ?
  • ,
  • , , A/B


نحن نوجه جميع الزيارات المتاحة إلى هذا الترتيب المتشابك ونأخذ في الاعتبار النتائج التي تم إنشاؤها من خلال أي من الخوارزميات التي تلقت نقرات أكثر أو سمحت لنا بالحصول على المزيد من الإجراءات المستهدفة أقل في مسار التحويل.

في الواقع ، هناك الكثير من العناصر التي هي في الواقع نتيجة الترتيب في المنتجات ، سأعطي أمثلة:

  • قائمة المنتجات أو كتالوج الأقسام في الصفحة الرئيسية للموقع
  • قائمة المنتجات داخل قسم أو استجابة لاستعلام بحث
  • قائمة المقالات على مصدر الأخبار
  • "إعلانات مماثلة"
  • "إنهم يشترون أيضًا مع هذا المنتج".
  • مقالات في قسم المساعدة
  • أي قائمة بالعناصر: الأصدقاء في المجتمع. الشبكات ، المنشورات في الشريط ، الموسيقى على الصفحة ، الأفلام في السينما
  • إلخ

ويمكن وينبغي اختبار جميع هذه العناصر باستخدام نسج. يسمح لك Interweaving باختبار ليس خوارزمية بديلة واحدة لتحديد التوصيات أسبوعيًا ، ولكن اختبار سبع فرضيات كل أسبوع.

ما الفرق بين اختبار أ / ب واختبار نسج


عندما نجري اختبار أ / ب ، يمكننا قياس تأثير التغيير في تجربة المستخدم على أي مقياس نحن مهتمون به ، والذي نعتبره في سياق مستخدم واحد. من التحويل إلى المبيعات إلى عدد مكالمات الدعم.

يسمح لنا اختبار التداخل بمقارنة الأحداث التي يمكن ربطها مباشرة بنقرة على أحد الخيارات المتشابكة. لكن هذه المقارنة لا تسمح لنا بالإجابة على السؤال "ماذا سيحدث إذا استبدلنا A بالحرف B في منتجنا" ، لأننا لا نعرف ماذا سيحدث إذا رأى المستخدم ترتيب B. فقط ، فقمنا بالقياس على مجموعة ليست نسخة مستقلة من المستخدم تجربة.

لذلك ، يوصى باستخدام النسيج كمرحلة أولية لاختيار أكثر الفرضيات الواعدة ، والتي من المنطقي إجراء اختبار أ / ب أطول للتحقق من كيفية تأثير هذا التغيير على المقياس المستهدف.

في كثير من الأحيان قد يتبين أن تحسين الخوارزمية لم يؤثر على مقياس الأعمال ، ولكنك على الأقل متأكد من أن تجربة المستخدم أصبحت أفضل ، والآن أنت تعرف أي كتلة من المرجح أن تكون غير مجدية لتحسين محاولات تحسين المقياس الذي تستهدفه.

نقاط القوة والضعف في النسيج


دعونا نلخص إيجابيات وسلبيات اختبار نسج.

السلبيات


  • , : - - A . , , , .
  • , , , A/B .
  • , , , , .


  • - ( , , . ).
  • ( Netflix 100 , ).
  • . , , , , «» , .


  1. Netflix, , 100 A/B
  2. مقال أكثر علمية يصف الإحصائيات. طرق تفسير نتائج الاختبار عن طريق النسيج (Chapelle ، O. ، Joachims ، T. ، Radlinski ، F. ، و Yue ، Y. 2012. التحقق من الصحة وتحليل تقييم البحث المتشابك على نطاق واسع. ACM Trans. Inf. Syst. 30 ، 1 ، المادة 6 (فبراير 2012)

All Articles