زيادة حساسية اختبارات A / B مع Cuped. تقرير في ياندكس

CUPED (تجربة خاضعة للرقابة باستخدام بيانات ما قبل التجربة) هي تقنية تجربة أ / ب تم استخدامها في الإنتاج مؤخرًا نسبيًا. يسمح لك بزيادة حساسية المقاييس من خلال استخدام البيانات التي تم الحصول عليها سابقًا. كلما زادت الحساسية ، يمكن ملاحظة التغييرات الأكثر دقة وأخذها في الاعتبار في التجربة. كانت Microsoft أول شركة تقدم CUPED. الآن تستخدم العديد من الشركات الدولية هذه التقنية. في تقريره ، فاليري بابوشكينالأوردة شرح ما هو معنى CUPED والنتائج التي يمكن تحقيقها ، وقبل ذلك ، قام بفحص طريقة التقسيم الطبقي ، والتي تعمل أيضًا على تحسين الحساسية.


- اسمي فاليري بابوشكين ، وأنا مدير النمذجة وتحليل البيانات في X5 Retail Group ومستشار في Yandex.Market. أدرس في وقت فراغي في المدرسة العليا للاقتصاد وغالبا ما أسافر إلى كازاخستان ، أدرس في البنك الوطني الكازاخستاني.

بالإضافة إلى ذلك ، كنت أستمتع بتعلم الآلة التنافسي. على منصة Kaggle ، حصلت مرة على لقب المسابقات Grand Master و 23 مكانًا في الترتيب العالمي بـ 120 ألفًا. تم تصميم Kaggle بطريقة بسيطة للغاية: إذا لم تقم بالأداء ، فإنك تقع في الترتيب. لذا أحاول ألا أذهب إلى هناك بعد الآن حتى لا أرى هذه الأرقام.



سيتكون عرضي التقديمي من مرحلتين: التقسيم الطبقي ومتغيرات التحكم. على الأرجح ، أنت تعرف ما هي اختبارات A / B وسبب الحاجة إليها. لكننا لن نتخطى هذه الصيغة.



في اختبار A / B ، هناك مجموعة متنوعة من الأساليب. من حيث المبدأ ، هذان نهجان رئيسيان في الإحصاء. واحد منهم يسمى التردد ، والثاني هو بايزي. في بعض الكتب ، على سبيل المثال ، في إيفرون ، تم تحديد نهج ثالث ، فيشرز ، ولكننا لن نتحدث عنه ، ولا عن نهج بايزي. لنتحدث عن نهج التردد.

هناك صيغة واحدة بسيطة في نهج التردد. هناك نوعان منهم ، لكن أحدهما يعتبر حالة التوزيع المنفصل ، والآخر توزيع مستمر ، لذلك سنعتبر ذلك صيغة واحدة.

تخبرنا هذه الصيغة عن عدد الملاحظات المطلوبة. إذا تمكنا من جمع كمية لا نهائية من البيانات ، فسوف نحصل على القيمة الحقيقية لكل من التوزيعات ، ثم ببساطة مقارنة تقديرات النقاط الخاصة بهم. على الرغم من أنه يمكننا مقارنة تقديرات النقاط لعدد لا نهائي من البيانات - هذا سؤال ، ولكن مع ذلك. سنحصل على توزيع حقيقي ونقارنها ونقول أيهما أفضل.

للأسف ، لا يمكننا القيام بذلك ؛ لدينا دائمًا حد لكمية البيانات التي يمكن جمعها. يحدث ذلك إما عن طريق عدد مستخدمينا ، أو عن طريق الوقت الذي يمكننا خلاله جمع هذه البيانات ، أو حقيقة أنهم يريدون ببساطة الحصول على النتيجة منا بأسرع وقت ممكن.

نرى هنا صيغة بسيطة للغاية لـ n ، حيث n هو عدد المشاهدات الضرورية في كل مجموعة. في البسطz2أين z2- فاصل الثقة ، تلك الدرجة من الموثوقية التي نريد أن نعطي بها نتيجتنا.

يبدو من الواضح أنzنصلح مرة واحدة ولا يمكننا التغيير أكثر. بالطبع ، يمكننا القول أننا نعطي النتيجة بدرجة موثوقية صفر ، ثم نحتاج إلى أي ملاحظات. سيكون ذلك مناسبًا جدًا ، لكننا لا نفعل ذلك عادةً.

كذلك في البسط ، إذا نظرنا إلى الصيغة المنفصلة ، هيp^(1p^)، وهو ما يساوي تباين التوزيع ذي الحدين. في الحالة المستمرة ، نفس الشيء ، σ 2 ، أي التباين. ويبدو أنه من المنطقي أنه كلما زاد التباين ، زاد عدد الملاحظات التي نحتاجها.

يحتوي المقام على متر 2 أو هامش خطأ - وهذا هو الحد الأدنى من الاختلاف الذي نريد أن نلحق به ، وهنا الوضع عكس ذلك. كلما صغر الفارق الذي نريد ملاحظته ، كلما احتجنا إلى المزيد من الملاحظات أي أنه شيء يشبه الخطأ.

إذا كنا بحاجة إلى خطأ 0.01 ، فإننا نحتاج إلى 100 مرة من الملاحظات أكثر مما نحتاج إلى خطأ 0.1. إنها تختلف بعشر مرات ، ولكن هناك اعتماد تربيعي ، وتبين أن هناك حاجة إلى 100 مرة من الملاحظات.

كان لي مرة تقرير عن الخطي. اليوم سأخبرنا كيف يمكننا تقليل التباين ، وفي الوقت المناسب أخبرت كيف يمكننا زيادة m. يبدو أن زيادة m هي استراتيجية أفضل ، لأن زيادة m بمقدار النصف يقلل من كمية البيانات اللازمة للحسابات بمقدار أربعة. الزيادة تعني خطأ يمكننا القيام به.

وإذا قللنا التباين بمقدار النصف ، فإننا لا نحتاج سوى ضعف عدد المشاهدات. لذلك ، فإن تقليل شيء ما أربع مرات في المقام هو كسب 16 مرة ، وأربع مرات في البسط - أربع مرات فقط.

ومع ذلك ، كل نهج له إيجابياته وسلبياته. ثم يمكنني أن أقول بمزيد من التفصيل أي منها. ننتقل الآن إلى الحد من التباين.

التقسيم الطبقي. بالمناسبة ، سأحصل على نتائج تجريبية في كل قسم في النهاية ، ما حصلنا عليه من بيانات حقيقية في بيئة حقيقية.



لذا ، لنتحدث عن التقسيم الطبقي. ما الذي نعرفه؟ نحن نعلم أن تقليل التباين يقلل من عدد المشاهدات. لنفترض أن المقياس المطلوب ، والذي نحلل به ، يمكن تقسيمه إلى بعض المناطق ، حسب المجموعات. سؤال جيد جدا تم طرحه بالفعل: كيف ننفصل عنه؟ حسب البلد؟ أو ربما على المتصفحات؟ ربما تذهب إلى أنظمة التشغيل؟ ربما يكون المستخدمون الذين يسجلون الدخول باستخدام Mac و Windows و Linux ثلاثة أنواع مختلفة من المستخدمين.

إذا وجدنا مثل هذه الكمية أو علامة يمكننا من خلالها تقسيمها إلى مجموعات ، فإننا نقوم بما يلي: القسمة إلى مجموعات K ، حيث K هو عدد الكميات الفريدة التي تساوي عدد المجموعات التي لدينا. في حالة أنظمة التشغيل - ثلاثة ، مع البلدان - عدد البلدان ، وما إلى

ذلك . علاوة على ذلك ، فإن احتمال الوقوع في كل مجموعة يساوي عدد جميع الملاحظات في المقام وعدد المشاهدات في كل مجموعة في البسط. أي أنه يمكننا تقدير الأوزان التقريبية مقدمًا ، وإذا كان هناك عدد إجمالي للمستخدمين ، فإن العديد من المستخدمين يأتون من نظام التشغيل Mac ، والكثير من نظام التشغيل Windows ، والكثير من نظام التشغيل Linux ، يمكننا حساب الأوزان واحتمالية أن يكون المستخدم الجديد نظام التشغيل هذا.

ثم سيتم تمثيل متوسط ​​طبقات مقياسنا بصيغة بسيطة للغاية. هذه هي قيمة المقياس في الطبقة ، مضروبة في وزن الطبقة ، ولذا فإننا نجمع كل الطبقات. الصيغة واضحة تمامًا ، أعتقد أنها لا تحتاج إلى تحليل على وجه التحديد.



علاوة على ذلك يمكن أن يكون أكثر تعقيدا. سنقضي بضع دقائق لتحليل هذه الصيغ ، ولكن إذا لم تفهم شيئًا فجأة - لا تقلق ، فقد قضيت ثلاث ساعات في وقت واحد لتحليلها.

ما الذي نراه هنا؟ لا يختلف متوسط ​​قيمة المقياس الطبقي عن متوسط ​​القيمة لأخذ العينات العشوائية. ليس من الصعب إثبات ذلك ، إنه مجرد توازن مرجح ، وهو في النهاية يساوي الوزن المرجح عبر المجموعة.

لكن التباين أكثر إثارة للاهتمام. في الواقع ، نحن نعلم أيضًا صيغة بسيطة جدًا مفادها أن مجموع التباينات ، تباين كميتين ، هو مجموع تبايناتها ، بالإضافة إلى المتغير المشترك ، إذا لم تكن مستقلة ، مع نوع من المعاملات. ومبالغ هذه الاختلافات نفسها أيضًا بمعامل.

في الواقع ، إذا كنت منتبهًا ، فهنا بالضبط يتم تقديم هذه المعاملات ، وهذا هو احتمال الدخول في طبقة. تبعا لذلك ، فإن تباين الطبقة الطبقية كلها هو التباين في كل طبقة مع بعض الأوزان. والوزن هو احتمال الدخول في هذه الطبقة.

حتى الآن ، يبدو كل شيء معقولًا جدًا. وفي النهاية ، سيكون التباين على الطبقة الطبقية مساوياً لهذه الصيغة. لا يهم إذا كنت لا تفهم لماذا الآن. الشيء الرئيسي هو أن نتذكر.



الآن دعونا نتحدث عن المتوسط ​​والتباين لأخذ العينات العشوائية. SRS هو أخذ عينات عشوائية بسيطة ، أي أخذ عينات عشوائية.

كما قد تخمن ، فإن متوسط ​​قيمة العينة العشوائية يساوي المتوسط. هنا ، على وجه الخصوص ، أعتقد أنه ليس من الضروري التعمق في شيء ما. لكن تباين العينات العشوائية ، إذا نظرت إلى الصيغة الكلاسيكية ، واضح جدًا. هذا هو times 2 مرة واحدة مقسومة على n. إذا استدعينا صيغة الخطأ المعيارية ، فسيتم قسمة هذا على جذر n. هذا هو تباين المتوسط.

لكني أريد تقسيمها إلى مكوناتها.



لذلك ، إذا قسمناها إلى مكوناتها ، بالنظر إلى سلسلة بسيطة من الحسابات التالية ، فسوف نرى (عليك أن تصدقني ، لن نمر بكل هذه الخطوط ، ولكن هنا ليست معقدة للغاية) أنها تتكون من عضوين.



تذكر هذا. هذا هو الاختلاف في حالة التقسيم الطبقي ، صدقوني.



إذا انتبهنا لما يشكل تباين العينة العشوائية ، فإنه يتكون من عضوين: الأول ، وهو ما يساوي تباين الطبقات ، والثاني.

ماهي النقطة؟ إذا كنت تفكر بإيجاز ، فيمكن عندئذ تمثيل تباين العينة العشوائية كمجموع التباين داخل المجموعة الطبقية ، وبين المجموعات الطبقية. هناك مجموعات n ، هناك تشتت a داخل المجموعة ، b هو التشتت بين المجموعات. إذا تذكر شخص ما ، فهو تقريبًا نفس التحليل. هناك تشتت داخل المجموعة وتشتت بين المجموعات. منطقي.

اتضح أن تشتت العينة العشوائية في أفضل الحالات يمكن أن يكون مساوياً لتغير الطبقات الطبقية ، أو أكثر. لماذا ا؟ لأنه إذا كان هذا المصطلح يساوي الصفر (ولا يمكن أن يكون أقل من صفر بسبب حقيقة أن هناك مربع وأن الاحتمال لا يمكن أن يكون سالبًا) ، فمن الواضح أن هناك شيء أكبر من أو يساوي الصفر. هنا يساوي ما رأيته في التقسيم الطبقي. اتضح أننا فزنا ، قلل التباين ، على الأقل لهذا العضو.



هذا هو نفس ما قلته الآن ، لذلك دعونا نتخطاه. ولكن ربما يكون لديك مصلحة في تحديد ما تحدثت عنه. بالمناسبة ، في أسفل كل شريحة يوجد اسم المقالة التي تم أخذ هذه الصيغة منها. شاركت ثلاث مقالات في هذا العرض ، ثم يمكنك قراءة * .

قرأنا بعض المقالات ، تحدثنا عن شيء ما ، لكن هذا ليس مثيرًا للاهتمام. من المثير للاهتمام أن نرى كيف يعمل شيء ما في الحياة الحقيقية. حول هذا - الشريحة التالية.



أخذت البيانات ، وبدأت في مشاهدة كيفية عملها في الحياة الواقعية. في الحياة الواقعية ، انخفض التباين بنسبة تصل إلى واحد بالمائة.

هناك شك في أن النمو صغير جدًا ببساطة لأن لدينا الكثير من البيانات وعمومًا لا يوجد تشتت كبير جدًا بين الطبقات. لقد تم تخفيفها بالفعل ، وتمثيلية تمامًا. ولكن ، يبدو أنه إذا كانت البيانات إما غير كافية ، أو كان هناك نوع من الانتهاك في العينة ، أو أنها ليست عشوائية تمامًا (والتي ، بالمناسبة ، غالبًا ما تحدث) ، فقد تكون الزيادة أكبر.

وهذه الطريقة سهلة التنفيذ. انتبه ، لا شيء معقد. أي أنك تأخذ عينة من كل طبقة بما يتناسب مع احتمالية دخول هذه الطبقة في العينة بأكملها. كل شيء معقول جداً.

دعنا ننتقل إلى الجزء الثاني. مخلوط. لا أعرف بالضبط كيف تنطق بشكل صحيح ، في الواقع هذه متغيرات مشتركة ، نستخدم البيانات التجريبية.



والنقطة بسيطة للغاية. نأخذ متغير عشوائي X مستقل عن Y بمعنى أنه لا يوجد تأثير تجريبي على المتغير X.

كيفية تحقيق ذلك؟ أسهل طريقة هي أخذ المتغير X ، الذي تم الحصول عليه قبل بدء التجربة. ثم يمكننا التأكد من أن التجربة لم تؤثر عليها.

أبعد. يمكننا تقديم مقياس جديد نريد حسابه على أنه الفرق بين Y و θX. يتم تقديم هذا في الصيغة: المقياس الجديد ، فلنطلق عليه Ycuped ، هو مقياسنا المطلوب ناقص θ مضروبًا X.

هذا ما تحدثنا عنه بالفعل. صيغة بسيطة تسمح لنا بحساب تباين الفرق بين كميتين. هذا هو تباين الحجم الأول. نظرًا لأنه يحتوي على معامل الوحدة ، 1 2 ، فإننا نزيله. بالإضافة إلى معامل الكمية الثانية θ2 ، تباين X. ولكن نظرًا لأن هذا طرح ، ثم ناقص 2θ ، فإن التباين بين Y و X.

إذا كانت هذه كميات مستقلة ، فماذا سيكون مساوياً؟ صفر. التباين بين الكميات المستقلة هو صفر. يبدو أننا إذا أخذنا قيمة مستقلة ، فمن المؤكد أنها لن تتحسن معنا.



ثم نحتاج إلى أخذ بعض الكمية التابعة ، ولدينا معلمة مفرطة أخرى ، دعنا نسميها θ. متى يمكننا تقليل التباين؟ عندما تكون θ تساوي التباين بين Y و X مقسومة على تباين X.



لن أفحص الآن بالتفصيل سبب ذلك ، ولكن إذا نظرت إلى هذه المعادلة البسيطة ، يمكنك أيضًا استنتاجها.



إذا قمنا بذلك ، فسيكون لدينا تحول بسيط ومريح للغاية ، وسيتم تمثيل التباين الناتج على أنه التباين Y ، مضروبًا في واحد ناقص مربع الارتباط بين المقياس Y والمقياس X. يبدو أنه لطيف.

لماذا يعمل هذا؟ نحن نفترض أن لدينا اختلافًا لمقياسنا Y بسبب عاملين أو سببين. ويرجع ذلك إلى بعض المتغيرات المشتركة X وكل شيء آخر. يمكننا فعل ذلك ، صحيح؟ ونقول: يا رفاق ، ما لدينا بسبب X ، نزيله ، نترك ذلك فقط لأسباب أخرى.



من الرسم البياني على الشريحة التالية سيكون من الواضح لماذا يعمل هذا. أي أفكار حول سبب نجاح هذا؟ بالإضافة إلى الصيغة التي كتبتها ، قبل ذلك ، كانت هناك أيضًا صيغ. اتضح أن لا يعمل. في النهاية ، لم نر النتائج النهائية ، كما تبين أنها لا تعمل.

ما الذي يهمنا أولاً عندما نجري اختبارات أ / ب؟ الفرق متوسط. في الغالبية العظمى من الحالات ، لا ننظر إلى أي كميات. على الرغم من أن Uber مغرم جدًا بالنظر إلى الشرائح الربعية ، وأحيانًا يكون من المهم جدًا النظر إليها ، يمكن أن تظل المتوسطات دون تغيير ، ويمكن أن تتغير الكميات بشكل كبير ، وسيتراجع المستخدمون الذين زادوا بنسبة 99٪. لدى أوبر وقت الانتظار هذا. هذه ملاحظة المضيفة.

لكننا غالبًا ما نهتم بالاختلاف في الوسائل. ونريد استخدام الأساليب التي لا تغير هذا الاختلاف في الوسائل. لأنه إذا كنا نتحدث عن الخطية ، فإننا ننتقل إلى مساحة سمة جديدة. نعم ، كل شيء رائع. يمكننا حساب بعض اختبارات A / B أسرع 64 مرة. نعم ، إنه متناسب ، ولكن لا يمكننا أن نقول كم هو هذا الاختلاف في الوسائل هكذا حقا.

لحساب الفرق في الوسائل واستخلاص استنتاج حول كل شيء ، يجب أن يكون لديك θ ، وهو موحد لجميع المجموعات. المجموعة هي A1 و A2 و B و C وما إلى ذلك. هذه هي خلايا اختبار أو اختلافات في اختبار A / B الخاص بك.

كيفية اختيار المقياس X؟ الاختيار المنطقي للمقياس X هو نفس المقياس Y ، ولكن في الفترة التي تسبق فترة التجربة. على سبيل المثال ، إذا كانت هذه هي متوسط ​​مدة الجلسة للمستخدم ، فيمكنك حينئذٍ حساب متوسط ​​مدة جلسة المستخدم قبل التجربة لبعض الوقت ، أثناء التجربة ، وطرح واحدة من الأخرى ومشاهدة الانحرافات بينهما فقط. ربما يهمك أكثر.

هنا ، بالمناسبة ، ينشأ سؤال مثير للاهتمام - على أي فترة يجب أن نأخذ المقياس X؟ في يوم واحد ، في أسبوع ، في أسبوعين؟ لا توجد إجابة نظرية ، لكن إجابة عملية تظهر أن أسبوعين هو أفضل أو ناقص. من حيث المبدأ ، من الممكن أخذ البيانات التجريبية ورسمها حول مقدار تناقص التشتت وكم يتقارب اختبارنا اعتمادًا على المدة التي نأخذها X.



لماذا يعمل؟ انظر ، هذا رسم بياني بسيط للغاية ، صورة بسيطة للغاية. يعرض قيم X و Y ، قيم مقاييسنا للمستخدم في الفترة قبل التجربة وبعدها.

ماذا نفعل؟ نختار θ. يمكننا أيضًا اختياره باستخدام طريقة المربعات الصغرى. أي أن هذا خط وسط معين ، والذي يعطي الحد الأدنى من الأرصدة. والباقي هو الفرق بين ما هو وما هو على الخط.

وبالتالي ، فإننا نحاول بطريقة أو بأخرى حساب المتوسط ​​وما زلنا نحصل على متوسط ​​قيمة المقياس. لا يتغير متوسط ​​قيمة المقياس. يبدو لي أنني نفسي لم أفهم تمامًا ما قلته الآن ، وربما كان عليك أن تصبح أكثر صعوبة لأنني رأيت هذا بالفعل. لنجرب مجددا. لدينا المحور X والمحور Y. يمكننا وضع علامة على القيم التي كانت قبل التجربة على المحور X ، والقيم المقابلة أثناء التجربة على المحور Y. أي أننا نحصل على نقطة معينة في إحداثيات XY. يمكننا وضع علامة على الرسم البياني.

إذا لم تحدث تغييرات ، فسوف تتزامن هذه النقاط معنا. سيكون هذا منصفنا. لأن X تساوي Y. ولكن في الحقيقة هذا لن يحدث ، توافق؟ في بعض الحالات ، ستكون قيمة المقياس Y أكبر ، وفي بعض الحالات أقل.

نريد أن نفهم ونحصل على هذا الاختلاف بالضبط. لأن كل شيء آخر غير مهم بالنسبة لنا. على سبيل المثال ، إذا لم يكن لدينا اختلاف ، أجرينا تجربة و X تساوي Y - مما يعني أن تجربتنا على الأرجح لم تؤثر. إذا أجرينا تجربتنا ورأينا أن Y ببساطة فوق هذا X في كل مكان ، فهذه مناسبة للاعتقاد بأننا ربما أثرنا على شيء ما. إذا كان لدينا Y مستقرًا أسفل X ، فهذا ليس جيدًا أيضًا. على الأرجح ، كان لدينا تأثير سلبي.

اتضح أننا نحاول رسم خط معين يصف العلاقة بين X و Y ، مما يقلل من هذا الاختلاف. كما يتم الانحدار الخطي. توافق على أن هناك انحدارًا خطيًا ، كما ترى ، متغير واحد مستقل ومتغير تابع واحد. تريد أن تصف بدقة قدر الإمكان.

هذا هو خطنا ، هذا هو مقياسنا الجديد ، وهذا هو بالضبط سبب عدم تغير متوسط ​​قيمة الكوب. لن تتغير قيمة Ycuped من قيمة Y للمتوسط. لماذا ا؟ لان. كان من الضروري شرح هذا على الفور. :) بالمناسبة ، يقول المقال الأصلي: لاحظ أن هناك علاقة مثيرة للاهتمام بين البحث عن θ والانحدار. هذه هي.

أكرر ، نحن مهتمون بمعرفة كيف أثرت التجربة نفسها على سلوك المستخدم ، وكم تغيرت بالنسبة إلى التجربة الأساسية. لنفترض أنه تم إجراؤه دائمًا ، وهناك مستخدمان: كان أحدهما دائمًا لمدة عشر دقائق ، والآخر 100 دقيقة. كان هناك بعض التغيير ، ولا يزال المستخدم الأول يقضي 100 دقيقة ، والثاني لديه 12 دقيقة. الفرق في حالة واحدة هو صفر ، في الحالة الأخرى - حالتان. ولكن ببساطة مقارنة الأرقام 12 و 100 فيما بينها ربما لا تكون معقولة للغاية. نريد أخرى. نسميه "تطبيع". هذا ، بالطبع ، غير صحيح ، ولكن مع ذلك.

الآن دعنا ننتقل إلى التجربة.



ماذا نرى؟ هذه لقطة شاشة من كمبيوتر محمول من Jupyter لا أحبها حقًا (أحب PyCharm أكثر) ، لكنني فعلت ذلك. يتم عرض تباين المقياس المربوط وتغير المقياس القياسي هنا بالفعل. انظر كم تختلف؟ Ycuped أصغر بكثير ، والمعدلات لا تختلف.

بتعبير أدق ، لا تختلف. في مكان ما في العلامة العشرية الخمسة عشر ، ربما تختلف ، لكننا سنفترض أن هذا خطأ يرتبط بالتقريب.

ما الذي نراه هنا؟ انخفض التشتت بنسبة 45 ٪. هذه بيانات من الإنترنت. ما لاحظناه في X5 هو أن التباين ينخفض ​​أربع مرات. في X5 ، لدينا نوع من السلوك داخل المتجر ، يمكن أن يكون متوسطًا ليوم الأسبوع ، للساعة ، للساعة واليوم من الأسبوع. انظر ، يمكننا التقاط المتغيرات المشتركة الأكثر ارتباطًا. يبدو أن العدد المشروط للأشخاص الذين جاءوا يوم الاثنين يجب أن يرتبط بعدد الأشخاص الذين جاءوا يوم الاثنين المقبل. إذا نظرنا أعمق قليلاً ، فإن يوم الاثنين ، الساعة السادسة مساءً ، يجب أن يرتبط بقوة أكبر يوم الاثنين ، الساعة السادسة مساءً. ويوم الأحد ، الثالثة بعد الظهر ، ويوم الأحد الآخر ، الثالثة بعد الظهر.

أقصى انخفاض في التباين الذي رأيته في الحياة الحقيقية كان 19 مرة. ما هو زائد؟ للقيام بذلك أمر بسيط للغاية ، يجب أن تعترف بأنك لست بحاجة إلى التفكير على الإطلاق. وجدت المتغير المشترك ، وجدت θ. by ، بالمناسبة ، تم العثور عليه وفقًا لصيغة بسيطة للغاية ، تم فعل كل شيء بالفعل.



أخذ ، وطرح ، وحصل على المقياس المحول. متوسطها لم يتغير ، هذا جيد جدا. اشرح للأعمال بلغة عادية ، لماذا يحدث ذلك ، أمر ممكن. أنت تقول أننا مهتمون ليس فقط بكيفية تصرف المستخدمين في المتوسط ​​، ولكن كيف تغير سلوكهم عن المتوسط. وهذا كل شيء.

في بعض الحالات ، قد تكون هناك صعوبات في اختيار المتغير المشترك الصحيح ، ولكن غالبًا لا يمثل ذلك مشكلة. من الممكن دائمًا (نادرًا جدًا ، عندما لا يكون ذلك ممكنًا) أخذ قيمة الفترة التجريبية السابقة. إنها تعمل. يعني التباين بمقدار 19 ضعفًا أن كمية البيانات المطلوبة لاختبار A / B تقلل أيضًا بمقدار 19 ضعفًا. أي أنه يمكنك الحصول على النتيجة بشكل أسرع ، وهذا يزيد من حساسية الاختبار.

إذا كان لديك بالفعل عدد معين من اختبارات A / B ، فيمكنك إجراء هذا الاختبار بنفس الطريقة بأثر رجعي وحساب أخطاء النوع الأول والنوع الثاني. يمكنك حساب الأخطاء من النوع الأول إذا قمت بإجراء اختبار AA. على الكوب ستنفقها بنفس الطريقة - وبنفس الطريقة ستتمكن من تقييم مدى زيادة حساسيتك.


* :
Improving the Sensitivity of Online Controlled Experiments by Utilizing Pre-Experiment Data
Improving the Sensitivity of Online Controlled Experiments: Case Studies at Netflix
How Booking.com increases the power of online experiments with CUPED

All Articles