Erhöhte Empfindlichkeit von A / B-Tests mit Cuped. Bericht in Yandex

CUPED (Controlled-Experiment Using Pre-Experiment Data) ist eine A / B-Experimenttechnik, die vor relativ kurzer Zeit in der Produktion eingesetzt wurde. Sie können die Empfindlichkeit von Metriken durch die Verwendung zuvor erhaltener Daten erhöhen. Je höher die Empfindlichkeit, desto subtilere Änderungen können im Experiment bemerkt und berücksichtigt werden. Das erste Unternehmen, das CUPED einführte, war Microsoft. Jetzt verwenden viele internationale Firmen diese Technik. In seinem Bericht Valery BabushkinVenheads erklärte, was die Bedeutung von CUPED ist und welche Ergebnisse erzielt werden können, und untersuchte zuvor die Schichtungsmethode, die auch die Empfindlichkeit verbessert.


- Mein Name ist Valery Babushkin, ich bin Direktor für Modellierung und Datenanalyse bei der X5 Retail Group und Berater bei Yandex.Market. In meiner Freizeit unterrichte ich an der Higher School of Economics und fliege oft nach Kasachstan. Ich unterrichte an der Nationalbank von Kasachstan.

Außerdem habe ich mich über wettbewerbsfähiges maschinelles Lernen gefreut. Auf der Kaggle-Plattform erreichte ich einmal den Titel des Wettbewerbs-Großmeisters und 23 Plätze in der Weltrangliste von 120.000. Kaggle ist sehr einfach gestaltet: Wenn Sie keine Leistung erbringen, fallen Sie in die Rangliste. Also versuche ich nicht mehr dorthin zu gehen, um diese Zahlen nicht zu sehen.



Meine Präsentation besteht aus zwei Phasen: Schichtung und Kontrollvarianten. Höchstwahrscheinlich wissen Sie, was A / B-Tests sind und warum sie benötigt werden. Wir werden diese Formel jedoch nicht überspringen.



Bei A / B-Tests gibt es verschiedene Ansätze. Im Prinzip sind dies zwei Hauptansätze in der Statistik. Einer von ihnen heißt Frequenz, der zweite ist Bayesian. Einige Bücher, wie Efron, unterscheiden einen anderen dritten Ansatz, den Fisher-Ansatz, aber wir werden auch nicht darüber und den Bayes'schen Ansatz sprechen. Lassen Sie uns über den Frequenzansatz sprechen.

Es gibt eine einfache Formel im Frequenzansatz. Es gibt zwei davon, aber einer betrachtet den Fall einer diskreten Verteilung, der andere eine kontinuierliche Verteilung, daher betrachten wir dies als eine Formel.

Diese Formel gibt an, wie viele Beobachtungen erforderlich sind. Wenn wir es uns leisten könnten, eine unendliche Datenmenge zu sammeln, würden wir den wahren Wert für jede der Verteilungen erhalten und dann einfach ihre Punktschätzungen vergleichen. Wir können zwar Punktschätzungen einer unendlichen Anzahl von Daten vergleichen - dies ist eine Frage, aber dennoch. Wir würden eine echte Verteilung erhalten, sie vergleichen und sagen, was besser ist.

Leider können wir dies nicht tun, da die Menge der Daten, die gesammelt werden können, immer begrenzt ist. Dies liegt entweder an der Anzahl unserer Benutzer oder an der Zeit, in der wir diese Daten erfassen können, oder daran, dass sie einfach so schnell wie möglich das Ergebnis von uns erhalten möchten.

Wir sehen hier eine sehr einfache Formel für n, wobei n die Anzahl der Beobachtungen ist, die in jeder der Gruppen notwendig sind. Im Zähler woz2 ist das Konfidenzintervall, der Grad der Zuverlässigkeit, mit dem wir unser Ergebnis liefern wollen. Es scheint offensichtlich, dassz2

wir reparieren einmal und können nicht weiter ändern. Natürlich können wir sagen, dass wir das Ergebnis mit einem Grad an Zuverlässigkeit von Null liefern, und dann brauchen wir keine Beobachtungen. Das wäre sehr praktisch, aber normalerweise nicht. Weiter im Zähler, wenn wir die diskrete Formel betrachten, istz

, die auf die Varianz der Binomialverteilung gleich ist. Im kontinuierlichen Fall ist das Gleiche, σ2, dh die Varianz. Und es scheint logisch, dass je größer die Varianz, desto mehr Beobachtungen wir brauchen. Der Nenner enthält m2oder eine Fehlerquote - das ist die minimale Differenz, die wir erfassen möchten, und hier ist die Situation umgekehrt. Je kleiner der Unterschied ist, den wir erfassen möchten, desto mehr Beobachtungen benötigen wir. Das heißt, es ist so etwas wie ein Fehler.p^(1p^)



Wenn wir einen Fehler von 0,01 benötigen, benötigen wir 100-mal mehr Beobachtungen als wenn wir einen Fehler von 0,1 benötigen. Sie unterscheiden sich um das Zehnfache, aber es gibt eine quadratische Abhängigkeit. Es stellt sich heraus, dass 100-mal mehr Beobachtungen erforderlich sind.

Ich hatte einmal einen Bericht über die Linearisierung. Heute werde ich erzählen, wie wir die Varianz reduzieren können, und zu gegebener Zeit werde ich sagen, wie wir m erhöhen können. Das Erhöhen von m scheint eine bessere Strategie zu sein, da das Erhöhen von m um die Hälfte die für Berechnungen benötigte Datenmenge um vier verringert. Erhöhen bedeutet einen Fehler, den wir machen können.

Und wenn wir die Varianz um die Hälfte reduzieren, brauchen wir nur doppelt so viele Beobachtungen. Etwas viermal im Nenner zu reduzieren ist also eine Verstärkung von 16-mal und viermal im Zähler - nur viermal.

Jeder Ansatz hat jedoch seine Vor- und Nachteile. Ich kann dann genauer sagen, welche. Wir wenden uns nun der Verringerung der Varianz zu.

Schichtung. Übrigens werde ich am Ende in jedem Abschnitt experimentelle Ergebnisse haben, was wir über reale Daten in einer realen Umgebung erhalten haben.



Sprechen wir also über die Schichtung. Was wissen wir? Wir wissen, dass die Verringerung der Varianz die Anzahl der Beobachtungen verringert. Angenommen, unsere gewünschte Metrik, anhand derer wir analysieren, kann durch Gruppierungen in einige Regionen unterteilt werden. Eine sehr gute Frage, die bereits gestellt wurde: Wie kann man sie auflösen? Nach Land? Oder vielleicht in Browsern? Vielleicht zu Betriebssystemen gehen? Benutzer, die sich mit Mac, Windows und Linux anmelden, sind möglicherweise drei verschiedene Benutzertypen.

Wenn wir einen solchen Wert oder ein solches Zeichen finden, durch das wir uns in Gruppen aufteilen können, gehen wir wie folgt vor: Aufteilen in K Gruppen, wobei K die Anzahl der eindeutigen Größen ist, die der Anzahl der Gruppen entspricht, die wir haben. Bei Betriebssystemen - drei mit Ländern - die Anzahl der Länder usw.

Ferner ist die Wahrscheinlichkeit, in jede der Gruppen zu fallen, gleich der Anzahl aller Beobachtungen im Nenner und der Anzahl der Beobachtungen in jeder der Gruppen im Zähler. Das heißt, wir können die ungefähren Gewichte im Voraus schätzen, und wenn es eine Gesamtzahl von Benutzern gibt, so viele Benutzer von Mac, so viele von Windows, so viele von Linux, können wir sofort die Gewichte und die Wahrscheinlichkeit berechnen, von der ein neuer Benutzer stammt dieses Betriebssystem.

Dann wird der geschichtete Durchschnitt unserer Metrik durch eine sehr einfache Formel dargestellt. Dies ist der Wert der Metrik in der Schicht, multipliziert mit dem Gewicht der Schicht, und so summieren wir über alle Schichten. Die Formel ist ziemlich offensichtlich, ich denke, sie muss nicht speziell analysiert werden.



Weiter kann es etwas komplizierter sein. Wir werden ein paar Minuten damit verbringen, diese Formeln zu analysieren, aber wenn Sie plötzlich etwas nicht verstehen - keine Sorge, ich habe drei Stunden gleichzeitig damit verbracht, sie zu analysieren.

Was sehen wir hier? Der Durchschnittswert einer geschichteten Metrik unterscheidet sich nicht vom Durchschnittswert für die Zufallsstichprobe. Es ist nicht schwer, dies zu beweisen, es ist nur eine gewichtete Bilanz, die am Ende der gewichteten Bilanz entspricht.

Die Varianz ist jedoch etwas interessanter. Tatsächlich kennen wir auch eine sehr einfache Formel, dass die Summe der Varianzen, die Varianz zweier Größen, die Summe ihrer Varianzen plus Kovariate, wenn sie nicht unabhängig sind, mit einer Art von Koeffizienten ist. Und die Summen dieser Varianzen selbst auch mit einem Koeffizienten.

Wenn Sie genau hinschauen, werden diese Koeffizienten genau hier dargestellt. Dies ist die Wahrscheinlichkeit, in eine Schicht zu gelangen. Dementsprechend ist die Varianz der gesamten Schicht die Varianz in jeder der Schichten mit einigen Gewichten. Und Gewicht ist die Wahrscheinlichkeit, in diese Schicht zu gelangen.

Bisher scheint alles ziemlich vernünftig. Und am Ende wird die Varianz über die gesamte Schicht gleich dieser Formel sein. Es spielt keine Rolle, ob Sie jetzt nicht verstehen, warum. Die Hauptsache ist, sich zu erinnern.



Lassen Sie uns nun über Durchschnitt und Varianz für Zufallsstichproben sprechen. SRS ist eine einfache Zufallsstichprobe, d. H. Eine Zufallsstichprobe.

Wie Sie sich vorstellen können, entspricht der Durchschnittswert der Zufallsstichprobe dem Durchschnitt. Besonders hier, denke ich, ist es nicht notwendig, tief in etwas einzusteigen. Die Varianz der Zufallsstichprobe ist jedoch bei Betrachtung der klassischen Formel sehr klar. Dies ist σ 2 mal eins geteilt durch n. Wenn wir uns an die Standardfehlerformel erinnern, dann ist dies σ geteilt durch die Wurzel von n. Dies ist die Varianz des Mittelwerts.

Aber ich möchte es in seine Bestandteile zerlegen.



Wenn wir es also in seine Bestandteile zerlegen und eine einfache Reihe der folgenden Berechnungen betrachten, werden wir sehen (Sie müssen mir glauben, wir werden nicht alle diese Zeilen durchgehen, aber hier sind sie nicht sehr kompliziert), dass es aus zwei Mitgliedern besteht.



Erinnere dich an diesen. Dies ist die Varianz im Falle einer Schichtung, glauben Sie mir.



Wenn wir darauf achten, woraus sich die Varianz der Zufallsstichprobe zusammensetzt, besteht sie aus zwei Elementen: dem ersten, das der Varianz der geschichteten entspricht, und dem zweiten.

Was ist der Sinn? Wenn Sie kurz überlegen, kann die Varianz der Zufallsstichprobe als die Summe der Varianz innerhalb der geschichteten Gruppe und zwischen den geschichteten Gruppen dargestellt werden. Es gibt n Gruppen, es gibt eine Dispersion von a innerhalb der Gruppe, b ist die Dispersion zwischen den Gruppen. Wenn sich jemand erinnert, entspricht dies ungefähr der Analyse. Es gibt eine Dispersion innerhalb der Gruppe und eine Dispersion zwischen den Gruppen. Ist logisch.

Es stellt sich heraus, dass die Streuung der Zufallsstichproben im besten Fall entweder gleich der Varianz der geschichteten oder mehr sein kann. Warum? Denn wenn dieser Term gleich Null ist (und er kann nicht kleiner als Null sein, weil es ein Quadrat gibt und die Wahrscheinlichkeit nicht negativ sein kann), dann gibt es eindeutig etwas, das größer oder gleich Null ist. Hier entspricht es dem, was Sie in der Schichtung gesehen haben. Es stellt sich heraus, dass wir gewinnen, die Varianz reduzieren, zumindest für dieses Mitglied.



Dies ist das gleiche wie das, was ich jetzt gesagt habe, also überspringen wir es. Aber Sie werden wahrscheinlich ein Interesse daran haben, herauszufinden, worüber ich gesprochen habe. Am Ende jeder Folie befindet sich übrigens der Name des Artikels, aus dem diese Formel stammt. Drei Artikel haben an dieser Präsentation teilgenommen, dann können Sie * lesen .

Wir haben einen Artikel gelesen, etwas geredet, aber das ist nicht sehr interessant. Es ist interessant zu sehen, wie etwas im wirklichen Leben funktioniert. Darüber - die nächste Folie.



Ich nahm die Daten und begann zu beobachten, wie sie im wirklichen Leben funktionieren. Im wirklichen Leben ist meine Varianz um bis zu ein Prozent gesunken.

Es besteht der Verdacht, dass das Wachstum so gering ist, einfach weil wir viele Daten haben und im Allgemeinen keine sehr große Streuung zwischen den Schichten. Sie sind bereits geglättet und ziemlich repräsentativ. Es scheint jedoch, dass der Anstieg größer sein kann, wenn die Daten entweder nicht ausreichen oder wenn in der Stichprobe eine Verletzung vorliegt oder wenn sie nicht völlig zufällig sind (was übrigens sehr häufig vorkommt).

Und diese Methode ist sehr einfach zu implementieren. Pass auf, nichts kompliziertes. Das heißt, Sie nehmen aus jeder Schicht einen Betrag auf, der proportional zur Wahrscheinlichkeit ist, in diese Schicht auf der gesamten Stichprobe zu gelangen. Alles ist ziemlich vernünftig.

Fahren wir mit dem zweiten Teil fort. Cuped. Ich weiß nicht genau, wie ich richtig aussprechen soll. Tatsächlich handelt es sich um Kovariaten. Wir verwenden experimentelle Daten.



Der Punkt ist auch sehr einfach. Wir nehmen eine von Y unabhängige Zufallsvariable X in dem Sinne, dass es keinen experimentellen Effekt auf die Variable X gibt.

Wie erreicht man das? Am einfachsten ist es, die Variable X zu nehmen, die vor Beginn des Experiments erhalten wurde. Dann können wir sicher sein, dass das Experiment es nicht beeinflusst hat.

Weiter. Wir können eine neue Metrik einführen, die wir als Differenz zwischen Y und θX berechnen möchten. Dies wird in der Formel dargestellt: Die neue Metrik, nennen wir sie Ycuped, ist unsere gewünschte Metrik minus θ mal X.

Darüber haben wir bereits gesprochen. Eine einfache Formel, mit der wir die Varianz der Differenz zwischen zwei Größen berechnen können. Dies ist die Varianz der ersten Größe. Da es einen Einheitskoeffizienten 1 2 hat , entfernen wir ihn. Plus der Koeffizient der zweiten Größe θ2, die Varianz von X. Da dies jedoch eine Subtraktion ist, dann minus 2θ, die Kovarianz zwischen Y und X.

Wenn dies unabhängige Größen wären, welcher wäre es gleich? Null. Die Kovarianz zwischen unabhängigen Größen ist Null. Es scheint, dass wenn wir einen unabhängigen Wert annehmen, dieser bei uns definitiv nicht besser wird.



Dann müssen wir eine abhängige Größe nehmen, und wir haben noch einen Hyperparameter, nennen wir es θ. Wann können wir die Varianz minimieren? Wenn θ gleich der Kovarianz zwischen Y und X geteilt durch die Varianz von X ist, werde



ich jetzt nicht im Detail untersuchen, warum dies so ist, aber wenn Sie sich diese einfache Gleichung ansehen, können Sie sie auch ableiten.



Wenn wir dies tun, erhalten wir eine sehr bequeme einfache Transformation, und die resultierende Varianz wird als die Varianz Y dargestellt, multipliziert mit eins minus dem Quadrat der Korrelation zwischen der Metrik Y und der Metrik X. Es scheint schön zu sein.

Warum funktioniert das? Wir gehen davon aus, dass wir die Varianz unserer Metrik Y aus zwei oder zwei Gründen haben. Es liegt an einer Kovariate X und allem anderen. Das können wir doch, oder? Und wir sagen: Leute, was wir aufgrund von X haben, entfernen wir, wir lassen nur das aus allen anderen Gründen.



Aus der Grafik auf der nächsten Folie geht hervor, warum dies funktioniert. Irgendwelche Gedanken darüber, warum das funktioniert? Neben der Formel, die ich zuvor geschrieben habe, gab es auch Formeln. Es stellte sich heraus, dass das nicht funktioniert. Am Ende haben wir die endgültigen Ergebnisse nicht gesehen, es stellt sich auch heraus, dass es nicht funktioniert.

Was interessiert uns zuerst, wenn wir A / B-Tests durchführen? Der Unterschied ist durchschnittlich. In den allermeisten Fällen betrachten wir keine Quantile. Obwohl Uber Quartile übrigens sehr gern betrachtet und es manchmal sehr wichtig ist, sie zu betrachten, können die Durchschnittswerte unverändert bleiben, die Quantile können sich dramatisch ändern, und Benutzer, die eine Art 99-prozentiges Quantil erhöht haben, fallen ab. Uber hat diese Wartezeit. Dies ist die Notiz der Gastgeberin.

Aber wir sind oft an den Unterschieden in den Mitteln interessiert. Und wir wollen Methoden verwenden, die diesen Mittelwertunterschied nicht ändern. Denn wenn wir über Linearisierung sprechen, bewegen wir uns in einen neuen Attributraum. Ja, alles ist cool. Wir können einige A / B-Tests 64-mal schneller zählen. Ja, es ist proportional, aber wir können nicht sagen, wie sehr dieser Unterschied in den Mitteln wirklich so ist.

Um die Differenz der Mittelwerte zu berechnen und eine Schlussfolgerung über alles zu ziehen, benötigen Sie θ, das für alle Gruppen einheitlich ist. Eine Gruppe ist A1, A2, B, C und so weiter. Dies sind Testzellen oder Variationen Ihres A / B-Tests.

Wie wähle ich die Metrik X aus? Die logische Wahl für die Metrik X ist dieselbe Metrik Y, jedoch für den Zeitraum vor dem Zeitraum des Experiments. Wenn dies beispielsweise Ihre durchschnittliche Sitzungsdauer für den Benutzer ist, können Sie die durchschnittliche Sitzungsdauer des Benutzers vor dem Experiment für einen bestimmten Zeitraum während des Experiments berechnen, voneinander subtrahieren und nur die Abweichungen zwischen ihnen anzeigen. Es interessiert dich wahrscheinlich mehr.

Hier stellt sich übrigens eine interessante Frage: In welchem ​​Zeitraum sollten wir die Metrik X nehmen? An einem Tag, in einer Woche, in zwei Wochen? Es gibt keine theoretische Antwort, aber eine praktische Antwort zeigt, dass zwei Wochen ein Plus- oder Minusoptimum sind. Im Prinzip ist es möglich, die experimentellen Daten zu erfassen und aufzuzeichnen, wie stark die Dispersion abnimmt und wie stark unser Test konvergiert, je nachdem, wie lange wir X



benötigen. Warum funktioniert es? Schauen Sie, dies ist eine sehr einfache Grafik, ein sehr einfaches Bild. Es zeigt die Werte von X und Y, die Werte unserer Metriken für den Benutzer in der Zeit vor und nach dem Experiment.

Was machen wir? Wir wählen θ. Wir können es ebenfalls mit der Methode der kleinsten Quadrate auswählen. Das heißt, dies ist eine bestimmte Mittellinie, die den Mindestbetrag an Guthaben angibt. Der Rest ist der Unterschied zwischen dem, was ist und was auf der Linie ist.

Daher versuchen wir irgendwie, den Durchschnittswert der Metrik zu ermitteln und trotzdem zu ermitteln. Der Durchschnittswert der Metrik ändert sich nicht. Es scheint mir, dass ich selbst nicht ganz verstanden habe, was ich jetzt gesagt habe, und Sie mussten wahrscheinlich noch härter werden, weil ich das bereits gesehen habe. Lass es uns erneut versuchen. Wir haben die X-Achse und die Y-Achse. Wir können die Werte vor dem Experiment auf der X-Achse und die entsprechenden Werte während des Experiments auf der Y-Achse markieren. Das heißt, wir erhalten einen bestimmten Punkt in den XY-Koordinaten. Wir können es auf der Karte markieren.

Wenn keine Änderungen aufgetreten sind, stimmen diese Punkte mit uns überein. Dies wird unsere Halbierende sein. Weil X gleich Y ist. Aber tatsächlich wird dies nicht passieren, stimme zu? In einigen Fällen ist der Wert der Metrik Y größer, in einigen Fällen kleiner.

Wir wollen genau diesen Unterschied verstehen und verstehen. Weil alles andere für uns nicht so interessant ist. Wenn wir zum Beispiel keinen Unterschied haben, haben wir ein Experiment durchgeführt und X ist gleich Y - was bedeutet, dass unser Experiment höchstwahrscheinlich keinen Einfluss hatte. Wenn wir unser Experiment durchgeführt haben und feststellen, dass Y überall einfach stabil über diesem X liegt, ist dies eine Gelegenheit zu der Annahme, dass wir möglicherweise etwas beeinflusst haben. Wenn wir ein stabiles Y unter X haben, auch nicht sehr gut. Höchstwahrscheinlich hatten wir einen negativen Effekt.

Es stellt sich heraus, dass wir versuchen, eine bestimmte Linie zu zeichnen, die die Beziehung zwischen X und Y beschreibt, um diesen Unterschied zu minimieren. Eine lineare Regression wird ebenfalls durchgeführt. Stimmen Sie zu, dass es eine lineare Regression gibt, betrachten Sie eine unabhängige Variable und eine abhängige Variable. Sie möchten so genau wie möglich beschreiben.

Dies ist unsere Linie, dies ist unsere neue Cup-Metrik, und genau deshalb ändert sich der durchschnittliche Cup-Wert nicht. Der Ycuped-Wert ändert sich nicht vom Y-Wert des Durchschnitts. Warum? Weil. Dies musste sofort erklärt werden. :) Im Originalartikel heißt es übrigens: Beachten Sie, dass es einen sehr interessanten Zusammenhang zwischen der Suche nach θ und der Regression gibt. Das ist es.

Ich wiederhole, wir sind daran interessiert zu sehen, wie sich das Experiment selbst auf das Benutzerverhalten ausgewirkt hat und wie stark es sich im Vergleich zum Basisverhalten verändert hat. Angenommen, es wurde immer durchgeführt und es gibt zwei Benutzer: Einer hatte immer eine zehnminütige Sitzung und der andere 100 Minuten. Es gab einige Änderungen, und der erste Benutzer verbringt immer noch 100 Minuten und der zweite 12 Minuten. Der Unterschied ist in einem Fall Null, in dem anderen - zwei. Ein einfacher Vergleich der Zahlen 12 und 100 untereinander ist jedoch wahrscheinlich nicht sehr vernünftig. Wir wollen einen anderen. Wir nennen es "normalisieren". Dies ist natürlich nicht richtig, aber dennoch.

Fahren wir nun mit dem Experiment fort.



Was sehen wir? Dies ist ein Screenshot von einem Jupyter-Laptop, den ich wirklich nicht mag (ich liebe PyCharm mehr), aber ich habe es trotzdem getan. Die Varianz der Cuped-Metrik und die Varianz der Standardmetrik sind hier bereits dargestellt. Sehen Sie, wie sehr sie sich unterscheiden? Ycuped ist viel kleiner und die Durchschnittswerte sind nicht anders.

Genauer gesagt unterscheiden sie sich nicht. Irgendwo auf der 15-Dezimalstelle unterscheiden sie sich wahrscheinlich, aber wir gehen davon aus, dass dies ein Fehler ist, der mit dem Runden verbunden ist.

Was sehen wir hier? Die Dispersion sank um 45%. Dies sind Daten aus dem Internet. Was wir in X5 beobachtet haben, ist, dass die Varianz viermal abfällt. In X5 haben wir eine Art Verhalten innerhalb des Geschäfts, es kann durchschnittlich für den Wochentag, für die Stunde, für die Stunde und den Wochentag sein. Sehen Sie, wir können Kovariaten aufnehmen, die immer mehr korrelieren. Es scheint, dass die bedingte Anzahl der Personen, die am Montag kamen, mit der Anzahl der Personen korrelieren sollte, die am nächsten Montag kamen. Wenn wir etwas tiefer schauen, sollte der Montag, sechs Uhr abends, noch stärker mit dem Montag, sechs Uhr abends, korrelieren. Und Sonntag, drei Uhr nachmittags, mit einem weiteren Sonntag, drei Uhr nachmittags.

Der maximale Varianzabfall, den ich im wirklichen Leben gesehen habe, war 19 Mal. Was ist das Plus? Dies ist auch sehr einfach. Sie müssen zugeben, dass Sie überhaupt nicht nachdenken müssen. Gefundene Kovariate, gefundenes θ. θ wird übrigens nach einer extrem einfachen Formel gefunden, alles wurde bereits getan.



Nahm, subtrahiert, bekam die konvertierte Metrik. Ihr Durchschnitt hat sich nicht verändert, das ist sehr gut. Erklären Sie dem Geschäft in einer normalen Sprache, warum dies möglich ist. Sie sagen, dass wir nicht nur daran interessiert sind, wie sich Benutzer im Durchschnitt verhalten, sondern wie sich ihr Verhalten gegenüber dem Durchschnitt geändert hat. Und das ist es.

In einigen Fällen kann es schwierig sein, die richtige Kovariate auszuwählen, aber oft ist dies kein Problem. Es ist immer möglich (sehr selten, wenn nicht möglich), den Wert für den vorherigen Versuchszeitraum zu übernehmen. Es klappt. Eine 19-fache Verringerung der Varianz bedeutet, dass die für den A / B-Test erforderliche Datenmenge ebenfalls um das 19-fache abnimmt. Das heißt, Sie können dadurch Ihr Ergebnis schneller erhalten, und dies erhöht die Empfindlichkeit des Tests.

Wenn Sie bereits eine bestimmte Anzahl von A / B-Tests haben, können Sie diese Cups auf dieselbe retrospektive Weise ausführen und Fehler der ersten und zweiten Art berechnen. Sie können Fehler der ersten Art zählen, wenn Sie einen AA-Test durchführen. Bei Cuped geben Sie es auf die gleiche Weise aus - und auf die gleiche Weise können Sie bewerten, um wie viel sich Ihre Empfindlichkeit erhöht hat.


* :
Improving the Sensitivity of Online Controlled Experiments by Utilizing Pre-Experiment Data
Improving the Sensitivity of Online Controlled Experiments: Case Studies at Netflix
How Booking.com increases the power of online experiments with CUPED

All Articles