Webtest - 100-mal schneller als AB-Test

A / B-Tests sind eines der Hauptinstrumente des Produktmanagements. Bisher haben sie keine zuverlässigere und kostengünstigere Methode gefunden, um die Auswirkungen einer bestimmten Änderung auf die Geschäftsmetriken des Produkts zuverlässig zu bewerten und von allen anderen Faktoren zu isolieren.

In diesem Artikel möchte ich über eine alternative Methode zum Testen von Änderungen in einem Produkt sprechen: Interlacing-Tests in der englischen Literatur - Interleaving-Tests. Um seine Vor- und Nachteile aufzuzeigen, werden wir ihn privat mit dem traditionellen A / B-Test vergleichen, aber nicht, weil es sich um eine neue, fortschrittlichere Methode handelt, die schneller und genauer ist und die A / B-Tests ersetzen sollte. Dies ist ein zusätzliches Werkzeug für einen Produktmanager mit einem anderen Anwendungsbereich und der Beantwortung einer anderen Frage. Ein Vergleich macht es einfach, die Unterschiede und Stärken der Tests durch Weben aufzuzeigen.

Zusammenfassung:

  • Warum das Weben schneller ist als der A / B-Test
  • Wann kann der Webtest gewebt werden?
  • Was ist der Unterschied zwischen A / B-Test und Webergebnissen?
  • Wie man die Stärken des Webens und des A / B-Tests kombiniert

Warum Webtests viel schneller sind als A / B-Tests


Bei zahlreichen Versuchen, Kollegen und anderen Produktmanagern die Grundidee des Webens zu vermitteln, kam ich zu dem Schluss, dass das folgende Beispiel dies am besten veranschaulicht. Nehmen Sie sich einen Moment Zeit, um in den Kontext einzutreten. Ich verspreche, dass Sie am Ende des Beispiels zustimmen werden, dass dies sehr klar ist.

Angenommen, wir müssen bestimmen, welches Soda in unserer Bar angeboten werden muss, um so viele Getränke wie möglich zu verkaufen: Coca-Cola oder Pepsi. Wenn wir uns dieser Lösung unter dem Gesichtspunkt der A / B-Tests nähern, müssen wir zwei absolut identische Balken öffnen, in einem nur Cola, in dem anderen nur Pepsi, und Besucher zufällig auf einen dieser Balken leiten.

Bild

Dann vergleichen wir die Besucher, von welcher der Bars die meisten Getränke bestellt wurden, und schließen daraus, welche Getränke die meisten Einnahmen erzielen.

Ich denke, Sie können bereits erkennen, wo das Problem liegt: So viele Besucher dieser Bar, in der sie kein Lieblingsgetränk haben, bestellen immer noch, was sie geben, weil sie immer noch trinken möchten. Und nur sehr wenige werden in ihren Vorlieben so prinzipiell sein, dass sie überhaupt nicht oder viel weniger trinken. Nicht sehr wichtige Besucher reduzieren die Empfindlichkeit unseres Tests gegenüber Vorlieben für Getränke, da sie uns mit ihrem Verhalten tatsächlich kein Signal geben.

Wie kann man das gleiche Problem durch Weben lösen? Wenn wir die physische Fähigkeit haben, Benutzern beide verglichenen Optionen gleichzeitig anzubieten und zu sehen, welche sie bevorzugen, können wir ihre wahren Präferenzen schnell identifizieren.

Bild

Wenn wir unsere Metapher mit einer Bar verweben, werden wir zwei Klopfen an der Theke platzieren und sehen, welches der Getränke die Besucher am meisten bestellen. Ich denke, Sie haben intuitiv das Gefühl, dass dieser Test viel schneller zu einem signifikanten Ergebnis führt, da jede Bestellung eine „Abstimmung“ für die eine oder andere Option darstellt, während beim A / B-Test nur der Unterschied in der Anzahl der Bestellungen ein Signal ist.

In einem Artikel im Netflix Tech Blogliefert Beweise dafür, dass das Weben 100-mal schneller als A / B die Benutzerpräferenzen bestimmt. Leider kann ich meine persönlichen Erfahrungen mit dem Weben nicht veröffentlichen, aber in meinem Fall wurde diese Einschätzung bestätigt. Das Weben mit fast jedem vernünftigen Verkehr führt in weniger als 24 Stunden zu einem signifikanten Ergebnis. Die Testdauer von weniger als einem Tag funktioniert jedoch immer noch nicht, da die Repräsentativität der Stichprobe sichergestellt werden muss (Besucher am Morgen, Nachmittag und Abend können unterschiedliche Verhaltensmuster aufweisen, lassen Sie uns wöchentliche Zyklen ignorieren).

Wann kann gewebt werden?


Ursprünglich wurde das Weben für Ranking-Tests erfunden: Wenn Sie über eine Reihe von Objekten verfügen (Produkte in einem Online-Shop oder Links zu Seiten im Internet für eine Suchmaschine) und diese so sortieren müssen, dass diejenigen, die den Anforderungen des Benutzers am ehesten entsprechen, oben angezeigt werden.

Wenn Sie zwei Rangfolgenalgorithmen haben und diese vergleichen möchten, können Sie dem Benutzer weder Rang A noch Rang B anzeigen, sondern ihm eine Seite anzeigen, die wie folgt aussieht:

A1 B1 A2 B2 A3 B3 ... und so weiter, wobei A2 - Dies ist die zweite Zeile, die vom Ranking-Algorithmus A ausgegeben wird, und B3 ist die dritte Zeile in Ranking B.

BildAbbildung des Gewebes aus einem Artikel im Netflix Tech Blog

Feinheiten der Umsetzung
:
  • , ,
  • : , ?
  • ,
  • , , A/B


Wir leiten den gesamten verfügbaren Datenverkehr auf dieses ineinander verschlungene Ranking und berücksichtigen die Ergebnisse, mit denen einer der beiden Algorithmen mehr Klicks erhalten oder gezieltere Aktionen im Conversion-Trichter durchgeführt hat.

In der Tat gibt es viele Elemente, die tatsächlich das Ergebnis der Rangfolge in den Produkten sind. Ich werde Beispiele geben:

  • Die Liste der Produkte oder der Katalog der Abschnitte auf der Hauptseite der Website
  • Liste der Produkte innerhalb eines Abschnitts oder als Antwort auf eine Suchanfrage
  • Liste der Artikel in der Nachrichtenressource
  • "Ähnliche Anzeigen"
  • "Sie kaufen auch mit diesem Produkt."
  • Artikel in der Hilfe
  • Beliebige Auflistung von Elementen: Freunde im sozialen Bereich. Netzwerke, Beiträge auf dem Band, Musik auf der Seite, Filme im Kino
  • usw

Und all diese Elemente können und sollten durch Weben getestet werden. Mit Interweaving können Sie nicht einen alternativen Algorithmus zur Auswahl von Empfehlungen pro Woche testen, sondern sieben Hypothesen pro Woche.

Was ist der Unterschied zwischen A / B-Test und Webtest?


Wenn wir einen A / B-Test durchführen, können wir die Auswirkungen einer Änderung der Benutzererfahrung auf jede Metrik messen, an der wir interessiert sind und die wir im Kontext eines Benutzers berücksichtigen. Von der Umstellung auf den Verkauf bis zur Anzahl der Supportanrufe.

Mit dem Interlacing-Test können wir nur die Ereignisse vergleichen, die direkt mit einem Klick auf eine der verwobenen Optionen verknüpft werden können. Dieser Vergleich erlaubt es uns jedoch nicht, die Frage zu beantworten, was passieren wird, wenn wir A in unserem Produkt durch B ersetzen. Wir wissen nicht, was passieren wird, wenn der Benutzer nur das Ranking von B sieht. Wir haben an einer Kombination gemessen, die keine unabhängige Version des Benutzers ist Erfahrung.

Daher wird empfohlen, das Weben als Vorstufe für die Auswahl der vielversprechendsten von vielen Hypothesen zu verwenden, für die es bereits sinnvoll ist, einen längeren A / B-Test durchzuführen, um zu überprüfen, wie sich diese Änderung auf die Zielmetrik auswirkt.

Sehr oft stellt sich heraus, dass die Verbesserung des Algorithmus keine Auswirkungen auf die Geschäftsmetrik hatte, aber zumindest sind Sie sicher, dass die Benutzererfahrung besser geworden ist, und jetzt wissen Sie, welcher Block bei Versuchen, die für Sie bestimmte Metrik zu verbessern, höchstwahrscheinlich sinnlos zu optimieren ist.

Stärken und Schwächen des Webens


Fassen wir die Vor- und Nachteile des Webtests zusammen.

Minuspunkte


  • , : - - A . , , , .
  • , , , A/B .
  • , , , , .


  • - ( , , . ).
  • ( Netflix 100 , ).
  • . , , , , «» , .


  1. Netflix, , 100 A/B
  2. Ein wissenschaftlicherer Artikel , der die Statistik beschreibt. Methoden zur Interpretation der Testergebnisse durch Weben (Chapelle, O., Joachims, T., Radlinski, F. und Yue, Y. 2012. Validierung und Analyse der Bewertung der verschachtelten Suche in großem Maßstab. ACM Trans. Inf. Syst. 30, 1, Artikel 6 (Februar 2012)

All Articles