Toller A / B Test Guide

Im Internet gibt es eine Menge Informationen über A / B-Tests, aber viele tun dies immer noch falsch. Es ist wirklich leicht, einen Fehler zu machen, daher erfordern solche Studien eine ernsthafte vorbereitende Vorbereitung. Dieser Artikel beschreibt die Hauptaspekte von A / B-Tests, die für eine effektive Webseitenanalyse berücksichtigt werden müssen.

Was ist A / B-Test?


Beim A / B-Test (Split-Test) wird der Datenverkehr in einem Verhältnis von 50/50 zwischen verschiedenen Versionen der Seite aufgeteilt. Im Wesentlichen ist diese Methode ein neuer Name für eine alte Technik, die als „kontrolliertes Experiment“ bekannt ist.

Um die Wirksamkeit neuer Medikamente zu testen, führen Experten Split-Tests durch. Tatsächlich können die meisten Forschungsexperimente als A / B-Tests bezeichnet werden. Dazu gehören die Hypothese, das Hauptobjekt der Studie, ihre Variation und das Ergebnis, die in Form statistischer Daten dargestellt werden.

Das ist alles. Ein Beispiel ist ein einfacher A / B-Test, bei dem der 50/50-Verkehr zwischen der Hauptseite und ihrer Variation aufgeteilt wird:



Bei der Conversion-Optimierung besteht der Hauptunterschied in der Variabilität des Internetverkehrs. Externe Variablen sind im Labor einfacher zu steuern. Im Internet können Sie die Auswirkungen verringern, die Erstellung eines vollständig kontrollierten Tests ist jedoch viel schwieriger.
Darüber hinaus erfordert das Testen neuer Medikamente ein gewisses Maß an Genauigkeit. Das Leben der Menschen steht auf dem Spiel. Aus technischer Sicht bedeutet dies, dass das Testen länger dauern kann, da die Forscher alles tun sollten, um die erste Art von Fehler (falsch positiv) zu vermeiden.

A / B-Tests von Webressourcen werden jedoch durchgeführt, um Geschäftsziele zu erreichen. Es ist notwendig für Risiko- und Ertragsanalysen, Exploration und Entwicklung, Wissenschaft und Wirtschaft. Daher werden die Ergebnisse aus einem anderen Blickwinkel betrachtet und Entscheidungen werden anders getroffen als bei Forschern in Laboratorien.

Natürlich können Sie mehr als zwei Seitenvarianten erstellen. Eine Studie mit mehreren Elementen wird als A / B / n-Test bezeichnet. Wenn genügend Verkehr vorhanden ist, können Sie so viele Optionen testen, wie Sie möchten. Hier ist ein Beispiel für A / B / C / D-Tests, das den für jede Variation zugewiesenen Verkehr zeigt:



A / B / n-Tests eignen sich hervorragend zum Implementieren mehrerer Variationen, um eine Hypothese zu testen. Es wird jedoch mehr Verkehr erfordern, da es in mehr Seiten unterteilt werden muss.

Trotz seiner Beliebtheit sind A / B-Tests nur eine Art von Online-Recherche. Sie können auch multivariate Tests durchführen oder die mehrarmige Banditenmethode verwenden.

A / B-Tests, multivariate Tests und die mehrarmige Banditenmethode: Was ist der Unterschied?
A / B / n-Tests sind kontrollierte Experimente, bei denen die Conversion-Raten der Originalseite und ihrer oder mehrerer Variationen verglichen werden.

Multivariate Tests werden an mehreren Versionen der Seite durchgeführt, um festzustellen, welche Attribute von größter Bedeutung sind. Wie bei A / B / n-Tests wird das Original mit Variationen verglichen. Jedes Design verwendet jedoch unterschiedliche Designelemente. Zum Beispiel:



Jedes Element hat einen bestimmten Anwendungsfall und wirkt sich auf die Leistung der Seite aus. Sie können die Website auf folgende Weise optimal nutzen:

  • Führen Sie A / B-Tests durch, um die besten Seitenlayoutoptionen zu ermitteln.
  • Führen Sie multivariate Tests durch, um das Layout zu verbessern und sicherzustellen, dass alle Seitenelemente gut miteinander interagieren.


Sie müssen eine große Anzahl von Benutzern auf die getestete Seite locken, bevor Sie überhaupt die Möglichkeit multivariater Tests in Betracht ziehen. Es gibt jedoch genügend Verkehr, beide Arten von Forschung sollten verwendet werden, um die Site zu optimieren.
Die meisten Agenturen bevorzugen A / B-Tests, da ihre Kunden normalerweise signifikante Änderungen testen (was sich möglicherweise stärker auf die Seite auswirkt). Darüber hinaus sind sie einfacher durchzuführen.

Die mehrarmige Banditenmethode ist A / B / n - Tests, die in Echtzeit basierend auf der Wirksamkeit jeder Variation aktualisiert werden.

Tatsächlich beginnt der mehrarmige Banditenalgorithmus mit dem Senden von Datenverkehr an zwei (oder mehr) Seiten: das Original und seine Version (en). Dann wird es aktualisiert, je nachdem, welche der Variationen am effektivsten ist. Am Ende bestimmt der Algorithmus die bestmögliche Option:



Einer der Vorteile der mehrarmigen Banditenmethode besteht darin, dass sie die Konvertierungsverluste verringert, die beim Testen des potenziell schlimmsten Falls auftreten. Diese Tabelle von Google erklärt alles gut:



Sowohl die mehrarmige Banditenmethode als auch die A / B / n-Tests haben Stärken. Der erste ist ideal für:

  • Überschriften und kurzfristige Kampagnen;
  • Automatische Skalierung;
  • Targeting
  • Gleichzeitige Optimierung und Zuordnung.


Unabhängig davon, welche Art von Test Sie verwenden, ist es wichtig, Ihre Erfolgschancen zu erhöhen. Mit anderen Worten, je öfter Sie testen, desto schneller steigt die Conversion.



So verbessern Sie die Ergebnisse von A / B-Tests


Achten Sie nicht auf Artikel wie "99 Dinge, die mit A / B-Tests getestet werden können". Dies ist eine Verschwendung von Zeit und Verkehr. Nur der Prozess selbst hilft Ihnen, den Umsatz zu steigern.

Etwa 74% der Optimierer mit einem strukturierten Conversion-Ansatz berichten ebenfalls von verbesserten Umsätzen. Der Rest kommt dorthin, was der Webanalyst Craig Sullivan als "Trog der Enttäuschung" bezeichnet. (Es sei denn, ihre Ergebnisse werden durch falsch positive Ergebnisse beeinträchtigt, auf die wir später noch eingehen werden.)

Für maximale Effektivität sollte die Teststruktur folgendermaßen aussehen:
  • Studie;
  • Priorisierung;
  • Experimentieren;
  • Analyse, Training, Wiederholung.


Studie


Um Ihre Website zu optimieren, müssen Sie verstehen, was und warum Ihre Benutzer tun.
Bevor Sie jedoch über das Testen nachdenken, sollten Sie Ihre Strategie, Benutzer anzulocken, stärken und darauf aufbauen. Sie müssen also:

  1. Definieren Sie die Ziele Ihres Unternehmens.
  2. Definieren Sie die Ziele Ihrer Website.
  3. Identifizieren Sie Ihre wichtigsten Leistungsindikatoren.
  4. Definieren Sie Ihre Zielmetriken.




Sobald Sie verstanden haben, was Sie erreichen möchten, können Sie mit der Erfassung der erforderlichen Daten beginnen. Hierzu empfehlen wir die Verwendung des ResearchXL Framework.
Hier ist eine kurze Liste der von CXL verwendeten Prozesse:

  1. Heuristische Analyse;
  2. Technische Analyse;
  3. Datenanalyse von Webanalysesystemen;
  4. Analyse der Mausbewegung;
  5. Qualitätsumfragen;
  6. Benutzertests.


Die heuristische Analyse ist eine der besten A / B-Testmethoden. Trotz langjähriger Erfahrung ist es schwer zu verstehen, welche Elemente der Seite ihre Effektivität erhöhen. Es können jedoch Chancenbereiche identifiziert werden. UX-Spezialist Craig Sullivan glaubt:

„Nach meiner Erfahrung vereinfachen diese Muster die Arbeit, sind aber keine alltäglichen Wahrheiten. Sie leiten und informieren mich, geben aber keine Garantie. “


Verlassen Sie sich nicht auf Muster. Es ist auch nützlich, einen Rahmen zu haben. Bei der Durchführung einer heuristischen Analyse lohnt es sich, jede Seite nach folgenden Kriterien zu bewerten:

  • Relevanz;
  • Klarheit;
  • Wert;
  • Reibung;
  • Abstraktion.


Technische Analysen werden oft übersehen. Fehler (falls vorhanden) beenden jedoch die Konvertierung. Es scheint Ihnen, dass Ihre Website in Bezug auf Benutzererfahrung und Funktionalität einwandfrei funktioniert. Aber funktioniert es mit jedem Browser und Gerät gleich gut? Wahrscheinlich nicht.

Die technische Analyse ist sehr effektiv und nicht sehr arbeitsintensiv. Deshalb sollten Sie:

  • Führen Sie browser- und plattformübergreifende Tests durch.
  • Analysieren Sie die Geschwindigkeit der Site.


Als nächstes folgt die Analyse von Daten aus Webanalysesystemen. Stellen Sie zunächst sicher, dass alles funktioniert. Sie werden überrascht sein, wie viele Einstellungen des Webanalysesystems falsch eingestellt sind.

Die Mausbewegungsanalyse umfasst Heatmaps, Bildlaufkarten, Formanalysen und Wiederholungen von Benutzersitzungen. Lassen Sie sich nicht von der farbenfrohen Visualisierung von Klickkarten mitreißen. Stellen Sie sicher, dass die Analyse Ihnen hilft, die Informationen zu erhalten, die Sie zum Erreichen Ihrer Ziele benötigen.
Qualitative Forschung ermöglicht es Ihnen, die Ursachen von Problemen zu verstehen. Viele Leute denken, dass es einfacher als quantitativ ist. In der Tat muss qualitative Forschung so genau sein, dass sie gleichermaßen nützliche Informationen liefert.

Dazu ist Folgendes erforderlich:

  • Umfragen auf der Website;
  • Kundenumfragen;
  • Interviews mit Kunden und Fokusgruppen.


Schließlich können Benutzertests verwendet werden. Die Idee ist einfach: Beobachten Sie, wie echte Menschen Ihre Website nutzen, und interagieren Sie mit ihr, während Sie ihre Aktionen kommentieren. Achten Sie darauf, worüber sie sprechen und was sie erleben.

Nach einer gründlichen Konvertierungsstudie verfügen Sie über viele Daten. Der nächste Schritt besteht darin, das Testen zu priorisieren.

Priorisierung von Hypothesen bei A / B-Tests


Es gibt viele Frameworks für die Priorisierung Ihrer A / B-Tests. Darüber hinaus können Sie dies auf der Grundlage Ihrer eigenen Methoden tun. Craig Sullivan priorisiert wie folgt:

Nach Abschluss aller sechs oben beschriebenen Phasen treten Probleme auf - sowohl schwerwiegende als auch geringfügige. Verteilen Sie jeden Fund in eine von fünf Kategorien:

  1. Testen: Alles, was getestet werden muss, wird an diese Kategorie gesendet.
  2. Tools. Diese Kategorie umfasst das Korrigieren, Hinzufügen oder Verbessern der Verarbeitung von Tags / Ereignissen in Analytics.
  3. Hypothese: Diese Kategorie definiert Seiten, Widgets oder Prozesse, die nicht sehr gut funktionieren und eine Fehlerbehandlung erfordern.
  4. Tun Sie es einfach. Verwenden Sie diese Kategorie für Aufgaben, die nur erledigt werden müssen.
  5. Studie: Wenn eine Aufgabe in diese Kategorie fällt, müssen Sie etwas tiefer graben, um sie zu lösen.


Bewerten Sie jedes Problem mit 1 bis 5 Sternen (1 = geringfügig, 5 = kritisch). Bei der Bewertung sind die folgenden zwei Kriterien am wichtigsten:

  1. Einfache Implementierung (Zeit / Komplexität / Risiko). Manchmal werden Sie anhand der Daten aufgefordert, eine Funktion zu erstellen, deren Entwicklung Monate dauert. Beginne nicht mit ihr zu arbeiten.
  2. Gelegenheit. Bewerten Sie Fragen subjektiv, je nachdem, wie groß ein Aufzug oder eine Veränderung sein kann.


Erstellen Sie eine Tabelle mit all Ihren Daten. Sie erhalten ein Split-Testschema mit festgelegten Prioritäten.

Wir haben unser eigenes Priorisierungsmodell erstellt, um den gesamten Prozess so objektiv wie möglich zu gestalten. Dies impliziert die obligatorische Eingabe von Daten in die Tabelle. Das Modell heißt PXL und sieht folgendermaßen aus:



Laden Sie hier eine Kopie dieser Tabellenvorlage herunter. Klicken Sie einfach auf Datei> Kopie erstellen, um alles zu erhalten, was Sie benötigen.


Anstatt die Wirksamkeit einer Änderung vorherzusagen, stellt Ihnen das Framework eine Reihe von Fragen dazu:

  • Gibt es eine signifikante Änderung? Ein großes Update wird mehr Leute bemerken. Daher wirkt sich die Änderung stärker auf die Seite aus.
  • Ist es möglich, eine Änderung in 5 Sekunden zu bemerken? Zeigen Sie der Personengruppe die Seite und dann ihre Variation (en). Werden sie die Unterschiede in 5 Sekunden bemerken? Wenn nicht, wird die Änderung wahrscheinlich keine wesentlichen Auswirkungen haben.
  • Fügt die Änderung etwas hinzu oder entfernt sie etwas? Wichtige Änderungen, wie das Reduzieren von Ablenkungen oder das Hinzufügen wichtiger Informationen, wirken sich normalerweise stark auf die Seite aus.
  • Funktioniert der Test auf Seiten mit hohem Datenverkehr? Das Verbessern einer Seite mit viel Verkehr bringt eine große Rendite.


Viele potenzielle Testvariablen erfordern Daten, um Ihre Hypothesen zu priorisieren. Wöchentliche Diskussionen mit den folgenden vier Fragen helfen Ihnen dabei, Tests anhand von Daten und nicht anhand von Meinungen zu priorisieren:

  • Wird das beim Benutzertest festgestellte Problem behoben?
  • Werden die Probleme, die durch Qualitätsfeedback (Umfragen, Umfragen, Interviews) entdeckt wurden, behoben?
  • Wird die Hypothese durch Maus-Tracking, Heatmaps oder Eye-Tracking unterstützt?
  • Werden die durch digitale Analyse entdeckten Probleme behoben?


PXL-Bewertung


Wir verwenden eine binäre Skala: Sie müssen eine Bewertung aus zwei auswählen. Daher wählen Sie für die meisten Variablen (sofern nicht anders angegeben) entweder 0 oder 1.
Wir möchten die Variablen jedoch auch nach Wichtigkeit sortieren. Dazu beschreiben wir speziell, welche Elemente der Seite sich ändern.

Anpassbarkeit


Wir haben dieses Modell erstellt und sind davon überzeugt, dass Sie abhängig von den Zielen Ihres Unternehmens Variablen einrichten können und sollten.

Wenn Sie beispielsweise mit einem Branding-Team oder einer Benutzererfahrung arbeiten und die Hypothesen mit den Empfehlungen der Marke übereinstimmen sollten, fügen Sie sie als Variable hinzu.
Möglicherweise arbeiten Sie in einem Startup, dessen Vertriebsmaschine von SEO unterstützt wird. Vielleicht hängt Ihre Finanzierung vom Kundenstrom ab. Fügen Sie eine Kategorie wie "SEO stört nicht" hinzu, um einige Überschriften oder Texte zu ändern.

Alle Organisationen arbeiten unterschiedlich. Das Einrichten der Vorlage hilft dabei, alle Nuancen zu berücksichtigen und das optimale Programm zur Optimierung der Site zu erstellen.

Machen Sie es jedem Mitglied des Teams sowie den Aktionären des Unternehmens klar, welchen Rahmen Sie auch verwenden.

Wie lange dauern A / B-Tests?


Erste Regel: Stoppen Sie den Test nicht, nur weil er statistisch signifikant wird. Dies ist wahrscheinlich der häufigste Fehler, den unerfahrene Optimierer machen.

Wenn Sie zu früh mit dem Testen aufhören, werden Sie feststellen, dass die meisten Änderungen nicht zu einer Einkommenssteigerung führen (was das Hauptziel ist).
Beachten Sie diese Statistiken, die nach 1000 A / A-Tests erhalten wurden (sie wurden für zwei identische Seiten durchgeführt):

  • 771 von 1000 Experimenten erreichten eine Signifikanz von 90%.
  • 531 von 1000 Experimenten erreichten eine Signifikanz von 95%.


Das vorzeitige Stoppen von Tests erhöht das Risiko von Fehlalarmen.
Bestimmen Sie die Probengröße und führen Sie mehrere Wochen lang mindestens zwei Arbeitszyklen hintereinander Tests durch.

Wie bestimme ich die Stichprobengröße? Es gibt viele großartige Werkzeuge. So können Sie die Stichprobengröße mit dem Evan Miller-Tool berechnen:



In diesem Beispiel haben wir angegeben, dass die Conversion-Rate 3% beträgt, und wir möchten diese Rate um mindestens 10% erhöhen. Dieses Tool besagt, dass 51.486 Personen jede Variation besuchen müssen, bevor wir die statistische Signifikanz betrachten können.

Neben dem Signifikanzniveau gibt es statistische Stärke. Die statistische Aussagekraft versucht, Fehler vom Typ II (falsch negative Ergebnisse) zu vermeiden. Mit anderen Worten, es erhöht die Wahrscheinlichkeit, dass Sie das effektivste Seitenelement finden.

Denken Sie daran, dass 80% der Leistung der Standard für A / B-Testwerkzeuge ist. Um dieses Niveau zu erreichen, benötigen Sie entweder eine große Stichprobe oder einen grandiosen Effekt oder einen längeren Test.

Es gibt keine magischen Zahlen


In vielen Artikeln werden magische Zahlen (wie "100 Conversions" oder "1000 Besucher") als beste Zeit zum Beenden des Tests aufgeführt. Mathematik hat jedoch nichts mit Magie zu tun. Tatsächlich ist alles komplizierter als vereinfachte Heuristiken wie diese Zahlen. Das sagt Andrew Anderson von Malwarebytes:

„Ihr Ziel ist nicht eine bestimmte Anzahl von Conversions. Sie sollten sich bemühen, genügend Daten zu sammeln, um eine Hypothese zu testen, die auf repräsentativen Stichproben und repräsentativem Verhalten basiert.

Einhundert Conversions sind nur in den seltensten Fällen und mit einem unglaublich hohen Verhaltensunterschied möglich, aber nur, wenn andere Anforderungen erfüllt sind - wie Zeitverhalten, Konsistenz und Normalverteilung. Gleichzeitig bleibt das Risiko eines Fehlers vom Typ First sehr hoch. “


Sie benötigen also eine repräsentative Probe. Wie bekomme ich es? Führen Sie Tests in zwei Konjunkturzyklen durch, um den Einfluss externer Faktoren zu verringern, z.

  • \ Wochentag. Der tägliche Verkehr kann je nach Wochentag stark variieren.
  • \ Verkehrsquellen. Es sei denn, es ist notwendig, die Erfahrung für eine bestimmte Quelle zu personalisieren.
  • \ Planen Sie das Senden von Newslettern und Blog-Posts.
  • \ Wiederkehrende Besucher. Die Leute können Ihre Website besuchen, über einen Kauf nachdenken und dann 10 Tage später wiederkommen, um ihn zu tätigen.
  • Externe Ereignisse. Beispielsweise kann sich die Gehaltsabrechnung zur Monatsmitte auf Ihren Einkauf auswirken.


Seien Sie vorsichtig mit kleinen Proben. Es gibt viele Fallstudien im Internet, die mit mathematischen Fehlern gefüllt sind.

Sobald Sie alles eingerichtet haben, schauen Sie nicht auf die Testergebnisse (und lassen Sie den Chef nicht spähen), bis sie fertig sind. Andernfalls können Sie vorzeitige Schlussfolgerungen ziehen, indem Sie "einen Trend erkennen".

Regression zu bedeuten


Sie werden oft feststellen, dass die Ergebnisse in den ersten Testtagen stark variieren. Anschließend konvergieren sie zum Durchschnittswert, da der Test mehrere Wochen andauert. Hier ist ein Beispiel für die Statistik von E-Commerce-Websites:



  • Die ersten Tage: Blau (Option Nummer 3) gewinnt mit einem Vorsprung. Die Variante bringt 16 US-Dollar pro Besucher gegenüber 12,50 US-Dollar auf der Originalseite. Viele (aus Versehen) würden die Tests an dieser Stelle beenden.
  • Nach 7 Tagen: Die blaue Version der Seite gewinnt immer noch und der relative Unterschied ist ziemlich groß.
  • Nach 14 Tagen: Die orange Version (Nr. 4) hat die Nase vorn!
  • Nach 21 Tagen: Die orange Version gewinnt noch!
  • Testende: Es gibt keine Unterschiede zwischen den Optionen.


Wenn Sie den Test vor der vierten Woche abgeschlossen hätten, wären Sie zu dem falschen Schluss gekommen.

Es gibt ein ähnliches Problem: die Wirkung der Neuheit. Die Neuheit Ihrer Änderungen (z. B. die große blaue Schaltfläche) lenkt die Aufmerksamkeit mehr auf die Seitenoption. Mit der Zeit verschwindet dieser Effekt, da die Änderung allmählich nicht mehr relevant ist.

Kann ich mehrere A / B-Tests gleichzeitig durchführen?


Sie möchten Ihr Testprogramm beschleunigen und weitere Tests ausführen. Ist es jedoch möglich, mehr als einen A / B-Test gleichzeitig durchzuführen? Steigert es Ihr Wachstumspotenzial oder verzerrt es die Daten?

Einige Experten argumentieren, dass die gleichzeitige Durchführung mehrerer Tests falsch ist. Einige sagen, dass alles in Ordnung ist. In den meisten Fällen haben Sie keine Probleme, wenn Sie mehrere Tests gleichzeitig durchführen.

Wenn Sie nicht wirklich wichtige Dinge testen (z. B. etwas, das Ihr Geschäftsmodell und die Zukunft des Unternehmens beeinflusst), überwiegen die Vorteile des Testvolumens wahrscheinlich die Fehler in Ihren Daten und zufällige Fehlalarme.
Wenn ein hohes Risiko für die Interaktion zwischen mehreren Tests besteht, reduzieren Sie die Anzahl der gleichzeitigen Tests und / oder lassen Sie die Tests länger laufen, um die Genauigkeit zu verbessern.

So richten Sie A / B-Tests ein


Nach dem Zusammenstellen einer Liste von Testideen mit priorisierten Prioritäten muss eine Hypothese formuliert und ein Experiment durchgeführt werden. Durch die Hypothese bestimmen Sie, aus welchem ​​Grund das Problem auftritt. Darüber hinaus eine gute Hypothese:

  • Überprüfbar. Es ist messbar und kann daher überprüft werden.
  • Behebt das Konvertierungsproblem. Split-Tests lösen Konvertierungsprobleme.
  • Bietet Marktkenntnisse. Mit einer klar formulierten Hypothese liefern Ihnen die Ergebnisse Ihrer Split-Tests immer wertvolle Kundeninformationen.




Craig Sullivan bietet den folgenden Algorithmus an, um den Hypothesenprozess zu vereinfachen:

  1. Da wir erhalten haben (Daten / Feedback),
  2. Wir erwarten, dass (Veränderung) (Wirkung) verursachen wird.
  3. Wir werden es mit (Datenmetrik) messen.


Es gibt eine erweiterte Version dieses Algorithmus:

  1. Da wir erhalten haben (qualitative und quantitative Daten),
  2. Wir erwarten, dass (Veränderung) für (Bevölkerung) (Wirkung (en)) verursacht.
  3. Wir erwarten (Änderung der Datenmetriken) für den Zeitraum (X Geschäftszyklen).


Technische Probleme


Der unterhaltsamste Teil des Testens ist gekommen: Sie können endlich ein Werkzeug dafür auswählen.

Viele beginnen dieses Problem zuerst, aber dies ist alles andere als das Wichtigste. Strategie und Statistik sind viel wichtiger.

Es gibt jedoch einige Funktionen der Tools, die Sie kennen sollten. Sie fallen in zwei Hauptkategorien: serverseitige oder clientseitige Tools.

Server-Tools zeigen Code auf Serverebene an. Sie senden eine zufällige Version der Seite an den Betrachter, ohne den Browser des Besuchers zu ändern. Clientseitige Tools senden dieselbe Seite, aber JavaScript im Client-Browser steuert das Erscheinungsbild der Originalseite und ihrer Variante.

Zu den clientseitigen Testtools gehören Optimizely, VWO und Adobe Target. Mit Conductrics können Sie beide Methoden verwenden, und SiteSpect verwendet Proxys.
Was bedeutet das alles für dich? Wenn Sie Zeit sparen möchten, Ihr Team klein ist oder Sie keine Ressourcen für die Entwicklung haben, können Sie mit clientseitigen Tools schneller loslegen. Serverseitige Tools erfordern Entwicklungsressourcen, sind jedoch im Allgemeinen zuverlässiger.

Obwohl der Testaufbau je nach verwendetem Tool leicht unterschiedlich ist, ist der gesamte Prozess oft sehr einfach und jeder kann damit umgehen - befolgen Sie einfach die Anweisungen.

Darüber hinaus müssen Sie Ziele setzen. Ihr Testtool verfolgt, wann jede Seitenoption Besucher zu Kunden macht.



Beim Einrichten von A / B-Tests sind die folgenden Fähigkeiten hilfreich: HTML, CSS und JavaScript / JQuery sowie die Möglichkeit, Texte zu erstellen und neue Seitenvarianten zu entwerfen. Bei einigen Tools können Sie einen visuellen Editor verwenden, der jedoch Ihre Flexibilität und Kontrolle einschränkt.

Wie analysiere ich die Ergebnisse von A / B-Tests?


Sie haben also endlich recherchiert, den Test korrekt eingerichtet und durchgeführt. Fahren wir nun mit der Analyse fort. So einfach ist das nicht - es reicht nicht aus, nur die Grafik Ihres Testtools zu betrachten.



Eines sollten Sie immer tun: Analysieren Sie Ihre Testergebnisse in Google Analytics. So erweitern Sie nicht nur Ihre Analysefunktionen, sondern vertrauen auch mehr auf Ihre Daten und Ihre Entscheidungsfindung.

Ihr Testwerkzeug schreibt möglicherweise keine Daten korrekt. Wenn Sie keine andere Informationsquelle haben, können Sie nie sicher sein, ob Sie ihr vertrauen sollen. Erstellen Sie mehrere Datenquellen.

Was passiert, wenn zwischen den Variationen kein Unterschied besteht? Lassen Sie sich Zeit. Erkennen Sie zunächst zwei Dinge:

  1. Ihre Hypothese mag wahr sein, aber die Implementierung hat sich als falsch herausgestellt.
  2. Angenommen, Ihre qualitative Untersuchung weist auf ein Sicherheitsproblem hin. Wie oft können Sie Ihre Wahrnehmung von Sicherheit verbessern? Unbegrenzte Menge.
  3. Verwenden Sie iterative Tests, wenn Sie etwas testen möchten, und vergleichen Sie mehrere Iterationen.
  4. Selbst wenn im Allgemeinen kein spürbarer Unterschied besteht, kann die Abweichung in mancher Hinsicht die ursprüngliche Seite überschreiten.


Wenn Sie eine Steigerung der Effizienz bei regulären und mobilen Besuchern feststellen, jedoch nicht bei neuen Besuchern und Desktop-Benutzern, können sich diese Segmente gegenseitig aufheben und den Eindruck erwecken, dass „es keinen Unterschied gibt“. Analysieren Sie Ihren Test über wichtige Segmente hinweg, um diese Gelegenheit zu nutzen.

Datensegmentierung für A / B-Tests


Die Segmentierung ist der Schlüssel zur Nutzung der A / B-Testergebnisse. Trotz der Tatsache, dass B A in den Gesamtergebnissen verlieren kann, kann die Variation die ursprüngliche Seite in bestimmten Segmenten (organischer Verkehr, Facebook-Klicks, mobiler Verkehr usw.) besiegen.



Es gibt eine große Anzahl von Segmenten, die Sie analysieren können, darunter die folgenden:

  • Art des Browsers;
  • Art der Quelle;
  • Mobiler oder Desktop-Computer oder Gerät;
  • Registrierte und abgemeldete Besucher;
  • PPC / SEM-Kampagnen
  • Geografische Regionen (Stadt, Bundesland / Provinz, Land);
  • Neue und regelmäßige Besucher;
  • Neue und Stammkunden;
  • Fortgeschrittene Benutzer gegen gelegentliche Besucher;
  • Männer gegen Frauen
  • Altersspanne;
  • Neue und bereits präsentierte Leads;
  • Arten von Plänen oder Treueprogrammen;
  • Aktuelle, potenzielle und ehemalige Abonnenten;
  • Rollen (wenn Ihre Website beispielsweise die Rollen eines Käufers und eines Verkäufers bietet).


Beachten Sie als letzten Ausweg (vorausgesetzt, Sie haben eine angemessene Stichprobengröße) folgende Faktoren:

  • Die Popularität der Desktop- und Mobilversionen;
  • Neukunden versus Rückkehrer;
  • Verlorener Verkehr.


Stellen Sie sicher, dass Sie eine ausreichende Stichprobengröße im Segment haben. Berechnen Sie es im Voraus und seien Sie vorsichtig, wenn dieses Segment weniger als 250-350 Conversions pro Variation aufweist.
Wenn Ihre Aktionen für ein bestimmtes Segment gute Ergebnisse erbracht haben, können Sie diese Benutzer individuell ansprechen.

So archivieren Sie durchgeführte A / B-Tests


A / B-Tests sind in erster Linie erforderlich, um Informationen zu sammeln. Statistisch korrekte Tests, die gemäß den Anweisungen durchgeführt werden, tragen dazu bei, die Hauptziele Wachstum und Optimierung zu erreichen.

Intelligente Unternehmen archivieren Testergebnisse und verbessern ständig die Testansätze. Ein strukturierter Optimierungsansatz sorgt für ein größeres Wachstum und ist weniger häufig durch lokale Einschränkungen begrenzt.



Das Schwierigste ist: Es gibt keinen einzigen besten Weg, um das Wissensmanagement zu strukturieren. Einige Unternehmen verwenden ausgefeilte integrierte Tools. Einige verwenden Tools von Drittanbietern. und einige kommen mit Excel und Trello.
Hier sind drei Tools, die speziell zur Optimierung Ihrer Conversion entwickelt wurden:

  • Iridion;
  • Effektive Experimente;
  • Projekte von Wachstumshackern.




Statistiken erhalten durch A / B-Tests


Kenntnisse der Statistik sind hilfreich bei der Analyse der Ergebnisse eines A / B-Tests. Wir haben einige davon im obigen Abschnitt untersucht, aber das ist noch nicht alles.

Es gibt drei Konzepte, die Sie kennen sollten, bevor Sie die Details der durch A / B-Tests erhaltenen Statistiken kennenlernen:

  1. Mittlere Bedeutung. Wir messen nicht alle Conversion-Raten, sondern nur die Stichprobe. Der Durchschnitt ist nur ein Vertreter des Ganzen.
  2. Dispersion. Ein Maß für die Streuung der Werte einer Zufallsvariablen relativ zu ihrer mathematischen Erwartung. Es beeinflusst die Testergebnisse und wie wir sie verwenden.
  3. Auswahl. Wir können die wahre Conversion-Rate nicht messen, daher wird eine repräsentative Stichprobe ausgewählt.


Was ist ein P-Wert?


Viele Menschen verwenden den Begriff „statistische Signifikanz“ falsch. An sich ist es kein Signal, den Test abzubrechen. Was ist das und warum ist es so wichtig?
Schauen wir uns zunächst die P-Werte an, die auch nur wenige Menschen verstehen. Sogar Wissenschaftler selbst werden manchmal verwirrt!

Der P-Wert ist ein Wert, der die Fehlerwahrscheinlichkeit charakterisiert, wenn die Nullhypothese verworfen wird (Fehler der ersten Art). Es beweist nicht, dass die Wahrscheinlichkeit B höher als A ist. Dies ist ein häufiges Missverständnis.



Zusammenfassend können wir sagen, dass eine statistische Signifikanz (oder ein statistisch signifikantes Ergebnis) erreicht wird, wenn der P-Wert unter dem Niveau der statistischen Signifikanz liegt (das normalerweise auf 0,05 eingestellt ist).

Einseitige und bilaterale A / B-Tests


Mit einem Einweg-Test können Sie eine Änderung in eine Richtung erkennen, während Sie mit einem Zwei-Wege-Test eine Änderung in zwei Richtungen (sowohl positiv als auch negativ) erkennen können.

Machen Sie sich keine Sorgen, wenn Ihre Testsoftware nur einen der A / B-Testtypen unterstützt. Bei Bedarf kann ein Einweg-Test leicht in einen Zwei-Wege-Test umgewandelt werden und umgekehrt (dies muss jedoch vor dem Test erfolgen). Der einzige Unterschied ist das Schwellenwert-Signifikanzniveau.

Wenn Ihre Software einen Einweg-Test verwendet, teilen Sie den verwendeten P-Wert einfach in zwei Teile. Stellen Sie das Konfidenzniveau auf 97,5% ein, um sicherzustellen, dass Ihr Zwei-Wege-Test zu mindestens 95% zuverlässig ist. Wenn Sie eine Zuverlässigkeit von 99% erreichen möchten, müssen Sie einen Wert von 99,5% auswählen.


Die Conversion-Rate beträgt nicht nur X%. Es wird ungefähr in dieser Form angegeben: X% (± Y). Die zweite Zahl in dieser Formel ist das Konfidenzintervall und für das Verständnis der Ergebnisse des Split-Tests äußerst wichtig.



Bei A / B-Tests werden Konfidenzintervalle verwendet, um das Risiko von Stichprobenfehlern zu minimieren. In diesem Sinne steuern wir das Risiko, das mit der Einführung einer neuen Version der Seite verbunden ist.

Wenn Ihr Tool beispielsweise Folgendes anzeigt: „Wir sind zu 95% sicher, dass die Conversion-Rate X% ± Y% beträgt“, müssen Sie ± Y% als Fehlerquote berücksichtigen.

Die Zuverlässigkeit der Ergebnisse hängt weitgehend von der Größe des Fehlers ab. Wenn sich die beiden Konvertierungsbereiche überschneiden, müssen Sie mit dem Testen fortfahren, um ein Ergebnis zu erhalten, das eher der Wahrheit entspricht.

Bedrohung der externen Gültigkeit


Split-Tests werden durch die Tatsache erschwert, dass die Daten nicht statisch sind.



Eine Zeitreihe kann nur dann als stationär bezeichnet werden, wenn ihre statistischen Eigenschaften (Mittelwert, Varianz, Autokorrelation usw.) zeitlich konstant sind. Aus vielen Gründen sind die Website-Daten nicht stationär. Daher können wir nicht die gleichen Annahmen treffen wie für stationäre Daten. Hier sind einige Faktoren, die dazu führen können, dass sich Daten ändern:

  • Saison;
  • Wochentag;
  • Ferien;
  • Positive oder negative Referenzen in der Presse;
  • Andere Marketingkampagnen;
  • PPC / SEM;
  • SEO
  • Mundpropaganda.


Dies sind nur einige der Faktoren, die bei der Analyse der Ergebnisse von A / B-Tests berücksichtigt werden müssen.

Bayesianische und Frequenzstatistik


Mit vielen gängigen Tools können Sie sowohl Bayes'sche als auch Frequenzansätze für A / B-Tests verwenden. Was ist der Unterschied?

In einfachen Worten wird einer Hypothese in der Bayes'schen Statistik eine Wahrscheinlichkeit zugewiesen, und in der Frequenzstatistik wird sie ohne Zuweisung einer Wahrscheinlichkeit überprüft.

Jeder Ansatz hat seine Vorteile. Wenn Sie jedoch gerade erst anfangen, die Grundlagen des A / B-Testens zu verstehen, müssen Sie sich als letzter Gedanken über die Auswahl einer Methodik machen.

Fazit


A / B-Tests sind ein unschätzbarer Informationsspeicher für alle, die Entscheidungen in einer Online-Umgebung treffen. Mit ein wenig Wissen und viel Aufwand können Sie die vielen Risiken reduzieren, denen die meisten unerfahrenen Optimierer ausgesetzt sind.

Wenn Sie sich mit dem Thema befassen, können Sie 90% der an Webanalysen beteiligten Personen übertreffen. Erfahrung und ständige Übung ermöglichen es Ihnen, diese Forschungsmethode perfekt zu beherrschen. Also fang an zu testen!

All Articles