Test de tissage - 100 fois plus rapide que le test AB

Les tests A / B sont l'un des principaux outils de gestion des produits, jusqu'à présent, ils n'ont pas trouvé de moyen plus fiable et moins cher d'évaluer de manière fiable l'impact d'un changement spécifique sur les mesures commerciales du produit, l'isolant de tous les autres facteurs.

Dans cet article, je veux parler d'une autre méthode pour tester les modifications d'un produit: les tests d'entrelacement, dans la littérature anglaise - les tests d'entrelacement. Pour révéler ses avantages et ses inconvénients, nous le comparerons en privé avec le test A / B traditionnel, mais pas parce qu'il s'agit d'une nouvelle méthode plus avancée, plus rapide et plus précise, et qui devrait remplacer les tests A / B. Il s'agit d'un outil supplémentaire pour un chef de produit avec un champ d'application différent et répondant à une question différente. La comparaison permet simplement de montrer quelles sont les différences et les points forts des tests par tissage.

Sommaire:

  • Pourquoi le tissage est plus rapide que le test A / B
  • Quand peut-on tisser le test de tissage?
  • Quelle est la différence entre le test A / B et les résultats du tissage
  • Comment combiner les forces du tissage et du test A / B

Pourquoi les tests de tissage sont beaucoup plus rapides que les tests A / B


Dans de nombreuses tentatives pour transmettre à mes collègues et à d'autres chefs de produit l'idée de base du tissage, je suis arrivé à la conclusion que l'exemple suivant l'illustre le mieux. Prenez un moment pour entrer dans le contexte, je vous promets qu'à la fin de l'exemple, vous conviendrez que c'est très clair.

Supposons que nous devions déterminer quel soda doit être proposé dans notre bar afin de vendre autant de boissons que possible: Coca-Cola ou Pepsi. Si nous abordons cette solution du point de vue des tests A / B, nous devons alors ouvrir deux barres absolument identiques dans l'une desquelles il n'y aura que des mises, dans l'autre uniquement Pepsi, et diriger les visiteurs vers l'une de ces barres au hasard.

image

Ensuite, nous comparons les visiteurs parmi les bars qui ont commandé le plus de boissons disponibles sur place et concluons quelles boissons génèrent le plus de revenus.

Je pense que vous pouvez déjà voir quel est le problème: tant de visiteurs de ce bar où ils n’ont pas leur boisson préférée commanderont toujours ce qu’ils donnent, car ils veulent toujours boire. Et très peu d'entre eux auront des principes si proches qu'ils ne boiront pas du tout ou boiront beaucoup moins. Les visiteurs peu importants réduisent la sensibilité de notre test aux préférences pour les boissons, car ils ne nous donneront en fait aucun signal avec leur comportement.

Comment résoudre le même problème en tissant? Si nous avons la capacité physique d'offrir aux utilisateurs les deux options comparées en même temps et de voir laquelle ils préfèrent, nous serons en mesure d'identifier rapidement leurs véritables préférences.

image

Si nous appliquons l'entrelacement à notre métaphore avec un bar, alors nous mettrons deux robinets au comptoir et verrons juste laquelle des boissons les visiteurs commandent le plus. Je pense que vous pensez intuitivement que ce test nous donnera un résultat significatif beaucoup plus rapidement, car chaque commande sera un «vote» en faveur de l'une ou l'autre option, alors que dans le test A / B seule la différence dans le nombre de commandes est un signal.

Dans un article sur Netflix Tech Blogfournit la preuve que le tissage 100 fois plus rapide que A / B détermine les préférences de l'utilisateur. Malheureusement, je ne peux pas publier mon expérience personnelle avec le tissage, mais dans mon cas, cette évaluation a été confirmée, le tissage avec presque n'importe quel trafic raisonnable donnera un résultat significatif en moins de 24 heures. Cependant, faire la durée du test pendant moins d'une journée ne fonctionne toujours pas, car il est nécessaire de garantir la représentativité de l'échantillon (les visiteurs du matin, de l'après-midi et du soir peuvent avoir des comportements différents, ignorons les cycles hebdomadaires).

Quand peut tisser tisser


Initialement, le tissage a été inventé pour les tests de classement: si vous avez un certain ensemble d'objets (produits dans une boutique en ligne, ou des liens vers des pages sur Internet pour un moteur de recherche) et que vous devez les trier afin que ceux qui correspondent le mieux à la demande de l'utilisateur soient au top.

Si vous avez deux algorithmes de classement et que vous souhaitez les comparer, vous ne pouvez pas montrer à l'utilisateur le classement A ou le classement B, mais lui montrer une page qui ressemblera à:

A1 B1 A2 B2 A3 B3 ... et ainsi de suite, où A2 - c'est la deuxième ligne émise par l'algorithme de classement A, et B3 est la troisième ligne du classement B.

imageIllustration du tissage d'un article sur Netflix Tech Blog

Subtilités de mise en œuvre
:
  • , ,
  • : , ?
  • ,
  • , , A/B


Nous dirigeons tout le trafic disponible vers ce classement entrelacé et considérons les résultats générés par lequel des deux algorithmes a reçu le plus de clics ou nous a permis d'obtenir des actions plus ciblées plus bas dans l'entonnoir de conversion.

En fait, il y a beaucoup d'éléments qui sont en fait le résultat du classement dans les produits, je vais donner des exemples:

  • La liste des produits ou le catalogue des rubriques sur la page principale du site
  • Liste des produits dans une section ou en réponse à une requête de recherche
  • Liste d'articles sur la ressource d'actualités
  • "Annonces similaires"
  • "Ils achètent aussi avec ce produit."
  • Articles dans la section Aide
  • Toute liste d'éléments: amis dans le social. réseaux, messages dans la bande, musique sur la page, films au cinéma
  • etc

Et tous ces éléments peuvent et doivent être testés à l'aide d'armure. L'entrelacement vous permet de tester non pas un algorithme alternatif pour sélectionner des recommandations par semaine, mais de tester sept hypothèses par semaine.

Quelle est la différence entre le test A / B et le test de tissage


Lorsque nous effectuons un test A / B, nous pouvons mesurer l'impact d'un changement dans l'expérience utilisateur sur n'importe quelle mesure qui nous intéresse, que nous considérons dans le contexte d'un seul utilisateur. De la conversion aux ventes au nombre d'appels d'assistance.

Le test d'entrelacement nous permet de comparer uniquement les événements qui peuvent être directement associés à un clic sur l'une des options entrelacées. Mais cette comparaison ne nous permet pas de répondre à la question «que se passera-t-il si nous remplaçons A par B dans notre produit», car nous ne savons pas ce qui se passera si l'utilisateur ne voit que le classement de B. Nous avons mesuré sur une combinaison qui n'est pas une version indépendante de la version de l'utilisateur. expérience.

Par conséquent, il est recommandé d'utiliser le tissage comme étape préliminaire pour sélectionner la plus prometteuse de nombreuses hypothèses, pour lesquelles il est déjà judicieux d'effectuer un test A / B plus long pour vérifier comment ce changement affecte la métrique cible.

Très souvent, il peut s'avérer que l'amélioration de l'algorithme n'a pas affecté la métrique métier, mais au moins vous êtes sûr que l'expérience utilisateur s'est améliorée, et maintenant vous savez quel bloc est le plus probablement inutile à optimiser dans les tentatives d'amélioration de la métrique qui vous est destinée.

Forces et faiblesses du tissage


Résumons les avantages et les inconvénients du test de tissage.

Moins


  • , : - - A . , , , .
  • , , , A/B .
  • , , , , .


  • - ( , , . ).
  • ( Netflix 100 , ).
  • . , , , , «» , .


  1. Netflix, , 100 A/B
  2. Un article plus scientifique décrivant la stat. méthodes d'interprétation des résultats des tests par tissage (Chapelle, O., Joachims, T., Radlinski, F., et Yue, Y. 2012. Validation et analyse à grande échelle de l'évaluation de la recherche entrelacée. ACM Trans. Inf. Syst. 30, 1, article 6 (février 2012)

All Articles