Teste de tecelagem - 100 vezes mais rápido que o teste AB

O teste A / B é uma das principais ferramentas de gerenciamento de produtos; até agora, eles não apresentaram uma maneira mais confiável e barata de avaliar com segurança o impacto de uma alteração específica nas métricas de negócios do produto, isolando-a de todos os outros fatores.

Neste artigo, quero falar sobre um método alternativo de testar alterações em um produto: teste de entrelaçamento, na literatura inglesa - teste de entrelaçamento. Para revelar suas vantagens e desvantagens, o compararemos em particular com o teste A / B tradicional, mas não porque seja algum tipo de método novo e mais avançado, mais rápido e preciso e que substitua os testes A / B. Essa é uma ferramenta adicional para um gerente de produto com um campo de aplicação diferente e para responder a uma pergunta diferente.A comparação simplesmente facilita mostrar quais são as diferenças e os pontos fortes dos testes de tecelagem.

Resumo:

  • Por que a tecelagem é mais rápida que o teste A / B
  • Quando pode tecer o teste de tecer?
  • Qual é a diferença entre os resultados do teste A / B e do weave
  • Como combinar os pontos fortes da tecelagem e do teste A / B

Por que o teste de tecelagem é muito mais rápido que o teste A / B


Em inúmeras tentativas de transmitir aos colegas e outros gerentes de produto a idéia básica de tecer, cheguei à conclusão de que o exemplo a seguir ilustra melhor. Reserve um momento para entrar no contexto, prometo que, ao final do exemplo, você concordará que isso é muito claro.

Suponha que precisamos determinar qual refrigerante precisa ser oferecido em nosso bar para vender o máximo de bebidas possível: Coca-Cola ou Pepsi. Se abordarmos essa solução do ponto de vista dos testes A / B, devemos abrir duas barras absolutamente idênticas em uma das quais haverá apenas cola, na outra apenas Pepsi, e direcionar os visitantes a uma dessas barras aleatoriamente.

imagem

Em seguida, comparamos os visitantes de qual dos bares encomendou mais bebidas disponíveis no local e concluímos quais bebidas fornecem mais receita.

Acho que você já viu qual é o problema: tantos visitantes daquele bar onde não tomam sua bebida favorita ainda pedirão o que dão, porque ainda querem beber. E apenas muito poucos serão tão princípios em suas preferências que não beberão nem beberão muito menos. Visitantes não muito importantes reduzem a sensibilidade do nosso teste às preferências de bebidas, porque na verdade não nos dão nenhum sinal de comportamento.

Como resolver o mesmo problema tecendo? Se tivermos a capacidade física de oferecer aos usuários as duas opções comparadas ao mesmo tempo e ver qual elas preferem, poderemos identificar rapidamente suas verdadeiras preferências.

imagem

Se aplicarmos o entrelaçamento à nossa metáfora com um bar, colocaremos duas torneiras no balcão e veremos qual das bebidas os visitantes mais pedem. Acho que você acha intuitivamente que esse teste nos dará um resultado significativo muito mais rápido, porque cada pedido será um "voto" a favor de uma ou outra opção, enquanto no teste A / B apenas a diferença no número de pedidos é um sinal.

Em um artigo no Netflix Tech Blogfornece evidências de que tecer 100 vezes mais rápido que A / B determina as preferências do usuário. Infelizmente, não posso publicar minha experiência pessoal com tecelagem, mas, no meu caso, essa avaliação foi confirmada, tecer com quase todo o tráfego razoável resultará em um resultado significativo em menos de 24 horas. No entanto, fazer a duração do teste por menos de um dia ainda não funciona, pois é necessário garantir a representatividade da amostra (os visitantes da manhã, tarde e noite podem ter diferentes padrões de comportamento, vamos ignorar os ciclos semanais).

Quando pode tecer tecer


Inicialmente, a tecelagem foi inventada para testes de classificação: se você possui um determinado conjunto de objetos (produtos em uma loja online ou links para páginas na Internet para um mecanismo de pesquisa) e precisa classificá-los para que os que melhor correspondem à solicitação do usuário estejam no topo.

Se você possui dois algoritmos de classificação e deseja compará-los, não é possível mostrar ao usuário a classificação A ou B, mas mostrar a ele uma página com a seguinte aparência:

A1 B1 A2 B2 A3 A3 B3 ... e assim por diante, onde A2 - essa é a segunda linha emitida pelo algoritmo de classificação A e B3 é a terceira linha da classificação B.

imagemIlustração da trama de um artigo no Netflix Tech Blog

Sutilezas de implementação
:
  • , ,
  • : , ?
  • ,
  • , , A/B


Direcionamos todo o tráfego disponível para esse ranking entrelaçado e consideramos os resultados gerados por quais dos dois algoritmos receberam mais cliques ou nos permitiram obter ações mais direcionadas mais baixas no funil de conversão.

De fato, existem muitos elementos que são realmente o resultado da classificação nos produtos. Vou dar exemplos:

  • A lista de produtos ou o catálogo de seções na página principal do site
  • Lista de produtos em uma seção ou em resposta a uma consulta de pesquisa
  • Lista de artigos no recurso de notícias
  • "Anúncios semelhantes"
  • "Eles também compram com este produto."
  • Artigos na seção Ajuda
  • Qualquer lista de elementos: amigos no social. redes, postagens na fita, música na página, filmes no cinema
  • etc

E todos esses elementos podem e devem ser testados usando tecer. A entrelaçamento permite testar não um algoritmo alternativo para selecionar recomendações por semana, mas testar sete hipóteses por semana.

Qual é a diferença entre o teste A / B e o teste de tecelagem


Quando realizamos um teste A / B, podemos medir o impacto das alterações na experiência do usuário em qualquer métrica de interesse para nós, que consideramos no contexto de um usuário. Da conversão às vendas, ao número de chamadas de suporte.

O teste de entrelaçamento permite comparar apenas os eventos que podem ser diretamente associados a um clique em uma das opções entrelaçadas. Mas essa comparação não nos permite responder à pergunta "o que acontecerá se substituirmos A por B em nosso produto", porque não sabemos o que acontecerá se o usuário vir apenas a classificação de B. Medimos uma combinação que não é uma versão independente do usuário. experiência.

Portanto, recomenda-se que a tecelagem seja usada como um estágio preliminar para a seleção das hipóteses mais promissoras, para as quais já faz sentido realizar um teste A / B mais longo para verificar como essa alteração afeta a métrica alvo.

Muitas vezes, pode acontecer que o aprimoramento do algoritmo não tenha afetado a métrica comercial, mas pelo menos você tem certeza de que a experiência do usuário se tornou melhor e agora você sabe qual bloco provavelmente não faz sentido otimizar nas tentativas de melhorar a métrica direcionada a você.

Pontos fortes e fracos da tecelagem


Vamos resumir os prós e contras do teste de tecelagem.

Minuses


  • , : - - A . , , , .
  • , , , A/B .
  • , , , , .


  • - ( , , . ).
  • ( Netflix 100 , ).
  • . , , , , «» , .


  1. Netflix, , 100 A/B
  2. Um artigo mais científico que descreve a estatística. métodos para interpretar os resultados dos testes por tecelagem (Chapelle, O., Joachims, T., Radlinski, F. e Yue, Y. 2012. Validação em larga escala e análise da avaliação da pesquisa intercalada. ACM Trans. Inf. Syst. 30, 1, artigo 6 (fevereiro de 2012)

All Articles