Prueba de tejido: 100 veces más rápido que la prueba AB

Las pruebas A / B son una de las principales herramientas de gestión de productos, hasta ahora no han encontrado una forma más confiable y barata de evaluar de manera confiable el impacto de un cambio específico en las métricas comerciales del producto, aislándolo de todos los demás factores.

En este artículo quiero hablar sobre un método alternativo para probar cambios en un producto: pruebas de entrelazado, en literatura inglesa - pruebas de entrelazado. Para revelar sus ventajas y desventajas, lo compararemos en privado con la prueba A / B tradicional, pero no porque sea algún tipo de método nuevo y más avanzado, que es más rápido y más preciso, y debería reemplazar las pruebas A / B. Esta es una herramienta adicional para un gerente de producto con un campo de aplicación diferente y para responder una pregunta diferente. La comparación simplemente hace que sea fácil mostrar con qué diferencias y fortalezas se encuentran las pruebas.

Resumen:

  • ¿Por qué tejer es más rápido que la prueba A / B?
  • ¿Cuándo puede tejer la prueba de tejido?
  • ¿Cuál es la diferencia entre la prueba A / B y los resultados de tejido?
  • Cómo combinar las fortalezas del tejido y la prueba A / B

¿Por qué las pruebas de tejido son mucho más rápidas que las pruebas A / B?


En numerosos intentos de transmitir a los colegas y otros gerentes de productos la idea básica del tejido, llegué a la conclusión de que el siguiente ejemplo lo ilustra mejor. Tómese un momento para entrar en el contexto, le prometo que al final del ejemplo estará de acuerdo en que esto está muy claro.

Supongamos que necesitamos determinar qué refresco se debe ofrecer en nuestro bar para vender tantas bebidas como sea posible: Coca-Cola o Pepsi. Si abordamos esta solución desde el punto de vista de las pruebas A / B, entonces debemos abrir dos barras absolutamente idénticas en una de las cuales solo habrá estaca, en la otra solo Pepsi, y dirigir a los visitantes a una de estas barras al azar.

imagen

Luego comparamos los visitantes de cuáles de los bares ordenaron la mayor cantidad de bebidas disponibles allí, y concluimos qué bebidas proporcionan la mayor cantidad de ingresos.

Creo que ya ve cuál es el problema: tantos visitantes a ese bar donde no tienen su bebida favorita todavía pedirán lo que dan, porque todavía quieren beber. Y solo muy pocos serán tan principistas en sus preferencias que no beberán en absoluto o beberán mucho menos. Los visitantes poco importantes reducen la sensibilidad de nuestra prueba a las preferencias por las bebidas, porque en realidad no nos darán ninguna señal con su comportamiento.

¿Cómo resolver el mismo problema tejiendo? Si tenemos la capacidad física de ofrecer a los usuarios las dos opciones comparadas al mismo tiempo y ver cuál prefieren, podremos identificar rápidamente sus verdaderas preferencias.

imagen

Si aplicamos entretejido a nuestra metáfora con una barra, colocaremos dos grifos en el mostrador y solo veremos cuál de las bebidas ordena más los visitantes. Creo que intuitivamente siente que esta prueba nos dará un resultado significativo mucho más rápido, porque cada orden será un "voto" a favor de una u otra opción, mientras que en la prueba A / B solo la diferencia en el número de órdenes es una señal.

En un artículo en Netflix Tech Blogproporciona evidencia de que tejer 100 veces más rápido que A / B determina las preferencias del usuario. Desafortunadamente, no puedo publicar mi experiencia personal con el tejido, pero en mi caso se confirmó esta evaluación, tejer con casi cualquier tráfico razonable producirá un resultado significativo en menos de 24 horas. Sin embargo, hacer la duración de la prueba por menos de un día todavía no funciona, porque es necesario garantizar la representatividad de la muestra (los visitantes de la mañana, la tarde y la noche pueden tener diferentes patrones de comportamiento, ignoremos los ciclos semanales).

Cuando puede tejer tejido


Inicialmente, el tejido se inventó para las pruebas de clasificación: si tiene un determinado conjunto de objetos (productos en una tienda en línea o enlaces a páginas en Internet para un motor de búsqueda) y necesita clasificarlos para que los que mejor se ajusten a la solicitud del usuario estén en la parte superior.

Si tiene dos algoritmos de clasificación y desea compararlos, entonces no puede mostrar al usuario la clasificación A o B, sino mostrarle una página que se verá así:

A1 B1 A2 B2 A3 B3 ... y así sucesivamente, donde A2 - esta es la segunda línea emitida por el algoritmo de clasificación A, y B3 es la tercera línea en la clasificación B.

imagenIlustración del tejido de un artículo en Netflix Tech Blog

Sutilezas de implementación
:
  • , ,
  • : , ?
  • ,
  • , , A/B


Dirigimos todo el tráfico disponible a esta clasificación entrelazada y consideramos los resultados generados por cuál de los dos algoritmos recibió más clics o nos permitió obtener acciones más específicas en el embudo de conversión.

De hecho, hay muchos elementos que en realidad son el resultado de la clasificación de los productos, daré ejemplos:

  • La lista de productos o el catálogo de secciones en la página principal del sitio.
  • Lista de productos dentro de una sección o en respuesta a una consulta de búsqueda
  • Lista de artículos sobre el recurso de noticias.
  • "Anuncios similares"
  • "También compran con este producto".
  • Artículos en la sección de Ayuda
  • Cualquier listado de elementos: amigos en lo social. redes, publicaciones en la cinta, música en la página, películas en el cine
  • etc.

Y todos estos elementos pueden y deben probarse usando el tejido. Interweaving le permite probar no un algoritmo alternativo para seleccionar recomendaciones por semana, sino probar siete hipótesis por semana.

¿Cuál es la diferencia entre la prueba A / B y la prueba de tejido?


Cuando realizamos una prueba A / B, podemos medir el impacto de los cambios en la experiencia del usuario en cualquier medida que nos interese, lo que consideramos en el contexto de un usuario. Desde la conversión a ventas hasta el número de llamadas de soporte.

La prueba de entrelazado nos permite comparar solo aquellos eventos que pueden asociarse directamente con un clic en una de las opciones entrelazadas. Pero esta comparación no nos permite responder la pregunta "qué sucederá si reemplazamos A con B en nuestro producto", porque no sabemos qué sucederá si el usuario solo ve la clasificación de B. Medimos en una combinación que no es una versión independiente del usuario experiencia.

Por lo tanto, se recomienda usar el tejido como una etapa preliminar para seleccionar la más prometedora de muchas hipótesis, para lo cual ya tiene sentido realizar una prueba A / B más larga para verificar cómo este cambio afecta la métrica objetivo.

Muy a menudo puede resultar que la mejora del algoritmo no afectó la métrica empresarial, pero al menos está seguro de que la experiencia del usuario ha mejorado, y ahora sabe qué bloque probablemente no tenga sentido optimizar en los intentos de mejorar la métrica que está dirigida a usted.

Fortalezas y debilidades del tejido.


Resumamos los pros y los contras de la prueba de tejido.

Menos


  • , : - - A . , , , .
  • , , , A/B .
  • , , , , .


  • - ( , , . ).
  • ( Netflix 100 , ).
  • . , , , , «» , .


  1. Netflix, , 100 A/B
  2. Un artículo más científico que describe la estadística. métodos para interpretar los resultados de las pruebas tejiendo (Chapelle, O., Joachims, T., Radlinski, F. y Yue, Y. 2012. Validación y análisis a gran escala de la evaluación de búsqueda intercalada. ACM Trans. Inf. Syst. 30, 1, artículo 6 (febrero de 2012)

All Articles