编织测试-比AB测试快100倍

A / B测试是产品管理的主要工具之一,到目前为止,它们还没有提供更可靠,更便宜的方法来可靠地评估一项特定更改对产品业务指标的影响,并将其与所有其他因素隔离。

在本文中,我想讨论一种测试产品变更的替代方法:隔行测试,在英语文献中为-隔行测试。为了揭示其优点和缺点,我们将其与传统的A / B测试进行私下比较,但这并不是因为它是一种新的,更高级的方法,它更快,更准确,因此应该替代A / B测试。对于具有不同应用领域和回答不同问题的产品经理来说,这是一个额外的工具,通过比较,可以轻松地通过编织显示出测试的差异和优势。

摘要:

  • 为什么编织比A / B测试更快
  • 什么时候可以进行编织测试?
  • A / B测试和编织结果有什么区别
  • 如何结合编织和A / B测试的优势

为什么编织测试比A / B测试快得多


在向同事和其他产品经理传达织造的基本思想的众多尝试中,我得出的结论是,以下示例最能说明这一点。花一点时间输入上下文,我保证在示例结束时,您将同意这一点很清楚。

假设我们需要确定在酒吧中需要提供什么苏打水才能销售尽可能多的饮料:可口可乐或百事可乐。如果从A / B测试的角度解决此问题,则必须打开两个绝对相同的栏,其中一个只有可乐,另一个只有百事可乐,然后将访客随机引导到其中一个。

图片

然后,我们比较访问者中哪个酒吧订购的饮料最多,那里得出的收入最多。

我想您已经知道问题出在哪里了:那些没有自己喜欢的饮料的酒吧的很多游客仍然会订购他们提供的饮料,因为他们仍然想喝酒。而且只有极少数人会偏爱他们的原则,以至于他们根本不会喝酒或少喝酒。不太重要的访问者会降低我们的测试对饮料偏好的敏感性,因为他们实际上不会给我们任何有关其行为的信号。

如何通过编织解决相同的问题?如果我们有能力同时为用户提供两个比较选项,并且看到他们喜欢哪个选项,我们可以快速确定他们的真实偏好。

图片

如果我们将隐喻与酒吧进行交织,那么我们将在柜台上轻按两下,然后看看访客订购了哪些饮品。我认为您从直觉上感觉到此测试将为我们提供更快的显着结果,因为每个订单将成为“投票”,而赞成一个或另一个选项,而在A / B测试中,仅订单数的差异才是信号。

Netflix Tech Blog上文章中提供的证据表明,编织比A / B快100倍决定了用户的喜好。不幸的是,我无法发表自己的织造经验,但就我而言,这一评估已得到确认,以几乎任何合理的流量进行织造,都将在不到24小时的时间内取得显著成果。但是,进行少于一天的测试持续时间仍然不起作用,因为有必要确保样本的代表性(早上,下午和晚上的访客可能会有不同的行为方式,让我们忽略每周周期)。

什么时候可以编织


最初,编织是为了进行排名测试而发明的:如果您有一组特定的对象(在线商店中的产品,或搜索引擎在Internet上的页面链接),并且需要对其进行排序,以便最接近用户要求的对象位于最上面。

如果您有两种排名算法,并且想对其进行比较,则无法显示用户排名A或排名B,而是显示以下页面:

A1 B1 A2 B2 A3 B3 ...依此类推,其中A2-这是排名算法A给出的第二行,而B3是排名B给出的第三行。Netflix Tech Blog上一篇文章

图片的织法插图

实施的微妙之处
:
  • , ,
  • : , ?
  • ,
  • , , A/B


我们将所有可用流量引导到这个相互交织的排名,并考虑由两种算法中的哪一种获得更多点击或使我们在转化渠道中获得更低的针对性操作所产生的结果。

实际上,有很多因素实际上是产品排名的结果,我将举一些例子:

  • 网站首页上的产品列表或部分目录
  • 部分内或响应搜索查询的产品列表
  • 新闻资源上的文章列表
  • “类似的广告”
  • “他们也购买这种产品。”
  • 帮助部分中的文章
  • 任何列出的元素:社交中的朋友。网络,磁带中的帖子,页面上的音乐,电影院中的电影
  • 等等

所有这些元素都可以并且应该使用编织进行测试。交织允许您测试每周选择推荐的一种替代算法,而不是一种测试算法。

A / B测试和编织测试有什么区别


当我们进行A / B测试时,我们可以衡量用户体验变化对我们感兴趣的任何度量的影响,我们将在一个用户的上下文中考虑该度量。从转换到销售再到支持电话的数量。

隔行测试允许我们仅比较那些可以直接单击其中一个交织选项的事件。但是这种比较不允许我们回答“如果在产品中用B替换A会发生什么”的问题,因为我们不知道如果用户仅看到B会发生什么。经验。

因此,建议将编织用作选择许多假设中最有前途的初步步骤,为此,进行更长的A / B测试以检查此更改如何影响目标指标已经很有意义。

很多时候可能会发现算法的改进并没有影响业务指标,但是至少您可以确定用户体验已经变得更好,现在您知道哪个区块最有可能没有意义来优化尝试改进针对您的指标。

编织的优缺点


让我们总结一下编织测试的优缺点。

缺点


  • , : - - A . , , , .
  • , , , A/B .
  • , , , , .


  • - ( , , . ).
  • ( Netflix 100 , ).
  • . , , , , «» , .


  1. Netflix, , 100 A/B
  2. 描述统计信息的更科学的文章编织解释测试结果的方法(Chapelle,O.,Joachims,T.,Radlinski,F.,和Yue,Y.2012。大规模验证和交错搜索评估分析。ACMTrans。Inf。Syst。30, 1,第6条(2012年2月)

All Articles