很棒的A / B测试指南

互联网上有大量有关A / B测试的信息,但是许多信息仍然做得不正确。犯错真的很容易,因此此类研究需要认真的初步准备。本文讨论了有效的网页分析必须考虑的A / B测试的主要方面。

什么是A / B测试?


A / B测试(拆分测试)在页面的不同版本之间按50/50的比例分配流量。本质上,此方法是被称为“对照实验”的旧技术的新名称。

为了测试新药的有效性,专家们进行了分离测试。实际上,大多数研究实验都可以称为A / B测试。它们包括假设,研究的主要对象,假设的变化和结果,它们以统计数据的形式表示。

就这样。一个简单的A / B测试示例,其中在主页及其变体之间分配了50/50的流量:



在转化优化的情况下,主要区别在于Internet流量的可变性。外部变量在实验室中更易于控制。在Internet上,可以减少其影响,但是创建完全受控的测试要困难得多。
另外,测试新药需要一定程度的准确性。人们的生命受到威胁。从技术角度来看,这意味着测试可以持续更长的时间,因为研究人员应尽一切可能避免第一种错误(误报)。

但是,进行Web资源的A / B测试是为了实现业务目标。对于风险和回报分析,勘探与开发,科学和商业而言,这是必要的。因此,从不同的角度来考虑结果,并且做出与实验室研究人员不同的决定。

当然,您可以创建两个以上的页面变体。具有多个元素的研究称为A / B / n测试。如果流量足够,您可以根据需要测试多个选项。这是一个为每个变体分配流量的A / B / C / D测试示例:



A / B / n测试对于实现多个变体以测试一个假设非常有用。但是,这将需要更多流量,因为必须将其分成更多页面。

尽管它很受欢迎,但A / B测试只是在线研究的一种。您也可以进行多变量测试或使用多臂强盗方法。

A / B测试,多变量测试和多武装的强盗方法:有什么区别?
A / B / n测试是一项对照实验,用于比较原始页面及其一个或多个变体的转化率。

为了确定哪些属性最重要,对页面的多个版本进行了多变量测试。与A / B / n测试一样,将原始版本与变体进行比较。但是,每个设计使用不同的设计元素。例如:



每个元素都有特定的用例,并影响页面的性能。您可以通过以下方式最大程度地利用网站:

  • 执行A / B测试,以确定最佳的页面布局选项。
  • 进行多变量测试以改善布局,并确保所有页面元素之间的交互良好。


在考虑进行多元测试的可能性之前,您需要吸引大量用户进入测试页面。但是,由于有足够的流量,应该使用两种研究类型来优化站点。
大多数代理商更喜欢A / B测试,因为他们的客户通常会测试重大更改(可能会对页面产生更大的影响)。此外,它们更易于执行。

多臂匪盗方法是A / B / n-测试,该测试根据每个变化的有效性实时更新。

实际上,多武装强盗算法首先将流量发送到两个(或多个)页面:原始页面及其版本。然后,根据哪个版本中最有效的版本对其进行更新。最后,该算法确定了可能的最佳选择:



多臂强盗方法的优点之一是,它可以减轻测试潜在最坏情况时遇到的转换损失。Google的这张图表很好地说明了所有问题:



多臂强盗方法和A / B / n测试都具有优势。第一个非常适合:

  • 标题和短期运动;
  • 自动缩放
  • 指定目标
  • 同时进行优化和归因。


无论您使用哪种类型的测试,都必须设法增加成功的机会,这一点很重要。换句话说,您测试的频率越高,转换的速度就越快。



如何提高A / B测试结果


不要关注诸如“可以使用A / B测试来测试的99件事”之类的文章。这是浪费时间和交通。只有流程本身才能帮助您增加收入。

约有74%的采用结构化转化方法的优化程序也表示销售有所改善。其余的到达那里,网络分析师Craig Sullivan称之为“失望的低谷”。(除非它们的结果被误报所破坏,否则我们将在后面讨论。)

为了最大程度地发挥作用,测试结构应如下所示:
  • 研究;
  • 优先次序;
  • 实验;
  • 分析,训练,重复。


研究


要优化您的网站,您需要了解用户的行为以及原因。
但是,在考虑进行测试之前,请增强您的吸引用户策略并以此为基础。因此,您需要:

  1. 定义您的业务目标。
  2. 定义您的网站目标。
  3. 确定关键绩效指标;
  4. 定义目标指标。




一旦了解了要实现的目标,就可以开始收集必要的数据。为此,我们建议使用ResearchXL Framework。
这是CXL使用的过程的简短列表:

  1. 启发式分析;
  2. 技术分析;
  3. 网络分析系统的数据分析;
  4. 鼠标移动分析;
  5. 质量调查;
  6. 用户测试。


启发式分析是最佳的A / B测试实践之一。即使有多年的经验,也很难理解页面中哪些元素可以提高其有效性。但是,可以确定机会领域。UX专家Craig Sullivan认为:

“以我的经验,这些模式简化了工作,但不是寻常的真理。他们指示并通知我,但不提供任何保证。”


不要依赖模式。拥有框架也很有用。进行启发式分析时,值得根据以下标准评估每个页面:

  • 关联;
  • 明晰;
  • 值;
  • 摩擦;
  • 抽象。


技术分析经常被忽略。但是,错误(如果有的话)会终止转换。在您看来,您的网站在用户体验和功能方面运行良好。但是,它是否适用于所有浏览器和设备?可能不是。

技术分析非常有效,而且劳动强度也不高。因此,您应该:

  • 进行跨浏览器和跨平台测试。
  • 分析网站的速度。


接下来是来自Web分析系统的数据分析。首先,确保一切正常。您会惊讶于错误设置的Web分析系统设置的数量。

鼠标运动分析包括热图,滚动图,形状分析和用户会话重复。不要为点击卡的彩色可视化所困扰。确保分析有助于您获得实现目标所需的信息。
定性研究可让您了解问题的原因。许多人认为它比定量更简单。实际上,定性研究必须与提供同样有用的信息一样准确。

为此,有必要执行以下操作:

  • 现场调查;
  • 客户调查;
  • 与客户和焦点小组的访谈。


最后,可以使用用户测试。这个想法很简单:观察真实的人在评论他们的行为时如何使用您的网站并与之互动。注意他们在说什么和正在经历什么。

经过彻底的转换研究,您将拥有很多数据。下一步是确定测试的优先级。

如何在A / B测试中确定假设的优先级


有许多框架可用于确定A / B测试的优先级。此外,您可以根据自己的方法执行此操作。克雷格·沙利文(Craig Sullivan)的工作重点如下:

完成上述所有六个阶段后,您将发现问题-严重和轻微。将每个发现分为以下五类之一:

  1. 测试:所有需要测试的内容都会发送到该类别。
  2. 工具:此类别包括修复,添加或改善分析中标签/事件的处理。
  3. 假设:此类别定义的页面,窗口小部件或进程无法很好地运行并且需要错误处理。
  4. 只要做到这一点,就可以将此类用于需要完成的任务。
  5. 研究:如果一项任务属于此类,您将不得不更深入地解决它。


将每个问题的评分从1到5星(1 =次要,5 =严重)。评估时,以下两个条件最为重要:

  1. 易于实施(时间/复杂性/风险)。有时数据告诉您创建一个需要花费数月时间开发的功能。不要和她一起工作。
  2. 机会。主观地评估问题,具体取决于它们可能引起的升力或变化。


创建一个包含所有数据的电子表格。您将获得具有优先级设置的拆分测试方案。

我们创建了自己的优先级划分模型,以使整个过程尽可能客观。这意味着必须将数据输入表中。该模型称为PXL,如下所示:



在此处下载此电子表格模板的副本。只需单击文件>创建副本即可获得所需的一切。


该框架没有预测更改的有效性,而是向您提出了一系列有关此更改的问题:

  • 有重大变化吗?重大更新将吸引更多人。因此,更改将对页面产生更大的影响。
  • 在5秒钟内有可能注意到变化吗?向人群显示页面,然后显示其变体。他们会在5秒内注意到差异吗?如果不是这样,则更改不太可能产生重大影响。
  • 更改是否添加或删除了任何内容?诸如减少干扰或添加关键信息之类的主要更改通常会极大地影响页面。
  • 该测试可以在流量较高的页面上运行吗?改善具有大量访问量的页面可以带来巨大的回报。


许多潜在的测试变量需要数据来对您的假设进行优先排序。每周提出以下四个问题的讨论将帮助您基于数据而不是根据意见确定测试的优先级:

  • 用户测试期间发现的问题是否可以解决?
  • 通过质量反馈(民意调查,民意调查,访谈)发现的问题是否得到解决?
  • 鼠标跟踪,热图或眼睛跟踪是否支持该假设?
  • 通过数字分析发现的问题是否已解决?


PXL评估


我们使用二进制量表:您必须从两个中选择一个等级。因此,对于大多数变量(除非另有说明),您选择0或1。
但是,我们也希望按重要性对变量进行排序。为此,我们专门描述页面的哪些元素正在更改。

可定制性


我们创建此模型的原因是,您可以并且应该根据业务目标设置变量。

例如,如果您正在与品牌团队或用户体验一起工作,并且假设应与品牌的建议一致,则将其添加为变量。
您可能在一家由SEO驱动销售引擎的初创公司中工作。也许您的融资取决于客户流。添加“ SEO不会干扰”之类的类别以更改某些标题或文本。

所有组织的工作方式都不同。设置模板将有助于考虑所有细微差别,并创建用于优化站点的最佳程序。

无论使用哪种框架,都要向团队的每个成员以及公司的股东明确说明。

A / B测试需要多长时间?


第一条规则:不要仅仅因为测试变得具有统计意义就停止测试。这可能是新手优化人员最常犯的错误。

如果过早停止测试,您会发现大多数更改不会导致收入增加(这是主要目标)。
请注意经过1000 A / A测试后获得的这些统计信息(对两个相同的页面进行了测试):

  • 千项实验中有771项达到了90%的显着性。
  • 每1000个实验中有531个达到了95%的显着性。


过早停止测试会增加误报的风险。
确定样本量并连续至少几个工作周期进行数周的测试。

如何确定样本量?有很多很棒的工具。使用Evan Miller工具计算样本量的方法如下:



在此示例中,我们已表明转化率是3%,并且我们希望将该比率至少提高10%。该工具指出,在我们可以查看统计显着性水平之前,必须有51,486人访问每个变体。

除了显着性水平,还有统计强度。统计能力试图避免II型错误(假阴性)。换句话说,它增加了您找到最有效的页面元素的可能性。

请记住,功率的80%是A / B测试工具的标准。要达到此水平,您将需要较大的样本量,较大的效果或更长的测试时间。

没有魔术数字


许多文章都列出了魔术数字(例如“ 100个转换”或“ 1000个访客”)作为停止测试的最佳时间。但是,数学与魔术无关。实际上,所有事情都比像这些数字这样的简化试探法更为复杂。这是Malwarebytes的Andrew Anderson所说的:

“您的目标不是一定的转化次数。您应该努力收集足够的数据,以根据代表性样本和代表性行为检验假设。

只有在极少数情况下并且行为差异非常大,才有可能进行一百次转换,但前提是要满足其他要求,例如时间行为,一致性和正态分布。同时,第一类错误的风险仍然很高。”


因此,您需要一个有代表性的样本。如何获得?在两个经济周期内进行测试,这将有助于减少外部因素的影响,例如:

  • \ 星期几。每天的流量可能会很大,取决于一周中的一天。
  • \ 交通来源。除非有必要个性化特定来源的体验。
  • \ 安排发送新闻通讯和博客文章。
  • \ 回头客。人们可以访问您的网站,考虑购买商品,然后在10天后回来进行购买。
  • 外部事件。例如,月中工资单可能会影响您的购买。


小心小样本。互联网上有许多案例研究,其中充斥着数学错误。

一切设置完成后,请在完成测试之前不要看(也不要让老板窥视)测试结果。否则,您可以通过“检测趋势”得出过早的结论。

回归表示


您会经常注意到,结果在测试的前几天有很大的不同。随后,由于测试持续数周,它们将收敛到平均值。这是电子商务站点统计信息的示例:



  • 前几天:蓝色(选项编号3)获胜。这种变化为每位访客带来16美元,而原始页面带来的12.50美元。许多(由于错误)将在此时结束测试。
  • 7天后:页面的蓝色版本仍获胜,相对差异非常大。
  • 14天后:橙色版本(第4号)居首位!
  • 21天后:橙色版本仍然获胜!
  • 测试结束:这两个选项之间没有区别。


如果您在第四周之前完成测试,那么您将得出错误的结论。

还有一个类似的问题:新颖性的影响。更改的新颖性(例如,蓝色的大按钮)引起了更多对页面选项的注意。随着时间的流逝,这种影响消失了,因为这种变化将逐渐消失。

我可以同时运行多个A / B测试吗?


您想加快测试程序的速度并运行更多测试。但是,一次可以进行多个A / B测试吗?它会增加您的增长潜力或扭曲数据吗?

一些专家认为,一次执行多个测试是错误的。有人说一切都井井有条。在大多数情况下,进行多个同时测试不会有问题。

如果您不测试真正重要的事情(例如,一些会影响您的业务模型和公司未来的事情),那么测试量的好处可能会超过数据中的缺陷和随机的误报。
如果多个测试之间存在较高的交互风险,请减少同时测试的数量和/或让测试运行更长的时间以提高准确性。

如何设置A / B测试


在列出具有优先级的测试思路列表之后,有必要提出假设并进行实验。通过假设,您可以确定问题发生的原因。另外,一个很好的假设:

  • 可验证的。它是可测量的,因此可以进行检查。
  • 解决转换问题。拆分测试解决了转换问题。
  • 提供市场洞察力。有了明确阐述的假设,拆分测试的结果将始终为您提供有价值的客户信息。




Craig Sullivan提供以下算法来简化假设过程:

  1. 自从我们收到(数据/反馈)以来,
  2. 我们期望(更改)将导致(效果)。
  3. 我们将使用(数据指标)对其进行衡量。


此算法有一个高级版本:

  1. 由于我们收到了(定性和定量数据),
  2. 我们期望(人口)的(变化)会导致(影响[s])。
  3. 我们希望看到该时期(X个业务周期)(数据指标的变化)。


技术问题


测试中最有趣的部分已经到来:您最终可以选择一种工具。

许多人首先开始这个问题,但这远非最重要的事情。战略和统计数据更为重要。

但是,您应该注意这些工具的几个功能。它们分为两大类:服务器端或客户端工具。

服务器工具显示服务器级别的代码。他们将网页的随机版本发送给查看者,而无需更改访问者的浏览器。客户端工具发送相同的页面,但是客户端浏览器中的JavaScript控制着原始页面及其变体的外观。

客户端测试工具包括Optimizely,VWO和Adobe Target。 Conductrics允许您使用这两种方法,SiteSpect使用代理。
这对您意味着什么?如果您想节省时间,您的团队规模很小或您没有开发资源,则客户端工具将帮助您更快地入门。服务器端工具需要开发资源-但是,它们通常更可靠。

尽管根据您使用的工具,测试设置会略有不同,但是整个过程通常非常简单,任何人都可以处理它-只需按照说明进行操作即可。

另外,您需要设定目标。您的测试工具将跟踪每个页面选项何时将访问者转变为客户。



设置A / B测试时,可以使用以下技能:HTML,CSS和JavaScript / JQuery,以及创建文本和设计新页面变体的功能。一些工具允许您使用可视化编辑器,但是它限制了您的灵活性和控制力。

如何分析A / B测试的结果?


因此,您终于进行了研究,正确设置了测试并进行了测试。现在让我们继续分析。并不是那么简单-仅通过测试工具查看图表是不够的。



您应该始终做的一件事:在Google Analytics(分析)中分析测试结果。因此,您不仅可以扩展分析功能,还可以对数据和决策更加自信。

您的测试工具可能无法正确写入数据。除非您有其他信息来源,否则您将永远无法确定是否信任它。创建多个数据源。

如果变体之间没有差异,会发生什么?慢慢来。首先,认识两件事:

  1. 您的假设可能是正确的,但事实证明该实现是错误的。
  2. 假设您的定性研究表明存在安全问题。您可以提高多少次安全感?数量不限。
  3. 如果要测试某些东西,并比较多个迭代,请使用迭代测试。
  4. 即使总体上没有明显的差异,在某些方面,该变化也可能会超出原始页面。


如果您发现普通访客和移动访客的效率有所提高,但新访客和桌面用户的效率却没有提高,则这些细分受众群可以互相抵消,给人的印象是“没有区别”。分析关键领域的测试,以探索这一机会。

A / B测试的数据细分


细分是利用A / B测试结果的关键。尽管B在总体结果中可能会损失A,但这种变化可能会在某些细分中(原始流量,Facebook点击次数,移动流量等)击败原始页面。



您可以分析大量细分,包括以下内容:

  • 浏览器类型;
  • 来源类型;
  • 移动或台式计算机或设备;
  • 注册并注销访问者;
  • PPC / SEM活动
  • 地理区域(城市,州/省,国家);
  • 新访客和常规访客;
  • 新客户和回头客;
  • 进阶使用者反对休闲访客;
  • 男人与女人
  • 年龄范围;
  • 新的和已经介绍过的潜在客户;
  • 计划的类型或忠诚度计划的级别;
  • 当前,潜在和以前的订户;
  • 角色(例如,如果您的站点提供买方和卖方的角色)。


作为最后的选择(假设您有足够的样本量),请注意以下因素:

  • 台式机和移动版的普及;
  • 新客户与海归
  • 流量丢失。


确保细分中有足够的样本量。事先进行计算,如果此细分的每个版本的转化次数少于250-350,则要小心。
如果您的操作在特定细分受众群中显示出良好的效果,则可以继续针对这些用户采用单独的方法。

如何存档执行的A / B测试


A / B测试主要是收集信息所必需的。根据说明进行统计上正确的测试将有助于实现增长和优化的主要目标。

精明的公司归档测试结果并不断改进测试方法。结构化的优化方法可以实现更大的增长,并且很少受到本地约束的限制。



最困难的部分是:没有单一的最佳方法来组织知识管理。一些公司使用复杂的内置工具。有些使用第三方工具;还有一些Excel和Trello附带。
以下是三个专门用于优化转化的工具:

  • 虹膜
  • 有效的实验;
  • 成长黑客计划。




通过A / B测试获得的统计数据


统计知识对于分析A / B测试结果很有用。我们在上一节中检查了其中的一些,但这还不是全部。

在学习通过A / B测试获得的统计信息的详细信息之前,您应该了解三个概念:

  1. 意思。我们不会衡量所有转化率,而只会衡量示例。平均值仅代表整体。
  2. 分散。相对于其数学期望值的随机变量值散度的度量。它影响测试结果以及我们如何使用它们。
  3. 选择。我们无法衡量真实的转化率,因此选择了代表性样本。


什么是P值?


许多人错误地使用了“统计意义”一词。就其本身而言,这并不是停止测试的信号。那么这是什么,为什么它如此重要?
首先,让我们看看很少有人了解的P值。甚至科学家自己有时也会对它们感到困惑!

P值是表征零假设被拒绝时的错误概率的值(第一类错误)。不能证明概率B高于A。这是一个常见的误解。



总而言之,我们可以说,当P值小于统计显着性水平(通常设置为0.05)时,就可以达到统计显着性(或统计学上显着的结果)。

单边和双边A / B测试


单向测试允许您检测一个方向的变化,而双向测试允许您检测两个方向(正向和负向)的变化。

如果您的测试软件仅支持A / B测试类型之一,请不要担心。如有必要,单向测试很容易转换为双向测试,反之亦然(但是,必须在测试之前完成)。唯一的区别是阈值显着性水平。

如果您的软件使用单向测试,则只需将使用的P值一分为二。为确保双向测试的可靠性至少为95%,请将置信度设置为97.5%。如果要实现99%的可靠性,则需要选择99.5%的值。


转换率不只是X%。大约以以下形式表示:X%(±Y)。该公式中的第二个数字是置信区间,对于理解拆分测试的结果非常重要。



置信区间用于A / B测试,以最大程度降低采样错误的风险。从这个意义上讲,我们管理着与引入新版本页面相关的风险。

因此,如果您的工具显示如下信息:“我们有95%的确信转换率是X%±Y%”,那么您需要考虑±Y%作为误差范围。

结果的可靠性在很大程度上取决于误差的大小。如果两个转换范围重叠,则需要继续测试以获得更像真实情况的结果。

对外部有效性的威胁


由于数据不是静态的,因此拆分测试变得很复杂。



仅当时间序列的统计属性(平均值,方差,自相关等)在时间上恒定时,才可以将其称为平稳。由于许多原因,网站数据不是固定的。因此,我们不能做出与固定数据相同的假设。以下是一些可能导致数据更改的因素:

  • 季节;
  • 一周中的天;
  • 假期;
  • 新闻界的正面或负面参考;
  • 其他营销活动;
  • PPC / SEM;
  • 搜索引擎优化
  • 口口相传。


这些只是分析A / B测试结果时要考虑的一些因素。

贝叶斯和频率统计


许多流行的工具允许您同时使用贝叶斯和频率方法进行A / B测试。有什么区别?

简而言之,在贝叶斯统计中将概率分配给假设,而在频率统计中,不分配概率就对其进行检查。

每种方法都有其优势。但是,如果您刚刚开始了解A / B测试的基础知识,那么您就必须是最后一个担心选择一种方法的人。

结论


对于在在线环境中做出决定的每个人来说,A / B测试都是宝贵的信息仓库。只需一点知识和大量工作,您就可以减少大多数新手优化人员面临的许多风险。

通过深入研究该主题,您可以领先90%的Web分析人员。经验和不断的实践将使您完美地掌握这种研究方法。所以开始测试!

All Articles