Excelente guia de teste A / B

Há muita informação na Internet sobre testes A / B, mas muitos ainda o fazem incorretamente. É realmente fácil cometer um erro; portanto, esses estudos exigem uma preparação preliminar séria. Este artigo discute os principais aspectos do teste A / B que devem ser considerados para uma análise eficaz da página da web.

O que é o teste A / B?


O teste A / B (teste dividido) divide o tráfego em uma proporção de 50/50 entre diferentes versões da página. Em essência, esse método é um novo nome para uma técnica antiga conhecida como "experimento controlado".

Para testar a eficácia de novos medicamentos, os especialistas realizam testes divididos. De fato, a maioria das experiências de pesquisa pode ser chamada de teste A / B. Eles incluem a hipótese, o principal objeto de estudo, sua variação e o resultado, apresentados na forma de dados estatísticos.

Isso é tudo. Um exemplo é o teste A / B simples, no qual o tráfego 50/50 é dividido entre a página principal e sua variação:



No caso de otimização de conversão, a principal diferença é a variabilidade do tráfego da Internet. Variáveis ​​externas são mais fáceis de controlar no laboratório. Na Internet, você pode reduzir o impacto deles, mas criar um teste totalmente controlado é muito mais difícil.
Além disso, testar novos medicamentos requer um certo grau de precisão. A vida das pessoas está em risco. Do ponto de vista técnico, isso significa que os testes podem durar mais, pois os pesquisadores devem fazer todo o possível para evitar o primeiro tipo de erro (falso positivo).

No entanto, o teste A / B de recursos da Web é realizado para atingir as metas de negócios. É necessário para análise de risco e recompensa, exploração e desenvolvimento, ciência e negócios. Portanto, os resultados são considerados sob um ponto de vista diferente e as decisões são tomadas de maneira diferente da dos pesquisadores em laboratórios.

Obviamente, você pode criar mais de duas variações de página. Um estudo com vários elementos é chamado de teste A / B / n. Se houver tráfego suficiente, você poderá testar quantas opções desejar. Aqui está um exemplo de teste A / B / C / D com o tráfego alocado para cada variação: O teste



A / B / n é ótimo para implementar várias variações para testar uma hipótese. No entanto, exigirá mais tráfego, pois precisará ser dividido em mais páginas.

Apesar de sua popularidade, os testes A / B são apenas um tipo de pesquisa on-line. Você também pode realizar testes multivariados ou usar o método de bandidos com vários braços.

Testes A / B, testes multivariados e o método de bandidos multi-armados: qual a diferença?
O teste A / B / n é um experimento controlado que compara as taxas de conversão da página original e suas uma ou mais variações.

Testes multivariados são realizados em várias versões da página para determinar quais atributos são de maior importância. Como nos testes A / B / n, o original é comparado com variações. No entanto, cada design usa diferentes elementos de design. Por exemplo:



Cada elemento possui um caso de uso específico e afeta o desempenho da página. Você pode tirar o máximo proveito do site das seguintes maneiras:

  • Execute o teste A / B para determinar as melhores opções de layout da página.
  • Realize testes multivariados para melhorar os layouts e garantir que todos os elementos da página interajam bem.


Você precisará atrair um grande número de usuários para a página testada antes mesmo de considerar a possibilidade de testes multivariados. No entanto, como há tráfego suficiente, os dois tipos de pesquisa devem ser usados ​​para otimizar o site.
A maioria das agências prefere o teste A / B, pois seus clientes geralmente testam alterações significativas (potencialmente afetando mais a página). Além disso, eles são mais fáceis de executar.

O método de bandidos com várias armas é A / B / n - testes atualizados em tempo real com base na eficácia de cada variação.

De fato, o algoritmo de bandido com várias armas começa com o envio de tráfego para duas (ou mais) páginas: o original e sua (s) versão (ões). Em seguida, ele é atualizado dependendo de qual das variações é a mais eficaz. No final, o algoritmo determina a melhor opção possível:



Uma das vantagens do método de bandido com várias armas é que ele atenua a perda de conversão que você experimenta ao testar o cenário potencialmente pior. Este gráfico do Google explica tudo bem:



o método dos bandidos com vários braços e os testes A / B / n têm pontos fortes. O primeiro é ideal para:

  • Cabeçalhos e campanhas de curto prazo;
  • Escala automática;
  • Alvejando
  • Otimização e atribuição simultâneas.


Não importa que tipo de teste você use, é importante tentar aumentar suas chances de sucesso. Em outras palavras, quanto mais você testar, mais rápida a conversão aumentará.



Como melhorar os resultados dos testes A / B


Não preste atenção a artigos como "99 itens que podem ser testados usando o teste A / B". Isso é uma perda de tempo e tráfego. Somente o próprio processo ajudará você a aumentar a receita.

Cerca de 74% dos otimizadores com uma abordagem estruturada à conversão também relatam melhores vendas. O resto chega lá, que Craig Sullivan, analista da web, chama de "calha de decepção". (A menos que seus resultados sejam estragados por falsos positivos, os quais discutiremos mais adiante.)

Para obter a máxima eficácia, a estrutura de teste deve ter a seguinte aparência:
  • Estude;
  • Priorização;
  • Experimentação;
  • Análise, treinamento, repetição.


Estude


Para otimizar seu site, você precisa entender o que e por que seus usuários estão fazendo.
No entanto, antes de pensar em testar, reforce sua estratégia de atrair usuários e desenvolva-a. Então você precisa:

  1. Defina os objetivos do seu negócio.
  2. Defina os objetivos do seu site.
  3. Identifique seus principais indicadores de desempenho;
  4. Defina suas métricas de destino.




Depois de entender o que deseja alcançar, você pode começar a coletar os dados necessários. Para isso, recomendamos o uso do ResearchXL Framework.
Aqui está uma pequena lista de processos usados ​​pelo CXL:

  1. Análise heurística;
  2. Análise técnica;
  3. Análise de dados de sistemas de análise da web;
  4. Análise de movimento do mouse;
  5. Pesquisas de qualidade;
  6. Teste de usuário.


A análise heurística é uma das melhores práticas de teste A / B. Mesmo com muitos anos de experiência, é difícil entender quais elementos da página aumentam sua eficácia. No entanto, áreas de oportunidade podem ser identificadas. O especialista em UX Craig Sullivan acredita:

“Na minha experiência, esses padrões simplificam o trabalho, mas não são verdades comuns. Eles me dirigem e me informam, mas não dão garantias. ”


Não confie em padrões. Também é útil ter uma estrutura. Ao realizar uma análise heurística, vale a pena avaliar cada página de acordo com os seguintes critérios:

  • Relevância;
  • Clareza;
  • Valor;
  • Atrito;
  • Abstração.


A análise técnica é frequentemente negligenciada. No entanto, erros (se houver) eliminam a conversão. Pode parecer que seu site está funcionando bem em termos de experiência e funcionalidade do usuário. Mas isso funciona igualmente bem com todos os navegadores e dispositivos? Provavelmente não.

A análise técnica é muito eficaz e não exige muito trabalho. Portanto, você deve:

  • Realize testes entre navegadores e plataformas.
  • Analise a velocidade do site.


Em seguida, vem a análise dos dados dos sistemas de análise da web. Primeiro de tudo, verifique se tudo funciona. Você ficará surpreso com o número de configurações do sistema de análise da web definidas incorretamente.

A análise de movimento do mouse inclui mapas de calor, mapas de rolagem, análise de formas e repetições de sessões do usuário. Não se empolgue com a visualização colorida dos cartões de clique. Verifique se a análise ajuda a obter as informações necessárias para atingir seus objetivos.
A pesquisa qualitativa permite entender as causas dos problemas. Muitas pessoas pensam que é mais simples do que quantitativo. De fato, a pesquisa qualitativa deve ser tão precisa quanto fornecer informações igualmente úteis.

Para isso, é necessário realizar:

  • Pesquisas no site;
  • Pesquisas com clientes;
  • Entrevistas com clientes e grupos focais.


Finalmente, o teste do usuário pode ser usado. A ideia é simples: observe como as pessoas reais usam seu site e interagem com ele enquanto comentam suas ações. Preste atenção no que eles estão falando e no que estão experimentando.

Após um estudo de conversão completo, você terá muitos dados. O próximo passo é priorizar o teste.

Como priorizar hipóteses no teste A / B


Existem muitas estruturas para priorizar seus testes A / B. Além disso, você pode fazer isso com base em seus próprios métodos. Craig Sullivan prioriza da seguinte maneira:

Após a conclusão dos seis estágios descritos acima, você encontrará problemas - sérios e menores. Distribua cada descoberta em uma das cinco categorias:

  1. Teste: tudo o que precisa ser testado será enviado para esta categoria.
  2. Ferramentas: Esta categoria inclui a correção, adição ou aprimoramento do processamento de tags / eventos na análise.
  3. Hipótese: Esta categoria define páginas, widgets ou processos que não funcionam muito bem e exigem tratamento de erros.
  4. Apenas faça isso: use essa categoria para tarefas que precisam ser concluídas.
  5. Estudo: Se uma tarefa se enquadra nessa categoria, você terá que se aprofundar um pouco mais para resolvê-la.


Classifique cada problema de 1 a 5 estrelas (1 = menor, 5 = crítico). Ao avaliar, os dois critérios a seguir são mais importantes:

  1. Facilidade de implementação (tempo / complexidade / risco). Às vezes, os dados dizem para você criar uma função que leva meses para se desenvolver. Não comece a trabalhar com ela.
  2. Oportunidade. Avalie as perguntas subjetivamente, dependendo do tamanho ou mudança que elas podem causar.


Crie uma planilha com todos os seus dados. Você obterá um esquema de teste dividido com as prioridades definidas.

Criamos nosso próprio modelo de priorização para tornar todo o processo o mais objetivo possível. Implica a entrada obrigatória de dados na tabela. O modelo é chamado PXL e fica assim:



Faça o download de uma cópia deste modelo de planilha aqui. Basta clicar em Arquivo> Criar cópia para obter tudo o que você precisa.


Em vez de prever a eficácia de uma mudança, a estrutura faz uma série de perguntas sobre ela:

  • Existe uma mudança significativa? Uma atualização importante notará mais pessoas. Portanto, a alteração terá um impacto maior na página.
  • É possível notar uma alteração em 5 segundos? Mostre ao grupo de pessoas a página e, em seguida, suas variações. Eles perceberão as diferenças em 5 segundos? Caso contrário, é improvável que a mudança tenha um grande impacto.
  • A alteração adiciona ou remove algo? Grandes mudanças, como reduzir distrações ou adicionar informações importantes, geralmente afetam bastante a página.
  • O teste funciona em páginas com tráfego intenso? Melhorar uma página com muito tráfego dá um grande retorno.


Muitas variáveis ​​de teste em potencial requerem dados para priorizar suas hipóteses. As discussões semanais que fazem as quatro perguntas a seguir ajudarão você a priorizar o teste com base nos dados, e não nas opiniões:

  • O problema detectado durante o teste do usuário será resolvido?
  • Os problemas descobertos por meio do feedback de qualidade (pesquisas, pesquisas, entrevistas) estão sendo abordados?
  • A hipótese é suportada pelo rastreamento de mouse, mapas de calor ou rastreamento ocular?
  • Os problemas descobertos por meio da análise digital foram resolvidos?


Avaliação PXL


Usamos uma escala binária: você deve escolher uma classificação entre duas. Portanto, para a maioria das variáveis ​​(a menos que seja indicado o contrário), você escolhe 0 ou 1.
No entanto, também queremos classificar as variáveis ​​por importância. Para fazer isso, descrevemos especificamente quais elementos da página estão sendo alterados.

Personalização


Criamos esse modelo, acreditando que você pode e deve configurar variáveis, dependendo dos objetivos do seu negócio.

Por exemplo, se você estiver trabalhando com uma equipe de marca ou experiência do usuário e as hipóteses devem ser consistentes com as recomendações da marca, adicione-as como uma variável.
Você pode estar trabalhando em uma startup cujo mecanismo de vendas é alimentado por SEO. Talvez o seu financiamento dependa do fluxo de clientes. Adicione uma categoria como "SEO não interfere" para alterar alguns títulos ou textos.

Todas as organizações funcionam de maneira diferente. A configuração do modelo ajudará a levar em consideração todas as nuances e a criar o programa ideal para otimizar o site.

Qualquer que seja a estrutura que você use, deixe claro para todos os membros da equipe, bem como para os acionistas da empresa.

Quanto tempo demoram os testes A / B?


Primeira regra: não pare o teste apenas porque ele se torna estatisticamente significativo. Este é provavelmente o erro mais comum cometido pelos otimizadores iniciantes.

Se você parar de testar muito cedo, verá que a maioria das alterações não leva a um aumento na renda (que é o objetivo principal).
Preste atenção às estatísticas obtidas após os testes de 1000 A / A (foram realizadas para duas páginas idênticas):

  • 771 experiências em 1000 atingiram uma significância de 90%.
  • 531 experiências em 1000 atingiram uma significância de 95%.


Parar prematuramente os testes aumenta o risco de falsos positivos.
Determine o tamanho da amostra e realize os testes por várias semanas pelo menos dois ciclos de trabalho seguidos.

Como determinar o tamanho da amostra? Existem muitas ótimas ferramentas. Veja como você pode calcular o tamanho da amostra usando a ferramenta Evan Miller:



Neste exemplo, indicamos que a taxa de conversão é de 3% e queremos aumentar essa taxa em pelo menos 10%. Essa ferramenta afirma que 51.486 pessoas devem visitar cada variação antes de podermos observar os níveis de significância estatística.

Além do nível de significância, há força estatística. O poder estatístico tenta evitar erros do tipo II (falsos negativos). Em outras palavras, aumenta a probabilidade de você encontrar o elemento de página mais eficaz.

Lembre-se de que 80% da energia é o padrão para as ferramentas de teste A / B. Para atingir esse nível, você precisará de um grande tamanho de amostra, um efeito grandioso ou um teste mais longo.

Não há números mágicos


Muitos artigos listam números mágicos (como "100 conversões" ou "1000 visitantes") como o melhor momento para interromper o teste. No entanto, a matemática não tem nada a ver com mágica. De fato, tudo é mais complicado do que heurísticas simplificadas como esses números. Eis o que Andrew Anderson, da Malwarebytes, diz:

“Seu objetivo não é um determinado número de conversões. Você deve se esforçar para coletar dados suficientes para testar uma hipótese baseada em amostras representativas e comportamento representativo.

Cem conversões são possíveis apenas nos casos mais raros e com uma diferença incrivelmente alta no comportamento, mas somente se outros requisitos forem atendidos - como comportamento no tempo, consistência e distribuição normal. Ao mesmo tempo, o risco de um erro do primeiro tipo permanece muito alto. ”


Então você precisa de uma amostra representativa. Como conseguir isso? Realize testes durante dois ciclos econômicos, o que ajudará a reduzir a influência de fatores externos, como:

  • \ Dia da semana. O tráfego diário pode variar bastante, dependendo do dia da semana.
  • \ Fontes de tráfego. A menos que seja necessário personalizar a experiência para uma fonte específica.
  • \ Agende o envio de boletins e postagens de blog.
  • \ Visitantes retornando. As pessoas podem visitar seu site, pensar em uma compra e voltar 10 dias depois para fazer a compra.
  • Eventos externos. Por exemplo, a folha de pagamento no meio do mês pode afetar sua compra.


Tenha cuidado com pequenas amostras. Existem muitos estudos de caso na Internet cheios de erros matemáticos.

Assim que você configurar tudo, não olhe (e não deixe o chefe espiar) os resultados do teste até que ele termine. Caso contrário, você pode tirar conclusões prematuras "detectando uma tendência".

Regressão para significar


Você sempre notará que os resultados variam bastante nos primeiros dias do teste. Posteriormente, eles convergirão para o valor médio, pois o teste continua por várias semanas. Aqui está um exemplo de estatísticas de site de comércio eletrônico:



  • Nos primeiros dois dias: o azul (opção número 3) vence por uma margem. A variação gera US $ 16 por visitante contra os US $ 12,50 que a página original traz. Muitos (por engano) terminariam os testes neste momento.
  • Após 7 dias: a versão azul da página ainda vence e a diferença relativa é bastante grande.
  • Após 14 dias: a versão laranja (nº 4) sai por cima!
  • Após 21 dias: a versão laranja ainda vence!
  • Fim do teste: não há diferenças entre as opções.


Se você completasse o teste antes da quarta semana, teria feito a conclusão errada.

Há um problema semelhante: o efeito da novidade. A novidade de suas alterações (por exemplo, o grande botão azul) chama mais atenção para a opção de página. Com o tempo, esse efeito desaparece, pois a mudança gradualmente deixará de ser relevante.

Posso executar vários testes A / B ao mesmo tempo?


Você deseja acelerar o seu programa de testes e executar mais testes. No entanto, é possível executar mais de um teste A / B de cada vez? Isso aumentará seu potencial de crescimento ou distorcerá os dados?

Alguns especialistas argumentam que a realização de vários testes ao mesmo tempo está errada. Alguns dizem que tudo está em ordem. Na maioria dos casos, você não terá problemas ao realizar vários testes simultâneos.

Se você não está testando coisas realmente importantes (por exemplo, algo que afeta seu modelo de negócios e o futuro da empresa), os benefícios do volume de testes provavelmente superam as falhas em seus dados e falsos positivos aleatórios.
Se houver um alto risco de interação entre vários testes, reduza o número de testes simultâneos e / ou deixe que os testes sejam executados por mais tempo para melhorar a precisão.

Como configurar testes A / B


Após compilar uma lista de idéias de teste com prioridades priorizadas, é necessário formular uma hipótese e realizar um experimento. Por hipótese, você determina por que motivo o problema surge. Além disso, uma boa hipótese:

  • Verificável. É mensurável, portanto pode ser verificado.
  • Resolve o problema de conversão. O teste dividido resolve problemas de conversão.
  • Fornece informações sobre o mercado. Com uma hipótese claramente articulada, os resultados do seu teste de divisão sempre fornecerão informações valiosas do cliente.




Craig Sullivan oferece o seguinte algoritmo para simplificar o processo de hipótese:

  1. Desde que recebemos (dados / feedback),
  2. Esperamos que (mudança) cause (efeito).
  3. Nós a mediremos usando (métrica de dados).


Existe uma versão avançada deste algoritmo:

  1. Desde que recebemos (dados qualitativos e quantitativos),
  2. Esperamos que (mudança) para (população) cause (efeito [s]).
  3. Esperamos ver (alteração nas métricas de dados) do período (X ciclos de negócios).


Problemas técnicos


A parte mais divertida dos testes chegou: você pode finalmente escolher uma ferramenta para isso.

Muitos iniciam esse problema primeiro, mas isso está longe de ser o mais importante. Estratégia e estatísticas são muito mais importantes.

No entanto, existem vários recursos das ferramentas que você deve conhecer. Eles se enquadram em duas categorias principais: ferramentas do lado do servidor ou do cliente.

As ferramentas do servidor exibem o código no nível do servidor. Eles enviam uma versão aleatória da página para o visualizador, sem alterações no navegador do visitante. As ferramentas do cliente enviam a mesma página, mas o JavaScript no navegador do cliente controla a aparência da página original e sua variante.

As ferramentas de teste do lado do cliente incluem Optimizely, VWO e Adobe Target. O Conductrics permite que você use os dois métodos, e o SiteSpect usa proxies.
O que tudo isso significa para você? Se você deseja economizar tempo, sua equipe é pequena ou você não tem recursos para desenvolvimento, as ferramentas do lado do cliente ajudarão você a começar mais rapidamente. As ferramentas do servidor requerem recursos de desenvolvimento - no entanto, geralmente são mais confiáveis.

Embora a configuração do teste seja ligeiramente diferente dependendo da ferramenta usada, geralmente todo o processo é muito simples e qualquer pessoa pode lidar com isso - basta seguir as instruções.

Além disso, você precisa definir metas. Sua ferramenta de teste acompanhará quando cada opção de página transforma visitantes em clientes.



Ao configurar testes A / B, são úteis as seguintes habilidades: HTML, CSS e JavaScript / JQuery, bem como a capacidade de criar textos e criar novas variações de página. Algumas ferramentas permitem que você use um editor visual, mas limita sua flexibilidade e controle.

Como analisar os resultados dos testes A / B?


Então, você finalmente fez a pesquisa, configurou o teste corretamente e o conduziu. Agora vamos para a análise. Não é tão simples - basta olhar para o gráfico da sua ferramenta de teste não é suficiente.



Uma coisa que você sempre deve fazer: analise os resultados dos seus testes no Google Analytics. Assim, você não apenas expande seus recursos de análise, mas também se torna mais confiante em seus dados e tomada de decisão.

Sua ferramenta de teste pode não gravar dados corretamente. A menos que você tenha outra fonte de informação, nunca poderá ter certeza se deve confiar nela. Crie várias fontes de dados.

O que acontece se não houver diferença entre as variações? Não tenha pressa. Primeiro, reconheça duas coisas:

  1. Sua hipótese pode ser verdadeira, mas a implementação acabou errada.
  2. Suponha que sua pesquisa qualitativa indique um problema de segurança. Quantas vezes você pode melhorar sua percepção de segurança? Quantidade ilimitada.
  3. Use o teste iterativo se quiser testar algo e compare várias iterações.
  4. Mesmo na ausência de uma diferença tangível em geral, a variação pode exceder a página original em alguns aspectos.


Se você notar um aumento na eficiência entre visitantes regulares e móveis, mas não para novos visitantes e usuários de desktop, esses segmentos podem se cancelar, dando a impressão de que "não há diferença". Analise seu teste nos principais segmentos para explorar esta oportunidade.

Segmentação de dados para testes A / B


A segmentação é a chave para capitalizar os resultados dos testes A / B. Apesar de B poder perder A nos resultados gerais, a variação pode derrotar a página original em certos segmentos (tráfego orgânico, cliques no Facebook, tráfego móvel, etc.).



Há um grande número de segmentos que você pode analisar, incluindo o seguinte:

  • Tipo de navegador;
  • Tipo de fonte;
  • Computador ou dispositivo móvel ou de mesa;
  • Visitantes registrados e desconectados;
  • Campanhas PPC / SEM
  • Regiões geográficas (cidade, estado / província, país);
  • Visitantes novos e regulares;
  • Clientes novos e recorrentes;
  • Usuários avançados contra visitantes ocasionais;
  • Homens versus mulheres
  • Faixa etária;
  • Leads novos e já apresentados;
  • Tipos de planos ou níveis de programa de fidelidade;
  • Assinantes atuais, potenciais e antigos;
  • Funções (se, por exemplo, seu site oferecer as funções de comprador e vendedor).


Como último recurso (desde que você tenha um tamanho de amostra adequado), preste atenção a esses fatores:

  • A popularidade das versões para computador e celular;
  • Novos clientes versus repatriados;
  • Perdeu o tráfego.


Verifique se você tem um tamanho de amostra suficiente no segmento. Calcule-o com antecedência e tenha cuidado se esse segmento tiver menos de 250 a 350 conversões por variação.
Se suas ações mostraram bons resultados para um segmento específico, você pode seguir para uma abordagem individual desses usuários.

Como arquivar testes A / B realizados


O teste A / B é principalmente necessário para coletar informações. Testes estatisticamente corretos, realizados de acordo com as instruções, ajudarão a alcançar os principais objetivos de crescimento e otimização.

Empresas inteligentes arquivam resultados de testes e aprimoram constantemente as abordagens de teste. Uma abordagem estruturada à otimização proporciona maior crescimento e é menos frequentemente limitada por restrições locais.



A parte mais difícil é a seguinte: não existe a melhor maneira de estruturar a gestão do conhecimento. Algumas empresas usam sofisticadas ferramentas internas; alguns usam ferramentas de terceiros; e alguns vêm com Excel e Trello.
Aqui estão três ferramentas projetadas especificamente para otimizar sua conversão:

  • Iridion;
  • Experimentos eficazes;
  • Projetos de hackers de crescimento.




Estatísticas obtidas através de testes A / B


O conhecimento de estatística é útil na análise dos resultados de um teste A / B. Examinamos alguns deles na seção acima, mas isso não é tudo.

Existem três conceitos que você deve conhecer antes de aprender os detalhes das estatísticas obtidas pelos testes A / B:

  1. Significar. Não medimos todas as taxas de conversão, mas apenas a amostra. A média é apenas um representante do todo.
  2. Dispersão. Uma medida da dispersão dos valores de uma variável aleatória em relação à sua expectativa matemática. Isso afeta os resultados do teste e como os usamos.
  3. Seleção. Como não podemos medir a verdadeira taxa de conversão, uma amostra representativa é escolhida.


O que é um valor P?


Muitas pessoas usam o termo "significância estatística" incorretamente. Por si só, não é um sinal para parar o teste. Então, o que é e por que é tão importante?
Para começar, vejamos os valores P, que também poucas pessoas entendem. Até os próprios cientistas às vezes se confundem neles!

Valor-p é um valor que caracteriza a probabilidade de erro quando a hipótese nula é rejeitada (erros do primeiro tipo). Não prova que a probabilidade B seja maior que A. Esse é um equívoco comum.



Para resumir, podemos dizer que a significância estatística (ou um resultado estatisticamente significativo) é alcançada quando o valor P é menor que o nível de significância estatística (que geralmente é definido como 0,05).

Testes A / B unilaterais e bilaterais


Um teste unidirecional permite detectar uma alteração em uma direção, enquanto um teste bidirecional permite detectar uma alteração em duas direções (positivas e negativas).

Não se preocupe se o seu software de teste suportar apenas um dos tipos de testes A / B. Se necessário, um teste unidirecional é facilmente convertido em um teste bidirecional e vice-versa (no entanto, isso deve ser feito antes do teste). A única diferença é o nível de significância do limite.

Se o seu software usa um teste unidirecional, basta dividir o valor P usado em dois. Para garantir que seu teste bidirecional seja confiável em pelo menos 95%, defina o nível de confiança em 97,5%. Se você deseja obter uma confiabilidade de 99%, precisa selecionar um valor de 99,5%.


A taxa de conversão não é apenas X%. É indicado aproximadamente nesta forma: X% (± Y). O segundo número nesta fórmula é o intervalo de confiança e é extremamente importante para entender os resultados do teste de divisão.



Intervalos de confiança são usados ​​no teste A / B para minimizar o risco de erros de amostragem. Nesse sentido, gerenciamos o risco associado à introdução de uma nova versão da página.

Portanto, se sua ferramenta mostrar algo como: "Temos 95% de certeza de que a taxa de conversão é X% ± Y%", será necessário considerar ± Y% como a margem de erro.

A confiabilidade dos resultados depende em grande parte da magnitude do erro. Se os dois intervalos de conversão se sobrepuserem, você precisará continuar testando para obter um resultado que se pareça mais com a verdade.

Ameaças à validade externa


Os testes de divisão são complicados pelo fato de os dados não serem estáticos.



Uma série temporal pode ser chamada de estacionária apenas se suas propriedades estatísticas (valor médio, variação, autocorrelação etc.) forem constantes no tempo. Por muitas razões, os dados do site não são estacionários. Portanto, não podemos fazer as mesmas suposições que os dados estacionários. Aqui estão alguns fatores que podem causar alterações nos dados:

  • Estação;
  • Dia da semana;
  • Feriados;
  • Referências positivas ou negativas na imprensa;
  • Outras campanhas de marketing;
  • PPC / SEM;
  • SEO
  • Palavra de boca.


Esses são apenas alguns dos fatores a serem considerados ao analisar os resultados dos testes A / B.

Estatísticas bayesianas e de frequência


Muitas ferramentas populares permitem o uso de abordagens bayesiana e de frequência nos testes A / B. Qual é a diferença?

Em palavras simples, uma probabilidade é atribuída a uma hipótese nas estatísticas bayesianas e, nas estatísticas de frequência, é verificada sem atribuir probabilidade.

Cada abordagem tem suas vantagens. No entanto, se você está apenas começando a compreender os conceitos básicos do teste A / B, precisa ser o último a se preocupar em escolher uma metodologia.

Conclusão


O teste A / B é um depósito valioso de informações para todos que tomam decisões em um ambiente online. Com pouco conhecimento e muito esforço, você pode reduzir os muitos riscos enfrentados pela maioria dos otimizadores iniciantes.

Ao se aprofundar no tópico, você pode ficar à frente de 90% das pessoas envolvidas na análise da web. A experiência e a prática constante permitirão que você domine perfeitamente esse método de pesquisa. Então comece a testar!

All Articles