Gran guía de prueba A / B

Hay un montón de información en Internet sobre las pruebas A / B, pero muchas aún lo hacen incorrectamente. Es realmente fácil cometer un error, por lo tanto, tales estudios requieren una preparación preliminar seria. Este artículo analiza los principales aspectos de las pruebas A / B que deben considerarse para un análisis efectivo de la página web.

¿Qué es la prueba A / B?


Las pruebas A / B (pruebas divididas) dividen el tráfico en una proporción de 50/50 entre diferentes versiones de la página. En esencia, este método es un nuevo nombre para una técnica antigua conocida como "experimento controlado".

Para evaluar la efectividad de los nuevos medicamentos, los expertos realizan pruebas divididas. De hecho, la mayoría de los experimentos de investigación pueden llamarse pruebas A / B. Incluyen la hipótesis, el principal objeto de estudio, su variación y el resultado, presentado en forma de datos estadísticos.

Eso es todo. Un ejemplo son las pruebas A / B simples, en las que el tráfico 50/50 se divide entre la página principal y su variación:



En el caso de la optimización de conversión, la principal diferencia es la variabilidad del tráfico de Internet. Las variables externas son más fáciles de controlar en el laboratorio. En Internet, puede reducir su impacto, pero crear una prueba totalmente controlada es mucho más difícil.
Además, probar nuevos medicamentos requiere un cierto grado de precisión. La vida de las personas está en juego. Desde un punto de vista técnico, esto significa que las pruebas pueden durar más, ya que los investigadores deben hacer todo lo posible para evitar el primer tipo de error (falso positivo).

Sin embargo, las pruebas A / B de los recursos web se llevan a cabo para lograr los objetivos comerciales. Es necesario para el análisis de riesgos y recompensas, exploración y desarrollo, ciencia y negocios. Por lo tanto, los resultados se consideran desde un punto de vista diferente, y las decisiones se toman de manera diferente a la de los investigadores en los laboratorios.

Por supuesto, puede crear más de dos variaciones de página. Un estudio con varios elementos se llama prueba A / B / n. Si hay suficiente tráfico, puede probar tantas opciones como desee. Aquí hay un ejemplo de prueba A / B / C / D con el tráfico asignado para cada variación: la



prueba A / B / n es excelente para implementar múltiples variaciones para probar una hipótesis. Sin embargo, requerirá más tráfico porque tendrá que dividirse en más páginas.

A pesar de su popularidad, las pruebas A / B son solo un tipo de investigación en línea. También puede realizar pruebas multivariadas o utilizar el método de bandido multi-armado.

Pruebas A / B, pruebas multivariadas y el método de bandido multi-armado: ¿cuál es la diferencia?
La prueba A / B / n es un experimento controlado que compara las tasas de conversión de la página original y sus una o más variaciones.

Se realizan pruebas multivariadas en varias versiones de la página para determinar qué atributos son de mayor importancia. Al igual que con las pruebas A / B / n, el original se compara con las variaciones. Sin embargo, cada diseño usa diferentes elementos de diseño. Por ejemplo:



Cada elemento tiene un caso de uso específico y afecta el rendimiento de la página. Puede aprovechar al máximo el sitio de las siguientes maneras:

  • Realice pruebas A / B para determinar las mejores opciones de diseño de página.
  • Realice pruebas multivariadas para mejorar los diseños y garantizar que todos los elementos de la página interactúen bien entre sí.


Tendrá que atraer a una gran cantidad de usuarios a la página probada antes de siquiera considerar la posibilidad de realizar pruebas multivariadas. Sin embargo, hay suficiente tráfico, ambos tipos de investigación deben usarse para optimizar el sitio.
La mayoría de las agencias prefieren las pruebas A / B, ya que sus clientes generalmente prueban cambios significativos (que pueden afectar más la página). Además, son más fáciles de llevar a cabo.

El método de bandido multi-armado es A / B / n, pruebas que se actualizan en tiempo real en función de la efectividad de cada variación.

De hecho, el algoritmo de bandido multi-armado comienza con el envío de tráfico a dos (o más) páginas: el original y sus versiones. Luego se actualiza dependiendo de cuál de las variaciones es la más efectiva. Al final, el algoritmo determina la mejor opción posible:



una de las ventajas del método de bandido multi-armado es que mitiga las pérdidas de conversión que experimenta cuando prueba el peor de los casos. Este cuadro de Google explica todo bien:



tanto el método de bandido multi-armado como las pruebas A / B / n tienen puntos fuertes. El primero es ideal para:

  • Encabezados y campañas a corto plazo;
  • Escala automática;
  • Orientación
  • Optimización y atribución simultáneas.


Independientemente del tipo de prueba que utilice, es importante intentar aumentar sus posibilidades de éxito. En otras palabras, mientras más pruebas realices, más rápido aumentará la conversión.



Cómo mejorar los resultados de las pruebas A / B


No preste atención a artículos como "99 cosas que se pueden probar usando pruebas A / B". Esto es una pérdida de tiempo y tráfico. Solo el proceso en sí lo ayudará a aumentar los ingresos.

Alrededor del 74% de los optimizadores con un enfoque estructurado para la conversión también informan mejores ventas. El resto llega allí, que el analista web Craig Sullivan llama el "canal de la decepción". (A menos que sus resultados se vean afectados por falsos positivos, que discutiremos más adelante).

Para obtener la máxima efectividad, la estructura de prueba debería tener este aspecto:
  • Estudiar;
  • Priorización
  • Experimentación;
  • Análisis, entrenamiento, repetición.


Estudiar


Para optimizar su sitio, necesita comprender qué y por qué están haciendo sus usuarios.
Sin embargo, antes de pensar en las pruebas, fortalezca su estrategia de atraer usuarios y construir sobre ella. Entonces necesitas:

  1. Define los objetivos de tu negocio.
  2. Define los objetivos de tu sitio web.
  3. Identifique sus indicadores clave de rendimiento;
  4. Defina sus métricas objetivo.




Una vez que comprenda lo que quiere lograr, puede comenzar a recopilar los datos necesarios. Para esto, recomendamos usar el Framework ResearchXL.
Aquí hay una breve lista de procesos utilizados por CXL:

  1. Análisis heurístico;
  2. Análisis técnico;
  3. Análisis de datos de sistemas de análisis web;
  4. Análisis de movimiento del mouse;
  5. Encuestas de calidad;
  6. Pruebas de usuario.


El análisis heurístico es una de las mejores prácticas de prueba A / B. Incluso con muchos años de experiencia, es difícil entender qué elementos de la página aumentan su efectividad. Sin embargo, se pueden identificar áreas de oportunidad. El especialista en UX Craig Sullivan cree:

“En mi experiencia, estos patrones simplifican el trabajo, pero no son verdades comunes. Me dirigen e informan, pero no dan garantías.


No confíes en los patrones. También es útil tener un marco. Al realizar un análisis heurístico, vale la pena evaluar cada página de acuerdo con los siguientes criterios:

  • Relevancia;
  • Claridad;
  • Valor;
  • Fricción;
  • Abstracción.


El análisis técnico a menudo se pasa por alto. Sin embargo, los errores (si los hay) matan la conversión. Puede parecerle que su sitio funciona bien en términos de experiencia y funcionalidad del usuario. Pero, ¿funciona igual de bien con todos los navegadores y dispositivos? Probablemente no.

El análisis técnico es muy efectivo y no requiere mucha mano de obra. Por lo tanto, debes:

  • Realice pruebas entre navegadores y plataformas cruzadas.
  • Analiza la velocidad del sitio.


Luego viene el análisis de datos de los sistemas de análisis web. En primer lugar, asegúrese de que todo funcione. Te sorprenderá la cantidad de configuraciones del sistema de análisis web que están configuradas incorrectamente.

El análisis de movimiento del mouse incluye mapas de calor, mapas de desplazamiento, análisis de forma y repeticiones de sesiones de usuario. No se deje llevar por la colorida visualización de las tarjetas de clic. Asegúrese de que el análisis lo ayude a obtener la información que necesita para alcanzar sus objetivos.
La investigación cualitativa le permite comprender las causas de los problemas. Mucha gente piensa que es más simple que cuantitativo. De hecho, la investigación cualitativa debe ser tan precisa como para proporcionar información igualmente útil.

Para hacer esto, es necesario llevar a cabo:

  • Encuestas en el sitio;
  • Encuestas a clientes;
  • Entrevistas con clientes y grupos focales.


Finalmente, se pueden usar pruebas de usuario. La idea es simple: observe cómo las personas reales usan su sitio web e interactúan con él mientras comentan sus acciones. Presta atención a lo que están hablando y a lo que están experimentando.

Después de un exhaustivo estudio de conversión, tendrá muchos datos. El siguiente paso es priorizar las pruebas.

Cómo priorizar hipótesis en pruebas A / B


Hay muchos marcos para priorizar sus pruebas A / B. Además, puede hacerlo según sus propios métodos. Craig Sullivan prioriza lo siguiente:

Al completar las seis etapas descritas anteriormente, encontrará problemas, tanto graves como leves. Distribuya cada hallazgo en una de cinco categorías:

  1. Pruebas: todo lo que deba probarse se enviará a esta categoría.
  2. Herramientas. Esta categoría incluye arreglar, agregar o mejorar el procesamiento de etiquetas / eventos en análisis.
  3. Hipótesis: esta categoría define páginas, widgets o procesos que no funcionan muy bien y requieren manejo de errores.
  4. Simplemente hazlo. Utiliza esta categoría para tareas que solo necesites hacer.
  5. Estudio: si una tarea cae en esta categoría, tendrá que profundizar un poco más para resolverla.


Califique cada problema de 1 a 5 estrellas (1 = menor, 5 = crítico). Al evaluar, los siguientes dos criterios son los más importantes:

  1. Facilidad de implementación (tiempo / complejidad / riesgo). A veces, los datos le indican que cree una función que lleva meses desarrollar. No empieces a trabajar con ella.
  2. Oportunidad. Evalúe las preguntas subjetivamente dependiendo de cuán grande sea el levantamiento o el cambio que puedan causar.


Crea una hoja de cálculo con todos tus datos. Obtendrá un esquema de prueba dividido con las prioridades establecidas.

Hemos creado nuestro propio modelo de priorización para que todo el proceso sea lo más objetivo posible. Implica la entrada obligatoria de datos en la tabla. El modelo se llama PXL y tiene este aspecto:



Descargue una copia de esta plantilla de hoja de cálculo aquí. Simplemente haga clic en Archivo> Crear copia para obtener todo lo que necesita.


En lugar de predecir la efectividad de un cambio, el marco le hace una serie de preguntas al respecto:

  • ¿Hay un cambio significativo? Una actualización importante notará más personas. Por lo tanto, el cambio tendrá un mayor impacto en la página.
  • ¿Es posible notar un cambio en 5 segundos? Muestre al grupo de personas la página, y luego sus variaciones. ¿Notarán las diferencias en 5 segundos? De lo contrario, es poco probable que el cambio tenga un impacto importante.
  • ¿El cambio agrega o elimina algo? Los cambios importantes, como reducir las distracciones o agregar información clave, generalmente afectan en gran medida la página.
  • ¿La prueba funciona en páginas con mucho tráfico? Mejorar una página con mucho tráfico da un gran retorno.


Muchas posibles variables de prueba requieren datos para priorizar sus hipótesis. Las discusiones semanales que hacen las siguientes cuatro preguntas lo ayudarán a priorizar las pruebas basadas en datos en lugar de opiniones:

  • ¿Se resolverá el problema detectado durante las pruebas de usuario?
  • ¿Se están abordando los problemas descubiertos a través de comentarios de calidad (encuestas, encuestas, entrevistas)?
  • ¿La hipótesis es compatible con el seguimiento del mouse, los mapas de calor o el seguimiento ocular?
  • ¿Se resuelven los problemas descubiertos a través de la analítica digital?


Evaluación PXL


Utilizamos una escala binaria: debe elegir una calificación de dos. Por lo tanto, para la mayoría de las variables (a menos que se indique lo contrario), usted elige 0 o 1.
Sin embargo, también queremos ordenar las variables por importancia. Para hacer esto, describimos específicamente qué elementos de la página están cambiando.

Personalización


Creamos este modelo, creyendo que usted puede y debe configurar variables dependiendo de los objetivos de su negocio.

Por ejemplo, si está trabajando con un equipo de marca o experiencia de usuario y las hipótesis deben ser consistentes con las recomendaciones de la marca, agréguelas como una variable.
Puede estar trabajando en una startup cuyo motor de ventas funciona con SEO. Quizás su financiación depende del flujo de clientes. Agregue una categoría como "SEO no interfiere" para cambiar algunos títulos o textos.

Todas las organizaciones trabajan de manera diferente. La configuración de la plantilla ayudará a tener en cuenta todos los matices y crear el programa óptimo para optimizar el sitio.

Independientemente del marco que utilice, deje en claro a todos los miembros del equipo, así como a los accionistas de la compañía.

¿Cuánto tardan las pruebas A / B?


Primera regla: no detenga la prueba solo porque se vuelve estadísticamente significativa. Este es probablemente el error más común cometido por los optimizadores novatos.

Si deja de realizar las pruebas demasiado pronto, encontrará que la mayoría de los cambios no conducen a un aumento en los ingresos (que es el objetivo principal).
Preste atención a estas estadísticas obtenidas después de 1000 pruebas A / A (se realizó para dos páginas idénticas):

  • 771 experimentos de 1000 alcanzaron una importancia del 90%.
  • 531 experimentos de 1000 alcanzaron una significación del 95%.


La interrupción prematura de las pruebas aumenta el riesgo de falsos positivos.
Determine el tamaño de la muestra y realice pruebas durante varias semanas al menos dos ciclos de trabajo seguidos.

¿Cómo determinar el tamaño de la muestra? Hay muchas herramientas geniales. A continuación, le mostramos cómo puede calcular el tamaño de la muestra con la herramienta Evan Miller:



en este ejemplo, hemos indicado que la tasa de conversión es del 3% y queremos aumentar esta tasa en al menos un 10%. Esta herramienta establece que 51,486 personas deben visitar cada variación antes de que podamos ver los niveles de significación estadística.

Además del nivel de significancia, hay una fuerza estadística. El poder estadístico intenta evitar errores de tipo II (falsos negativos). En otras palabras, aumenta la probabilidad de que encuentre el elemento de página más efectivo.

Recuerde que el 80% de la potencia es el estándar para las herramientas de prueba A / B. Para alcanzar este nivel, necesitará un tamaño de muestra grande, un efecto grandioso o una prueba más larga.

No hay numeros magicos


Muchos artículos enumeran los números mágicos (como "100 conversiones" o "1000 visitantes") como el mejor momento para detener las pruebas. Sin embargo, las matemáticas no tienen nada que ver con la magia. De hecho, todo es más complicado que las heurísticas simplificadas como estos números. Esto es lo que dice Andrew Anderson de Malwarebytes:

“Su objetivo no es un cierto número de conversiones. Debe esforzarse por recopilar suficientes datos para probar una hipótesis basada en muestras representativas y comportamiento representativo.

Cien conversiones son posibles solo en los casos más raros y con una diferencia increíblemente alta en el comportamiento, pero solo si se cumplen otros requisitos, como el comportamiento del tiempo, la consistencia y la distribución normal. Al mismo tiempo, el riesgo de un error de primer tipo sigue siendo muy alto ".


Entonces necesita una muestra representativa. ¿Cómo conseguirlo? Realice pruebas durante dos ciclos económicos, lo que ayudará a reducir la influencia de factores externos como:

  • \ Día de la semana. El tráfico diario puede variar mucho según el día de la semana.
  • \ Fuentes de tráfico. A menos que sea necesario personalizar la experiencia para una fuente en particular.
  • \ Programe el envío de boletines y publicaciones de blog.
  • \ Visitantes que regresan. Las personas pueden visitar su sitio, pensar en una compra y luego regresar 10 días después para hacerlo.
  • Eventos externos. Por ejemplo, la nómina de mitad de mes puede afectar su compra.


Tenga cuidado con muestras pequeñas. Hay muchos estudios de casos en Internet llenos de errores matemáticos.

Una vez que esté configurado, no mire (y no deje que el jefe mire) los resultados de la prueba hasta que termine. De lo contrario, puede sacar conclusiones prematuras "detectando una tendencia".

Regresión a significar


A menudo notará que los resultados varían mucho en los primeros días de la prueba. Posteriormente, convergerán al valor promedio, ya que la prueba continúa durante varias semanas. Aquí hay un ejemplo de estadísticas del sitio de comercio electrónico:



  • Los primeros días: el azul (opción número 3) gana por un margen. La variación trae $ 16 por visitante contra los $ 12.50 que trae la página original. Muchos (por error) terminarían las pruebas en este punto.
  • Después de 7 días: la versión azul de la página sigue ganando, y la diferencia relativa es bastante grande.
  • Después de 14 días: ¡la versión naranja (No. 4) sale a la cabeza!
  • Después de 21 días: ¡la versión naranja sigue ganando!
  • Fin de la prueba: no hay diferencias entre las opciones.


Si completó la prueba antes de la cuarta semana, habría llegado a una conclusión incorrecta.

Hay un problema similar: el efecto de la novedad. La novedad de sus cambios (por ejemplo, el gran botón azul) llama más la atención sobre la opción de página. Con el tiempo, este efecto desaparece, ya que el cambio gradualmente dejará de ser relevante.

¿Puedo ejecutar múltiples pruebas A / B al mismo tiempo?


Desea acelerar su programa de pruebas y ejecutar más pruebas. Sin embargo, ¿es posible ejecutar más de una prueba A / B a la vez? ¿Aumentará su potencial de crecimiento o distorsionará los datos?

Algunos expertos sostienen que realizar múltiples pruebas a la vez es incorrecto. Algunos dicen que todo está en orden. En la mayoría de los casos, no tendrá problemas al realizar varias pruebas simultáneas.

Si no está probando cosas realmente importantes (por ejemplo, algo que afecta su modelo de negocio y el futuro de la compañía), entonces los beneficios del volumen de prueba probablemente superen los defectos en sus datos y falsos positivos aleatorios.
Si existe un alto riesgo de interacción entre múltiples pruebas, reduzca el número de pruebas simultáneas y / o deje que las pruebas se ejecuten por más tiempo para mejorar la precisión.

Cómo configurar pruebas A / B


Después de compilar una lista de ideas de prueba con prioridades priorizadas, es necesario formular una hipótesis y realizar un experimento. Por hipótesis, usted determina por qué razón surge el problema. Además, una buena hipótesis:

  • Verifiable. Es medible, por lo que puede verificarse.
  • Resuelve el problema de conversión. Las pruebas divididas resuelven problemas de conversión.
  • Proporciona información del mercado. Con una hipótesis claramente articulada, los resultados de sus pruebas divididas siempre le proporcionarán información valiosa del cliente.




Craig Sullivan ofrece el siguiente algoritmo para simplificar el proceso de hipótesis:

  1. Desde que recibimos (datos / comentarios),
  2. Esperamos que (cambio) cause (efecto).
  3. Lo mediremos utilizando (métrica de datos).


Hay una versión avanzada de este algoritmo:

  1. Desde que recibimos (datos cualitativos y cuantitativos),
  2. Esperamos que (cambio) para (población) cause (efecto [s]).
  3. Esperamos ver (cambio en las métricas de datos) para el período (X ciclos comerciales).


Problemas técnicos


La parte más entretenida de las pruebas ha llegado: finalmente puede elegir una herramienta para ello.

Muchos comienzan este problema primero, pero esto está lejos de ser lo más importante. La estrategia y las estadísticas son mucho más importantes.

Sin embargo, hay varias características de las herramientas que debe tener en cuenta. Se dividen en dos categorías principales: herramientas del lado del servidor o del lado del cliente.

Las herramientas del servidor muestran el código de nivel del servidor. Envían una versión aleatoria de la página al espectador sin cambios en el navegador del visitante. Las herramientas del lado del cliente envían la misma página, pero JavaScript en el navegador del cliente controla la apariencia de la página original y su variante.

Las herramientas de prueba del lado del cliente incluyen Optimizely, VWO y Adobe Target. Conductrics le permite usar ambos métodos, y SiteSpect usa proxies.
¿Qué significa todo esto para usted? Si desea ahorrar tiempo, su equipo es pequeño o no tiene recursos para el desarrollo, las herramientas del lado del cliente lo ayudarán a comenzar más rápido. Las herramientas del lado del servidor requieren recursos de desarrollo; sin embargo, generalmente son más confiables.

Aunque la configuración de la prueba es ligeramente diferente según la herramienta que use, a menudo todo el proceso es muy simple y cualquiera puede manejarlo, solo siga las instrucciones.

Además, debe establecer objetivos. Su herramienta de prueba hará un seguimiento cuando cada opción de página convierta a los visitantes en clientes.



Al configurar pruebas A / B, las siguientes habilidades son útiles: HTML, CSS y JavaScript / JQuery, así como la capacidad de crear textos y diseñar nuevas variaciones de página. Algunas herramientas le permiten usar un editor visual, pero limita su flexibilidad y control.

¿Cómo analizar los resultados de las pruebas A / B?


Entonces, finalmente investigaste, configuraste la prueba correctamente y la condujiste. Ahora pasemos al análisis. No es tan simple: solo mirar el gráfico desde su herramienta de prueba no es suficiente.



Una cosa que siempre debe hacer: analizar los resultados de sus pruebas en Google Analytics. Por lo tanto, no solo amplía sus capacidades de análisis, sino que también tiene más confianza en sus datos y en la toma de decisiones.

Es posible que su herramienta de prueba no escriba datos correctamente. A menos que tenga otra fuente de información, nunca puede estar seguro de si confiar en ella. Crea múltiples fuentes de datos.

¿Qué sucede si no hay diferencia entre las variaciones? Tome su tiempo. Primero, reconoce dos cosas:

  1. Su hipótesis puede ser cierta, pero la implementación resultó ser incorrecta.
  2. Suponga que su investigación cualitativa indica un problema de seguridad. ¿Cuántas veces puedes mejorar tu percepción de seguridad? Cantidad ilimitada
  3. Utilice las pruebas iterativas si desea probar algo y compare varias iteraciones.
  4. Incluso en ausencia de una diferencia tangible en general, la variación puede exceder la página original en algunos aspectos.


Si observa un aumento en la eficiencia entre los visitantes habituales y móviles, pero no para los nuevos visitantes y usuarios de escritorio, estos segmentos pueden cancelarse entre sí, dando la impresión de que "no hay diferencia". Analice su prueba en segmentos clave para explorar esta oportunidad.

Segmentación de datos para pruebas A / B


La segmentación es la clave para capitalizar los resultados de las pruebas A / B. A pesar de que B puede perder a A en los resultados generales, la variación puede derrotar a la página original en ciertos segmentos (tráfico orgánico, clics de Facebook, tráfico móvil, etc.).



Hay una gran cantidad de segmentos que puede analizar, incluidos los siguientes:

  • Tipo de navegador;
  • Tipo de fuente;
  • Computadora o dispositivo móvil o de escritorio;
  • Visitantes registrados y desconectados;
  • Campañas PPC / SEM
  • Regiones geográficas (ciudad, estado / provincia, país);
  • Visitantes nuevos y regulares;
  • Clientes nuevos y recurrentes;
  • Usuarios avanzados contra visitantes ocasionales;
  • Hombres versus mujeres
  • Rango de edad;
  • Clientes nuevos y ya presentados;
  • Tipos de planes o niveles de programa de fidelización;
  • Suscriptores actuales, potenciales y anteriores;
  • Roles (si, por ejemplo, su sitio ofrece los roles de comprador y vendedor).


Como último recurso (siempre que tenga un tamaño de muestra adecuado), preste atención a estos factores:

  • La popularidad de las versiones de escritorio y móviles;
  • Nuevos clientes versus repatriados;
  • Tráfico perdido


Asegúrese de tener un tamaño de muestra suficiente en el segmento. Calcule por adelantado y tenga cuidado si este segmento tiene menos de 250-350 conversiones por variación.
Si sus acciones han mostrado buenos resultados para un segmento en particular, puede pasar a un enfoque individual para estos usuarios.

Cómo archivar pruebas A / B realizadas


Las pruebas A / B son principalmente necesarias para recopilar información. Las pruebas estadísticamente correctas realizadas de acuerdo con las instrucciones ayudarán a lograr los objetivos principales de crecimiento y optimización.

Las compañías inteligentes archivan los resultados de las pruebas y mejoran constantemente los enfoques de prueba. Un enfoque estructurado para la optimización proporciona un mayor crecimiento y con menos frecuencia está limitado por las restricciones locales.



La parte más difícil es esta: no existe una mejor manera de estructurar la gestión del conocimiento. Algunas compañías usan herramientas integradas sofisticadas; algunos usan herramientas de terceros; y algunos vienen con Excel y Trello.
Aquí hay tres herramientas diseñadas específicamente para optimizar su conversión:

  • Iridion
  • Experimentos efectivos;
  • Proyectos de Growth Hackers.




Estadísticas obtenidas a través de pruebas A / B


El conocimiento de las estadísticas es útil para analizar los resultados de una prueba A / B. Examinamos algunos de ellos en la sección anterior, pero eso no es todo.

Hay tres conceptos que debe conocer antes de conocer los detalles de las estadísticas obtenidas a través de las pruebas A / B:

  1. Media. No medimos todas las tasas de conversión, sino solo la muestra. El promedio es solo un representante del todo.
  2. Dispersión. Una medida de la dispersión de los valores de una variable aleatoria en relación con su expectativa matemática. Afecta los resultados de la prueba y cómo los usamos.
  3. Selección. No podemos medir la tasa de conversión real, por lo que se elige una muestra representativa.


¿Qué es un valor P?


Muchas personas usan incorrectamente el término "significación estadística". Por sí solo, no es una señal para detener la prueba. Entonces, ¿qué es y por qué es tan importante?
Para comenzar, veamos los valores P, que también poca gente entiende. ¡Incluso los propios científicos a veces se confunden en ellos!

El valor P es un valor que caracteriza la probabilidad de error cuando se rechaza la hipótesis nula (errores del primer tipo). No prueba que la probabilidad B sea mayor que A. Este es un error común.



Para resumir, podemos decir que la significación estadística (o un resultado estadísticamente significativo) se logra cuando el valor P es menor que el nivel de significación estadística (que generalmente se establece en 0.05).

Pruebas unilaterales y bilaterales A / B


Una prueba unidireccional le permite detectar un cambio en una dirección, mientras que una prueba bidireccional le permite detectar un cambio en dos direcciones (tanto positivas como negativas).

No se preocupe si su software de prueba solo admite uno de los tipos de pruebas A / B. Si es necesario, una prueba unidireccional se convierte fácilmente en una prueba bidireccional y viceversa (sin embargo, esto debe hacerse antes de la prueba). La única diferencia es el nivel de significancia umbral.

Si su software usa una prueba unidireccional, simplemente divida el valor P usado en dos. Para garantizar que su prueba bidireccional sea confiable al menos en un 95%, establezca el nivel de confianza en 97.5%. Si desea lograr una confiabilidad del 99%, entonces debe seleccionar un valor del 99.5%.


La tasa de conversión no es solo X%. Se indica aproximadamente en esta forma: X% (± Y). El segundo número en esta fórmula es el intervalo de confianza, y es extremadamente importante para comprender los resultados de la prueba de división.



Los intervalos de confianza se utilizan en las pruebas A / B para minimizar el riesgo de errores de muestreo. En este sentido, gestionamos el riesgo asociado con la introducción de una nueva versión de la página.

Por lo tanto, si su herramienta muestra algo como: "Estamos 95% seguros de que la tasa de conversión es X% ± Y%", entonces debe considerar ± Y% como el margen de error.

La fiabilidad de los resultados depende en gran medida de la magnitud del error. Si los dos rangos de conversión se superponen, debe continuar con las pruebas para obtener un resultado que se parezca más a la verdad.

Amenazas a la validez externa.


Las pruebas divididas son complicadas por el hecho de que los datos no son estáticos.



Una serie temporal puede llamarse estacionaria solo si sus propiedades estadísticas (valor promedio, varianza, autocorrelación, etc.) son constantes en el tiempo. Por muchas razones, los datos del sitio web no son estacionarios. Por lo tanto, no podemos hacer los mismos supuestos que para los datos estacionarios. Aquí hay algunos factores que pueden hacer que los datos cambien:

  • Temporada;
  • Día de la semana;
  • Días festivos;
  • Referencias positivas o negativas en la prensa;
  • Otras campañas de marketing;
  • PPC / SEM;
  • SEO
  • Boca a boca.


Estos son solo algunos de los factores a considerar al analizar los resultados de las pruebas A / B.

Estadísticas bayesianas y de frecuencia


Muchas herramientas populares le permiten utilizar enfoques bayesianos y de frecuencia para las pruebas A / B. ¿Cuál es la diferencia?

En palabras simples, a una hipótesis se le asigna una probabilidad en las estadísticas bayesianas, y en las estadísticas de frecuencia se verifica sin asignar una probabilidad.

Cada enfoque tiene sus ventajas. Sin embargo, si recién está comenzando a comprender los conceptos básicos de las pruebas A / B, entonces debe ser el último en preocuparse por elegir una metodología.

Conclusión


Las pruebas A / B son un valioso depósito de información para todos los que toman decisiones en un entorno en línea. Con un poco de conocimiento y mucho esfuerzo, puede reducir los muchos riesgos que enfrentan la mayoría de los optimizadores novatos.

Al profundizar en el tema, puede adelantarse al 90% de las personas involucradas en análisis web. La experiencia y la práctica constante le permitirán dominar perfectamente este método de investigación. ¡Así que comienza a probar!

All Articles