Weave testing - 100 kali lebih cepat dari tes AB

Pengujian A / B adalah salah satu alat utama manajemen produk, sejauh ini mereka belum menemukan cara yang lebih andal dan murah untuk secara andal mengevaluasi dampak dari satu perubahan spesifik pada metrik bisnis produk, mengisolasinya dari semua faktor lain.

Dalam artikel ini saya ingin berbicara tentang metode alternatif pengujian perubahan dalam suatu produk: pengujian interlacing, dalam literatur bahasa Inggris - pengujian interleaving. Untuk mengungkap kelebihan dan kekurangannya, kami akan membandingkannya secara pribadi dengan tes A / B tradisional, tetapi bukan karena itu adalah semacam metode baru yang lebih maju, yang lebih cepat dan lebih akurat, dan harus mengganti tes A / B. Ini adalah alat tambahan untuk manajer produk dengan bidang aplikasi yang berbeda dan menjawab pertanyaan yang berbeda.Pembandingan membuatnya mudah untuk menunjukkan perbedaan dan kekuatan pengujian dengan menganyam.

Ringkasan:

  • Mengapa menenun lebih cepat daripada tes A / B
  • Kapan bisa menenun tes menenun?
  • Apa perbedaan antara uji A / B dan hasil tenunan
  • Cara menggabungkan kekuatan tenun dan uji A / B

Mengapa pengujian tenunan jauh lebih cepat daripada pengujian A / B


Dalam berbagai upaya untuk menyampaikan kepada para kolega dan manajer produk ide dasar tenun, saya sampai pada kesimpulan bahwa contoh berikut menggambarkan yang terbaik. Luangkan waktu sejenak untuk memasuki konteks, saya berjanji bahwa pada akhir contoh Anda akan setuju bahwa ini sangat jelas.

Misalkan kita perlu menentukan soda apa yang perlu ditawarkan di bar kita untuk menjual minuman sebanyak mungkin: Coca-Cola atau Pepsi. Jika kita mendekati solusi ini dari sudut pandang pengujian A / B, maka kita harus membuka dua bilah yang benar-benar identik di mana salah satunya hanya ada cola, di satunya Pepsi, dan mengarahkan pengunjung ke salah satu bilah ini secara acak.

gambar

Kemudian kami membandingkan pengunjung mana dari bar yang memesan minuman terbanyak yang tersedia di sana, dan menyimpulkan minuman mana yang memberikan pendapatan terbesar.

Saya pikir Anda sudah melihat apa masalahnya: begitu banyak pengunjung ke bar di mana mereka tidak memiliki minuman favorit mereka masih akan memesan apa yang mereka berikan, karena mereka masih ingin minum. Dan hanya sedikit yang akan berprinsip pada preferensi mereka sehingga mereka tidak akan minum sama sekali atau minum jauh lebih sedikit. Pengunjung yang tidak terlalu penting mengurangi sensitivitas pengujian kami terhadap preferensi untuk minuman, karena mereka sebenarnya tidak akan memberi kami sinyal apa pun tentang perilaku mereka.

Bagaimana mengatasi masalah yang sama dengan menenun? Jika kami memiliki kemampuan fisik untuk menawarkan kepada pengguna kedua opsi yang dibandingkan secara bersamaan dan melihat mana yang mereka sukai, kami dapat dengan cepat mengidentifikasi preferensi mereka yang sebenarnya.

gambar

Jika kita menerapkan jalinan antar metafora kita dengan sebuah bar, maka kita akan meletakkan dua keran di konter dan hanya melihat minuman mana yang paling banyak dipesan oleh pengunjung. Saya pikir Anda secara intuitif merasa bahwa tes ini akan memberi kami hasil yang signifikan lebih cepat, karena setiap pesanan akan menjadi "suara" yang mendukung satu atau opsi lain, sedangkan dalam tes A / B hanya perbedaan dalam jumlah pesanan adalah sinyal.

Dalam sebuah artikel di Netflix Tech Blogmemberikan bukti bahwa menenun 100 kali lebih cepat dari A / B menentukan preferensi pengguna. Sayangnya, saya tidak dapat mempublikasikan pengalaman pribadi saya tentang menenun, tetapi dalam kasus saya penilaian ini dikonfirmasi, menenun dengan hampir semua lalu lintas yang masuk akal akan memberikan hasil yang signifikan dalam waktu kurang dari 24 jam. Namun, melakukan durasi tes selama kurang dari satu hari masih tidak berhasil, karena itu perlu untuk memastikan keterwakilan sampel (pagi, siang dan sore pengunjung dapat memiliki pola perilaku yang berbeda, mari kita abaikan siklus mingguan).

Kapan bisa menenun menenun


Awalnya, tenun diciptakan untuk pengujian peringkat: jika Anda memiliki serangkaian objek (produk di toko online, atau tautan ke halaman di Internet untuk mesin pencari) dan Anda perlu mengurutkannya sehingga barang yang paling cocok dengan permintaan pengguna ada di atas.

Jika Anda memiliki dua algoritma peringkat dan Anda ingin membandingkannya, maka Anda tidak dapat menunjukkan kepada pengguna peringkat A atau peringkat B, tetapi perlihatkan halaman yang akan terlihat seperti:

A1 B1 A2 B2 A3 B3 ... dan seterusnya, di mana A2 - ini adalah baris kedua yang dikeluarkan oleh algoritma peringkat A, dan B3 adalah baris ketiga dalam peringkat B.

gambarIlustrasi menenun dari sebuah artikel di Netflix Tech Blog

Kehalusan implementasi
:
  • , ,
  • : , ?
  • ,
  • , , A/B


Kami mengarahkan semua lalu lintas yang tersedia ke peringkat yang saling terkait ini dan mempertimbangkan hasil yang dihasilkan dari mana dari dua algoritma yang menerima lebih banyak klik atau memungkinkan kami untuk mendapatkan lebih banyak tindakan yang ditargetkan lebih rendah dalam corong konversi.

Bahkan, ada banyak elemen yang sebenarnya merupakan hasil rangking dalam produk, saya akan memberikan contoh:

  • Daftar produk atau katalog bagian pada halaman utama situs
  • Daftar produk dalam suatu bagian atau sebagai respons terhadap permintaan pencarian
  • Daftar artikel tentang sumber berita
  • "Iklan serupa"
  • "Mereka juga membeli dengan produk ini."
  • Artikel di bagian Bantuan
  • Setiap daftar elemen: teman di sosial. jaringan, posting di kaset, musik di halaman, film di bioskop
  • dll

Dan semua elemen ini dapat dan harus diuji menggunakan menenun. Interweaving memungkinkan Anda untuk menguji tidak satu pun algoritma alternatif untuk memilih rekomendasi per minggu, tetapi untuk menguji tujuh hipotesis per minggu.

Apa perbedaan antara uji A / B dan uji tenunan


Saat kami melakukan tes A / B, kami dapat mengukur dampak dari perubahan pengalaman pengguna pada metrik yang kami minati, yang kami pertimbangkan dalam konteks satu pengguna. Dari konversi ke penjualan ke jumlah panggilan dukungan.

Tes interlacing memungkinkan kita untuk membandingkan hanya peristiwa-peristiwa yang dapat secara langsung dikaitkan dengan klik pada salah satu opsi terjalin. Tetapi perbandingan ini tidak memungkinkan kami untuk menjawab pertanyaan "apa yang akan terjadi jika kami mengganti A dengan B dalam produk kami" karena kami tidak tahu apa yang akan terjadi jika pengguna hanya melihat B. pengalaman.

Oleh karena itu, menenun disarankan untuk digunakan sebagai tahap awal untuk memilih hipotesis yang paling menjanjikan, yang sudah masuk akal untuk melakukan tes A / B yang lebih lama untuk memeriksa bagaimana perubahan ini mempengaruhi metrik target.

Sangat sering ternyata bahwa peningkatan algoritme tidak memengaruhi metrik bisnis, tetapi setidaknya Anda yakin bahwa pengalaman pengguna telah menjadi lebih baik, dan sekarang Anda tahu blok mana yang kemungkinan besar tidak berguna untuk dioptimalkan dalam upaya meningkatkan metrik yang ditargetkan untuk Anda.

Kekuatan dan kelemahan tenun


Mari meringkas pro dan kontra dari tes menenun.

Minus


  • , : - - A . , , , .
  • , , , A/B .
  • , , , , .


  • - ( , , . ).
  • ( Netflix 100 , ).
  • . , , , , ยซยป , .


  1. Netflix, , 100 A/B
  2. Artikel yang lebih ilmiah menggambarkan stat. metode untuk menginterpretasikan hasil tes dengan menenun (Chapelle, O., Joachims, T., Radlinski, F., dan Yue, Y. 2012. Validasi skala besar dan analisis evaluasi pencarian yang saling terkait. ACM Trans. Inf. Syst. 30, 1, Pasal 6 (Februari 2012)

All Articles