Panduan Uji A / B Bagus

Ada banyak informasi di internet tentang pengujian A / B, tetapi banyak yang masih melakukannya dengan salah. Sangat mudah untuk membuat kesalahan, oleh karena itu studi tersebut memerlukan persiapan awal yang serius. Artikel ini membahas aspek-aspek utama pengujian A / B yang harus dipertimbangkan untuk analisis halaman web yang efektif.

Apa itu pengujian A / B?


Pengujian A / B (pengujian terpisah) membagi lalu lintas dalam rasio 50/50 antara versi halaman yang berbeda. Intinya, metode ini adalah nama baru untuk teknik lama yang dikenal sebagai "eksperimen terkontrol."

Untuk menguji efektivitas obat baru, para ahli melakukan tes split. Bahkan, sebagian besar eksperimen penelitian dapat disebut pengujian A / B. Mereka termasuk hipotesis, objek utama studi, variasi dan hasilnya, disajikan dalam bentuk data statistik.

Itu saja. Contohnya adalah pengujian A / B sederhana, di mana 50/50 lalu lintas dibagi antara halaman utama dan variasinya:



Dalam hal optimasi konversi, perbedaan utama adalah variabilitas lalu lintas Internet. Variabel eksternal lebih mudah dikendalikan di laboratorium. Di Internet, Anda dapat mengurangi dampaknya, tetapi membuat tes yang sepenuhnya terkontrol jauh lebih sulit.
Selain itu, pengujian obat baru membutuhkan tingkat akurasi tertentu. Kehidupan orang dipertaruhkan. Dari sudut pandang teknis, ini berarti bahwa pengujian dapat bertahan lebih lama, karena peneliti harus melakukan segala yang mungkin untuk menghindari jenis kesalahan pertama (false positive).

Namun, pengujian A / B sumber daya web dilakukan untuk mencapai tujuan bisnis. Hal ini diperlukan untuk analisis risiko dan imbalan, eksplorasi dan pengembangan, sains dan bisnis. Oleh karena itu, hasilnya dianggap dari sudut pandang yang berbeda, dan keputusan dibuat secara berbeda dari para peneliti di laboratorium.

Tentu saja, Anda dapat membuat lebih dari dua variasi halaman. Sebuah studi dengan beberapa elemen disebut pengujian A / B / n. Jika lalu lintas cukup, Anda dapat menguji sebanyak mungkin opsi yang diinginkan. Berikut adalah contoh pengujian A / B / C / D dengan lalu lintas yang dialokasikan untuk setiap variasi:



Pengujian A / B / n bagus untuk menerapkan beberapa variasi untuk menguji satu hipotesis. Namun, itu akan memerlukan lebih banyak lalu lintas karena harus dibagi menjadi lebih banyak halaman.

Terlepas dari popularitasnya, pengujian A / B hanyalah satu jenis penelitian online. Anda juga dapat melakukan tes multivarian atau menggunakan metode bandit multi-bersenjata.

Pengujian A / B, tes multivarian, dan metode bandit multi-bersenjata: apa bedanya?
Pengujian A / B / n adalah percobaan terkontrol yang membandingkan tingkat konversi halaman asli dan satu atau lebih variasinya.

Pengujian multivarian dilakukan pada beberapa versi halaman untuk menentukan atribut mana yang paling penting. Seperti halnya pengujian A / B / n, dokumen asli dibandingkan dengan variasi. Namun, setiap desain menggunakan elemen desain yang berbeda. Contohnya:



Setiap elemen memiliki use case khusus dan mempengaruhi kinerja halaman. Anda dapat memanfaatkan situs secara maksimal dengan cara berikut:

  • Lakukan pengujian A / B untuk menentukan opsi tata letak halaman terbaik.
  • Lakukan pengujian multivarian untuk meningkatkan tata letak dan memastikan bahwa semua elemen halaman berinteraksi dengan baik satu sama lain.


Anda perlu menarik sejumlah besar pengguna ke halaman yang diuji sebelum mempertimbangkan kemungkinan pengujian multivarian. Namun, ada lalu lintas yang cukup, kedua jenis penelitian harus digunakan untuk mengoptimalkan situs.
Sebagian besar agensi lebih suka pengujian A / B, karena klien mereka biasanya menguji perubahan signifikan (berpotensi lebih memengaruhi halaman). Selain itu, mereka lebih mudah dijalankan.

Metode bandit multi-bersenjata adalah A / B / n - tes yang diperbarui secara real time berdasarkan efektivitas masing-masing variasi.

Faktanya, algoritma bandit multi-senjata dimulai dengan mengirimkan lalu lintas ke dua (atau lebih) halaman: asli dan versinya. Kemudian diperbarui tergantung pada variasi mana yang paling efektif. Pada akhirnya, algoritme menentukan opsi terbaik yang mungkin:



Salah satu keuntungan dari metode bandit multi-bersenjata adalah bahwa ia mengurangi kerugian konversi yang Anda alami ketika menguji skenario yang berpotensi terburuk. Bagan ini dari Google menjelaskan semuanya dengan baik:



Baik metode bandit multi-bersenjata dan tes A / B / n memiliki kekuatan. Yang pertama sangat ideal untuk:

  • Judul dan kampanye jangka pendek;
  • Penskalaan otomatis;
  • Penargetan
  • Optimalisasi dan atribusi simultan.


Apa pun jenis pengujian yang Anda gunakan, penting untuk mencoba meningkatkan peluang Anda untuk berhasil. Dengan kata lain, semakin sering Anda menguji, semakin cepat konversi akan meningkat.



Cara meningkatkan hasil pengujian A / B


Jangan memperhatikan artikel seperti "99 hal yang dapat diuji menggunakan pengujian A / B." Ini buang-buang waktu dan lalu lintas. Hanya proses itu sendiri yang akan membantu Anda meningkatkan pendapatan.

Sekitar 74% pengoptimal dengan pendekatan konversi terstruktur juga melaporkan peningkatan penjualan. Sisanya sampai di sana, yang analis web Craig Sullivan menyebut "palung kekecewaan." (Kecuali jika hasilnya rusak oleh false positive, yang akan kita bahas nanti.)

Untuk efektivitas maksimum, struktur pengujian akan terlihat seperti ini:
  • Belajar;
  • Prioritas;
  • Percobaan;
  • Analisis, pelatihan, pengulangan.


Belajar


Untuk mengoptimalkan situs Anda, Anda perlu memahami apa dan mengapa pengguna Anda lakukan.
Namun, sebelum berpikir tentang pengujian, perkuat strategi Anda untuk menarik pengguna dan membangunnya. Jadi, Anda perlu:

  1. Tetapkan tujuan bisnis Anda.
  2. Tentukan tujuan situs web Anda.
  3. Identifikasi indikator kinerja utama Anda;
  4. Tentukan metrik target Anda.




Setelah Anda memahami apa yang ingin Anda capai, Anda dapat mulai mengumpulkan data yang diperlukan. Untuk ini, kami sarankan menggunakan Kerangka ResearchXL.
Berikut adalah daftar singkat proses yang digunakan oleh CXL:

  1. Analisis heuristik;
  2. Analisis teknis;
  3. Analisis data sistem analisis web;
  4. Analisis gerakan mouse;
  5. Jajak pendapat berkualitas;
  6. Pengujian pengguna.


Analisis heuristik adalah salah satu praktik pengujian A / B terbaik. Bahkan dengan pengalaman bertahun-tahun, sulit untuk memahami elemen halaman mana yang meningkatkan efektivitasnya. Namun, bidang peluang dapat diidentifikasi. Spesialis UX Craig Sullivan percaya:

β€œDalam pengalaman saya, pola-pola ini menyederhanakan pekerjaan, tetapi bukan kebenaran biasa. Mereka mengarahkan dan memberi tahu saya, tetapi tidak memberikan jaminan. ”


Jangan mengandalkan pola. Juga bermanfaat untuk memiliki kerangka kerja. Saat melakukan analisis heuristik, ada baiknya mengevaluasi setiap halaman sesuai dengan kriteria berikut:

  • Relevansi;
  • Kejelasan;
  • Nilai;
  • Gesekan;
  • Abstraksi.


Analisis teknis sering diabaikan. Namun, kesalahan (jika ada) mematikan konversi. Tampaknya bagi Anda bahwa situs Anda berfungsi baik dalam hal pengalaman dan fungsionalitas pengguna. Tetapi apakah ini bekerja sama baiknya dengan setiap browser dan perangkat? Mungkin tidak.

Analisis teknis sangat efektif dan tidak terlalu padat karya. Karena itu, Anda harus:

  • Lakukan pengujian lintas-browser dan lintas-platform.
  • Menganalisa kecepatan situs.


Berikutnya adalah analisis data dari sistem analisis web. Pertama-tama, pastikan semuanya berfungsi. Anda akan terkejut dengan jumlah pengaturan sistem analitik web yang diatur secara tidak benar.

Analisis gerak mouse mencakup peta panas, peta gulir, analisis bentuk, dan pengulangan sesi pengguna. Jangan terbawa oleh visualisasi warna-warni kartu klik. Pastikan analisis membantu Anda mendapatkan informasi yang Anda butuhkan untuk mencapai tujuan Anda.
Penelitian kualitatif memungkinkan Anda untuk memahami penyebab masalah. Banyak orang berpikir bahwa ini lebih sederhana daripada kuantitatif. Faktanya, penelitian kualitatif harus seakurat untuk memberikan informasi yang sama bermanfaatnya.

Untuk melakukan ini, perlu dilakukan:

  • Survei di situs;
  • Survei pelanggan;
  • Wawancara dengan klien dan grup fokus.


Akhirnya, pengujian pengguna dapat digunakan. Idenya sederhana: perhatikan bagaimana orang-orang nyata menggunakan situs web Anda dan berinteraksi dengannya sambil mengomentari tindakan mereka. Perhatikan apa yang mereka bicarakan dan apa yang mereka alami.

Setelah studi konversi menyeluruh, Anda akan memiliki banyak data. Langkah selanjutnya adalah memprioritaskan pengujian.

Bagaimana memprioritaskan hipotesis dalam pengujian A / B


Ada banyak kerangka kerja untuk memprioritaskan tes A / B Anda. Selain itu, Anda dapat melakukan ini berdasarkan metode Anda sendiri. Craig Sullivan memprioritaskan sebagai berikut:

Setelah menyelesaikan semua enam tahap yang dijelaskan di atas, Anda akan menemukan masalah - baik serius maupun kecil. Bagikan setiap temuan ke dalam satu dari lima kategori:

  1. Pengujian: Segala sesuatu yang perlu diuji akan dikirim ke kategori ini.
  2. Alat. Kategori ini termasuk memperbaiki, menambah atau meningkatkan pemrosesan tag / acara dalam analitik.
  3. Hipotesis: Kategori ini mendefinisikan halaman, widget atau proses yang tidak berfungsi dengan baik dan memerlukan penanganan kesalahan.
  4. Lakukan saja. Gunakan kategori ini untuk tugas yang hanya perlu dilakukan.
  5. Belajar: Jika suatu tugas termasuk dalam kategori ini, Anda harus menggali lebih dalam untuk menyelesaikannya.


Nilai setiap masalah dari 1 hingga 5 bintang (1 = minor, 5 = kritis). Saat mengevaluasi, dua kriteria berikut ini paling penting:

  1. Kemudahan implementasi (waktu / kompleksitas / risiko). Terkadang data memberi tahu Anda untuk membuat fungsi yang membutuhkan waktu berbulan-bulan untuk berkembang. Jangan mulai bekerja dengannya.
  2. Kesempatan. Mengevaluasi pertanyaan secara subyektif tergantung pada seberapa besar peningkatan atau perubahan yang dapat mereka timbulkan.


Buat spreadsheet dengan semua data Anda. Anda akan mendapatkan skema pengujian terpisah dengan prioritas yang ditetapkan.

Kami telah membuat model prioritas kami sendiri untuk membuat seluruh proses seobjektif mungkin. Ini menyiratkan entri data wajib ke dalam tabel. Model ini disebut PXL dan terlihat seperti ini:



Unduh salinan template spreadsheet ini di sini. Cukup klik File> Buat Salin untuk mendapatkan semua yang Anda butuhkan.


Alih-alih memprediksi keefektifan suatu perubahan, kerangka kerja ini menanyakan serangkaian pertanyaan tentang hal itu:

  • Apakah ada perubahan signifikan? Pembaruan besar akan melihat lebih banyak orang. Karena itu, perubahan akan memiliki dampak yang lebih besar pada halaman.
  • Apakah mungkin untuk melihat perubahan dalam 5 detik? Perlihatkan grup orang halaman, dan kemudian variasinya. Apakah mereka akan melihat perbedaan dalam 5 detik? Jika tidak, perubahan itu tidak akan berdampak besar.
  • Apakah perubahan menambah atau menghapus sesuatu? Perubahan besar, seperti mengurangi gangguan atau menambahkan informasi penting, biasanya sangat memengaruhi halaman.
  • Apakah tes berfungsi pada halaman dengan traffic tinggi? Memperbaiki halaman dengan banyak lalu lintas memberikan keuntungan besar.


Banyak variabel tes potensial memerlukan data untuk memprioritaskan hipotesis Anda. Diskusi mingguan yang menanyakan empat pertanyaan berikut akan membantu Anda memprioritaskan pengujian berdasarkan data daripada pendapat:

  • Apakah masalah yang terdeteksi selama pengujian pengguna dapat diatasi?
  • Apakah masalah ditemukan melalui umpan balik kualitas (polling, polling, wawancara) yang diatasi?
  • Apakah hipotesis didukung oleh pelacakan mouse, heatmap, atau pelacakan mata?
  • Apakah masalah yang ditemukan melalui analisis digital diselesaikan?


Penilaian PXL


Kami menggunakan skala biner: Anda harus memilih satu peringkat dari dua. Jadi, untuk sebagian besar variabel (kecuali jika dinyatakan lain) Anda memilih 0 atau 1.
Namun, kami juga ingin mengurutkan variabel berdasarkan kepentingan. Untuk melakukan ini, kami secara khusus menjelaskan elemen halaman mana yang berubah.

Kemampuan penyesuaian


Kami menciptakan model ini, dengan keyakinan bahwa Anda dapat dan harus mengatur variabel tergantung pada tujuan bisnis Anda.

Misalnya, jika Anda bekerja dengan tim branding atau pengalaman pengguna dan hipotesisnya harus konsisten dengan rekomendasi merek, tambahkan mereka sebagai variabel.
Anda mungkin bekerja di startup yang mesin penjualannya ditenagai oleh SEO. Mungkin pembiayaan Anda tergantung pada aliran pelanggan. Tambahkan kategori seperti "SEO tidak mengganggu" untuk mengubah beberapa judul atau teks.

Semua organisasi bekerja secara berbeda. Menyiapkan templat akan membantu memperhitungkan semua nuansa dan membuat program optimal untuk mengoptimalkan situs.

Kerangka apa pun yang Anda gunakan, buatlah jelas bagi setiap anggota tim, serta para pemegang saham perusahaan.

Berapa lama tes A / B berlangsung?


Aturan pertama: jangan menghentikan tes hanya karena menjadi signifikan secara statistik. Ini mungkin kesalahan paling umum yang dilakukan oleh pengoptimal pemula.

Jika Anda berhenti menguji terlalu cepat, Anda akan menemukan bahwa sebagian besar perubahan tidak mengarah pada peningkatan pendapatan (yang merupakan tujuan utama).
Perhatikan statistik ini yang diperoleh setelah 1000 tes A / A (dilakukan untuk dua halaman yang identik):

  • 771 percobaan dari 1000 mencapai signifikansi 90%.
  • 531 percobaan dari 1000 mencapai signifikansi 95%.


Tes penghentian prematur meningkatkan risiko positif palsu.
Tentukan ukuran sampel dan lakukan pengujian selama beberapa minggu setidaknya dua siklus kerja berturut-turut.

Bagaimana cara menentukan ukuran sampel? Ada banyak alat hebat. Inilah cara Anda dapat menghitung ukuran sampel menggunakan alat Evan Miller:



Dalam contoh ini, kami telah mengindikasikan bahwa tingkat konversi adalah 3% dan kami ingin meningkatkan tingkat ini setidaknya 10%. Alat ini menyatakan bahwa 51.486 orang harus mengunjungi setiap variasi sebelum kita dapat melihat tingkat signifikansi statistik.

Selain tingkat signifikansi, ada kekuatan statistik. Kekuatan statistik mencoba menghindari kesalahan tipe II (false negative). Dengan kata lain, itu meningkatkan kemungkinan Anda akan menemukan elemen halaman paling efektif.

Ingat bahwa 80% daya adalah standar untuk alat pengujian A / B. Untuk mencapai level ini, Anda akan membutuhkan ukuran sampel yang besar, atau efek muluk, atau tes yang lebih lama.

Tidak ada angka ajaib


Banyak artikel mencantumkan angka ajaib (seperti "100 konversi" atau "1000 pengunjung") sebagai waktu terbaik untuk berhenti menguji. Namun, matematika tidak ada hubungannya dengan sihir. Faktanya, semuanya lebih rumit daripada heuristik sederhana seperti angka-angka ini. Inilah yang dikatakan Andrew Anderson dari Malwarebytes:

β€œSasaran Anda bukanlah sejumlah konversi. Anda harus berusaha mengumpulkan cukup data untuk menguji hipotesis berdasarkan sampel yang representatif dan perilaku yang representatif.

Seratus konversi hanya dimungkinkan dalam kasus yang paling langka dan dengan perbedaan perilaku yang sangat tinggi, tetapi hanya jika persyaratan lain dipenuhi - seperti perilaku waktu, konsistensi, dan distribusi normal. Pada saat yang sama, risiko kesalahan jenis pertama tetap sangat tinggi. "


Jadi, Anda perlu sampel yang representatif. Bagaimana cara mendapatkannya? Lakukan pengujian selama dua siklus ekonomi, yang akan membantu mengurangi pengaruh faktor-faktor eksternal seperti:

  • \ Hari dalam seminggu. Lalu lintas harian dapat sangat bervariasi tergantung pada hari dalam seminggu.
  • \ Sumber lalu lintas. Kecuali jika perlu mempersonalisasikan pengalaman untuk sumber tertentu.
  • \ Jadwalkan pengiriman nawala dan posting blog.
  • \ Pengunjung yang kembali. Orang-orang dapat mengunjungi situs Anda, memikirkan pembelian, dan kemudian kembali 10 hari kemudian untuk membuatnya.
  • Peristiwa eksternal. Misalnya, gaji pertengahan bulan dapat memengaruhi pembelian Anda.


Hati-hati dengan sampel kecil. Ada banyak studi kasus di Internet yang diisi dengan kesalahan matematika.

Segera setelah Anda mengatur semuanya, jangan melihat (dan jangan biarkan bos mengintip) pada hasil tes sampai selesai. Jika tidak, Anda dapat menarik kesimpulan prematur dengan "mendeteksi tren."

Regresi berarti


Anda akan sering melihat bahwa hasilnya sangat bervariasi dalam beberapa hari pertama tes. Selanjutnya, mereka akan bertemu dengan nilai rata-rata, karena tes berlanjut selama beberapa minggu. Berikut adalah contoh statistik situs e-commerce:



  • Beberapa hari pertama: biru (opsi nomor 3) menang dengan selisih. Variasi ini menghasilkan $ 16 per pengunjung dibandingkan dengan $ 12,50 yang dihasilkan oleh halaman asli. Banyak (secara tidak sengaja) akan mengakhiri pengujian pada saat ini.
  • Setelah 7 hari: versi biru halaman masih menang, dan perbedaan relatif cukup besar.
  • Setelah 14 hari: Versi oranye (No. 4) keluar di atas!
  • Setelah 21 hari: Versi oranye masih menang!
  • Akhir pengujian: tidak ada perbedaan antara opsi.


Jika Anda menyelesaikan tes sebelum minggu keempat, Anda akan membuat kesimpulan yang salah.

Ada masalah serupa: efek kebaruan. Kebaruan perubahan Anda (misalnya, tombol biru besar) menarik lebih banyak perhatian ke opsi halaman. Seiring waktu, efek ini menghilang, karena perubahan secara bertahap akan berhenti menjadi relevan.

Bisakah saya menjalankan beberapa tes A / B secara bersamaan?


Anda ingin mempercepat program pengujian Anda dan menjalankan lebih banyak tes. Namun, apakah mungkin untuk menjalankan lebih dari satu tes A / B sekaligus? Apakah ini akan meningkatkan potensi pertumbuhan Anda atau mendistorsi data?

Beberapa ahli berpendapat bahwa melakukan beberapa tes sekaligus adalah salah. Ada yang bilang semuanya beres. Dalam kebanyakan kasus, Anda tidak akan mengalami masalah saat melakukan beberapa tes simultan.

Jika Anda tidak menguji hal-hal yang benar-benar penting (misalnya, sesuatu yang mempengaruhi model bisnis Anda dan masa depan perusahaan), maka manfaat volume pengujian mungkin akan lebih besar daripada kelemahan dalam data Anda dan kesalahan positif acak.
Jika ada risiko interaksi yang tinggi antara beberapa tes, kurangi jumlah tes simultan dan / atau biarkan tes berjalan lebih lama untuk meningkatkan akurasi.

Cara mengatur tes A / B


Setelah menyusun daftar gagasan pengujian dengan prioritas yang diprioritaskan, perlu dirumuskan hipotesis dan melakukan percobaan. Dengan hipotesis Anda menentukan untuk alasan apa masalah muncul. Selain itu, hipotesis yang baik:

  • Diverifikasi. Ini bisa diukur, sehingga bisa diperiksa.
  • Memecahkan masalah konversi. Pengujian terpisah memecahkan masalah konversi.
  • Memberikan wawasan pasar. Dengan hipotesis yang diartikulasikan dengan jelas, hasil pengujian terpisah Anda akan selalu memberi Anda informasi pelanggan yang berharga.




Craig Sullivan menawarkan algoritma berikut untuk menyederhanakan proses hipotesis:

  1. Karena kami menerima (data / umpan balik),
  2. Kami berharap bahwa (perubahan) akan menyebabkan (efek).
  3. Kami akan mengukurnya menggunakan (metrik data).


Ada versi lanjutan dari algoritma ini:

  1. Karena kami menerima (data kualitatif dan kuantitatif),
  2. Kami berharap bahwa (perubahan) untuk (populasi) akan menyebabkan (efek [s]).
  3. Kami berharap untuk melihat (perubahan dalam metrik data) untuk periode tersebut (siklus bisnis X).


Masalah teknis


Bagian paling menghibur dari pengujian telah datang: Anda akhirnya dapat memilih alat untuk itu.

Banyak yang memulai masalah ini terlebih dahulu, tetapi ini jauh dari hal yang paling penting. Strategi dan statistik jauh lebih penting.

Namun, ada beberapa fitur alat yang harus Anda waspadai. Mereka jatuh ke dalam dua kategori utama: alat sisi-server atau sisi klien.

Alat server menampilkan kode level server. Mereka mengirim versi halaman secara acak ke pemirsa tanpa perubahan pada browser pengunjung. Alat sisi klien mengirim halaman yang sama, tetapi JavaScript di browser klien mengontrol tampilan halaman asli dan variannya.

Alat pengujian sisi klien termasuk Optimizely, VWO, dan Adobe Target. Conductrics memungkinkan Anda untuk menggunakan kedua metode, dan SiteSpect menggunakan proksi.
Apa arti semua ini bagi Anda? Jika Anda ingin menghemat waktu, tim Anda kecil atau Anda tidak memiliki sumber daya untuk pengembangan, alat sisi klien akan membantu Anda memulai lebih cepat. Alat sisi server memerlukan sumber daya pengembangan - namun, mereka umumnya lebih dapat diandalkan.

Meskipun pengaturan pengujian sedikit berbeda tergantung pada alat yang Anda gunakan, seringkali seluruh proses ini sangat sederhana dan siapa pun dapat menanganinya - cukup ikuti instruksi.

Selain itu, Anda perlu menetapkan tujuan. Alat pengujian Anda akan melacak ketika setiap opsi halaman mengubah pengunjung menjadi pelanggan.



Saat menyiapkan tes A / B, keterampilan berikut berguna: HTML, CSS, dan JavaScript / JQuery, serta kemampuan untuk membuat teks dan merancang variasi halaman baru. Beberapa alat memungkinkan Anda menggunakan editor visual, tetapi membatasi fleksibilitas dan kontrol Anda.

Bagaimana cara menganalisis hasil tes A / B?


Jadi, Anda akhirnya melakukan penelitian, mengatur tes dengan benar dan melakukannya. Sekarang mari kita beralih ke analisis. Ini tidak sesederhana itu - hanya dengan melihat grafik dari alat pengujian Anda tidak cukup.



Satu hal yang harus selalu Anda lakukan: menganalisis hasil pengujian Anda di Google Analytics. Jadi Anda tidak hanya memperluas kemampuan analisis Anda, tetapi juga menjadi lebih percaya diri dalam data dan pengambilan keputusan Anda.

Alat uji Anda mungkin tidak menulis data dengan benar. Kecuali Anda memiliki sumber informasi lain, Anda tidak akan pernah yakin apakah akan mempercayainya. Buat banyak sumber data.

Apa yang terjadi jika tidak ada perbedaan di antara variasi? Gunakan waktumu. Pertama, kenali dua hal:

  1. Hipotesis Anda mungkin benar, tetapi implementasinya ternyata salah.
  2. Misalkan penelitian kualitatif Anda menunjukkan masalah keamanan. Berapa kali Anda dapat meningkatkan persepsi Anda tentang keamanan? Kuantitas tidak terbatas.
  3. Gunakan pengujian berulang jika Anda ingin menguji sesuatu, dan bandingkan beberapa iterasi.
  4. Bahkan tanpa adanya perbedaan nyata secara umum, variasi dapat melebihi halaman asli dalam beberapa hal.


Jika Anda melihat peningkatan efisiensi di antara pengunjung reguler dan seluler, tetapi tidak untuk pengunjung baru dan pengguna desktop, segmen ini dapat membatalkan satu sama lain, memberi kesan bahwa "tidak ada perbedaan". Analisis pengujian Anda di seluruh segmen utama untuk menjelajahi peluang ini.

Segmentasi data untuk tes A / B


Segmentasi adalah kunci untuk memanfaatkan hasil pengujian A / B. Terlepas dari kenyataan bahwa B dapat kehilangan A dalam hasil keseluruhan, variasi dapat mengalahkan halaman asli di segmen tertentu (lalu lintas organik, klik Facebook, lalu lintas seluler, dll.).



Ada banyak segmen yang dapat Anda analisis, termasuk yang berikut:

  • Jenis browser;
  • Jenis sumber;
  • Komputer atau perangkat seluler atau desktop;
  • Pengunjung terdaftar dan keluar;
  • Kampanye PPC / SEM
  • Wilayah geografis (kota, negara bagian / provinsi, negara);
  • Pengunjung baru dan reguler;
  • Pelanggan baru dan berulang;
  • Pengguna mahir melawan pengunjung biasa;
  • Pria versus wanita
  • Rentang usia;
  • Petunjuk baru dan sudah disajikan;
  • Jenis rencana atau tingkat program loyalitas;
  • Pelanggan saat ini, potensial, dan mantan;
  • Peran (jika, misalnya, situs Anda menawarkan peran pembeli dan penjual).


Sebagai upaya terakhir (asalkan Anda memiliki ukuran sampel yang memadai), perhatikan faktor-faktor ini:

  • Popularitas versi desktop dan seluler;
  • Pelanggan baru versus yang kembali;
  • Lalu lintas hilang.


Pastikan Anda memiliki ukuran sampel yang cukup di segmen tersebut. Hitung terlebih dahulu, dan berhati-hatilah jika segmen ini memiliki kurang dari 250-350 konversi per variasi.
Jika tindakan Anda menunjukkan hasil yang baik untuk segmen tertentu, Anda dapat beralih ke pendekatan individual untuk pengguna ini.

Cara mengarsipkan tes A / B yang dilakukan


Pengujian A / B terutama diperlukan untuk mengumpulkan informasi. Uji statistik yang benar yang dilakukan sesuai dengan instruksi akan membantu mencapai tujuan utama pertumbuhan dan optimalisasi.

Perusahaan pintar mengarsipkan hasil pengujian dan terus meningkatkan pendekatan pengujian. Pendekatan terstruktur untuk optimasi memberikan pertumbuhan yang lebih besar dan lebih jarang dibatasi oleh kendala lokal.



Bagian tersulit adalah ini: tidak ada satu pun cara terbaik untuk menyusun manajemen pengetahuan. Beberapa perusahaan menggunakan alat bawaan yang canggih; beberapa menggunakan alat pihak ketiga; dan beberapa datang dengan Excel dan Trello.
Berikut adalah tiga alat yang dirancang khusus untuk mengoptimalkan konversi Anda:

  • Iridion;
  • Eksperimen yang efektif;
  • Proyek Hacker Pertumbuhan.




Statistik diperoleh melalui tes A / B


Pengetahuan statistik berguna dalam menganalisis hasil uji A / B. Kami memeriksa beberapa di antaranya pada bagian di atas, tetapi itu belum semuanya.

Ada tiga konsep yang harus Anda ketahui sebelum mempelajari detail statistik yang diperoleh melalui tes A / B:

  1. Berarti. Kami tidak mengukur semua tingkat konversi, tetapi hanya sampel. Rata-rata hanya mewakili keseluruhan.
  2. Penyebaran. Ukuran sebaran nilai-nilai variabel acak relatif terhadap ekspektasi matematisnya. Itu mempengaruhi hasil tes dan bagaimana kita menggunakannya.
  3. Pilihan. Kami tidak dapat mengukur tingkat konversi yang sebenarnya, jadi sampel yang representatif dipilih.


Apa itu nilai-P?


Banyak orang salah menggunakan istilah "signifikansi statistik". Dengan sendirinya, ini bukan sinyal untuk menghentikan pengujian. Jadi apa itu dan mengapa itu begitu penting?
Untuk memulainya, mari kita lihat nilai-P, yang juga hanya sedikit orang mengerti. Bahkan para ilmuwan sendiri kadang-kadang bingung di dalamnya!

Nilai-P adalah nilai yang menandai probabilitas kesalahan ketika hipotesis nol ditolak (kesalahan jenis pertama). Itu tidak membuktikan bahwa probabilitas B lebih tinggi dari A. Ini adalah kesalahpahaman umum.



Untuk meringkas, kita dapat mengatakan bahwa signifikansi statistik (atau hasil signifikan secara statistik) dicapai ketika nilai-P kurang dari tingkat signifikansi statistik (yang biasanya ditetapkan ke 0,05).

Tes A / B unilateral dan bilateral


Tes satu arah memungkinkan Anda mendeteksi perubahan dalam satu arah, sedangkan tes dua arah memungkinkan Anda mendeteksi perubahan dalam dua arah (baik positif maupun negatif).

Jangan khawatir jika perangkat lunak pengujian Anda hanya mendukung salah satu jenis tes A / B. Jika perlu, tes satu arah mudah dikonversi ke tes dua arah dan sebaliknya (namun, ini harus dilakukan sebelum tes). Satu-satunya perbedaan adalah tingkat signifikansi ambang batas.

Jika perangkat lunak Anda menggunakan uji satu arah, cukup bagi nilai-P yang digunakan menjadi dua. Untuk memastikan bahwa tes dua arah Anda dapat diandalkan setidaknya 95%, tetapkan tingkat kepercayaan pada 97,5%. Jika Anda ingin mencapai keandalan 99%, maka Anda harus memilih nilai 99,5%.


Tingkat konversi tidak hanya X%. Diindikasikan kira-kira dalam formulir ini: X% (Β± Y). Angka kedua dalam rumus ini adalah interval kepercayaan, dan sangat penting untuk memahami hasil tes split.



Interval kepercayaan digunakan dalam pengujian A / B untuk meminimalkan risiko kesalahan pengambilan sampel. Dalam hal ini, kami mengelola risiko yang terkait dengan pengenalan versi halaman baru.

Karena itu, jika alat Anda menunjukkan sesuatu seperti: "Kami 95% yakin bahwa tingkat konversi adalah X% Β± Y%," maka Anda perlu mempertimbangkan Β± Y% sebagai margin kesalahan.

Keandalan hasil sangat tergantung pada besarnya kesalahan. Jika kedua rentang konversi tumpang tindih, Anda perlu melanjutkan pengujian untuk mendapatkan hasil yang lebih mirip kebenaran.

Ancaman terhadap validitas eksternal


Tes terpisah dipersulit oleh fakta bahwa data tidak statis.



Rangkaian waktu dapat disebut stasioner hanya jika sifat statistiknya (nilai rata-rata, varians, autokorelasi, dll.) Konstan dalam waktu. Karena berbagai alasan, data situs web tidak stasioner. Oleh karena itu, kami tidak dapat membuat asumsi yang sama dengan data stasioner. Berikut adalah beberapa faktor yang dapat menyebabkan data berubah:

  • Musim;
  • Hari di minggu ini;
  • Liburan;
  • Referensi positif atau negatif di media;
  • Kampanye pemasaran lainnya;
  • PPC / SEM;
  • SEO
  • Dari mulut ke mulut.


Ini hanya beberapa faktor yang perlu dipertimbangkan ketika menganalisis hasil tes A / B.

Bayesian dan statistik frekuensi


Banyak alat yang populer memungkinkan Anda untuk menggunakan pendekatan Bayesian dan frekuensi untuk pengujian A / B. Apa bedanya?

Dengan kata-kata sederhana, suatu probabilitas diberikan pada hipotesis dalam statistik Bayesian, dan dalam statistik frekuensi, dicek tanpa menentukan probabilitas.

Setiap pendekatan memiliki kelebihannya. Namun, jika Anda baru mulai memahami dasar-dasar pengujian A / B, maka Anda harus menjadi yang terakhir yang khawatir tentang memilih metodologi.

Kesimpulan


Pengujian A / B adalah gudang informasi yang sangat berharga bagi semua orang yang membuat keputusan dalam lingkungan online. Dengan sedikit pengetahuan dan banyak usaha, Anda dapat mengurangi banyak risiko yang dihadapi kebanyakan pengoptimal pemula.

Dengan mempelajari topik ini, Anda bisa unggul dari 90% orang yang terlibat dalam analisis web. Pengalaman dan praktik terus-menerus akan memungkinkan Anda untuk menguasai metode penelitian ini dengan sempurna. Jadi mulailah menguji!

All Articles