Peningkatan sensitivitas tes A / B dengan Cuped. Laporkan dalam Yandex

CUPED (Eksperimen Terkendali Menggunakan Data Pra-Eksperimen) adalah teknik eksperimen A / B yang telah digunakan dalam produksi relatif baru-baru ini. Ini memungkinkan Anda untuk meningkatkan sensitivitas metrik melalui penggunaan data yang diperoleh sebelumnya. Semakin besar sensitivitas, perubahan yang lebih halus dapat diperhatikan dan diperhitungkan dalam percobaan. Perusahaan pertama yang memperkenalkan CUPED adalah Microsoft. Sekarang banyak perusahaan internasional menggunakan teknik ini. Dalam laporannya, Valery BabushkinVenhead menjelaskan apa arti CUPED itu dan hasil apa yang bisa dicapai, dan sebelum itu, ia memeriksa metode stratifikasi, yang juga meningkatkan sensitivitas.


- Nama saya Valery Babushkin, saya direktur pemodelan dan analisis data di X5 Retail Group dan penasihat di Yandex.Market. Di waktu senggang, saya mengajar di Sekolah Tinggi Ekonomi dan sering terbang ke Kazakhstan, saya mengajar di Bank Nasional Kazakhstan.

Selain itu, saya terbiasa menikmati pembelajaran mesin yang kompetitif. Pada platform Kaggle, saya pernah meraih gelar Grand Master Kompetisi dan 23 tempat di peringkat dunia 120 ribu. Kaggle dirancang dengan cara yang sangat sederhana: jika Anda tidak melakukan, Anda termasuk dalam peringkat. Jadi saya mencoba untuk tidak pergi ke sana lagi agar tidak melihat angka-angka ini.



Presentasi saya akan memiliki dua tahap: stratifikasi dan Kontrol Variasi. Kemungkinan besar, Anda tahu apa tes A / B dan mengapa itu diperlukan. Tetapi kami tidak akan melewatkan formula ini.



Dalam pengujian A / B, ada berbagai pendekatan. Pada prinsipnya, ini adalah dua pendekatan utama dalam statistik. Salah satunya disebut frekuensi, yang kedua adalah Bayesian. Dalam beberapa buku, misalnya, dalam Efron, pendekatan ketiga, Fisher, dipilih, tetapi kami tidak akan membicarakannya, atau tentang pendekatan Bayesian. Mari kita bicara tentang pendekatan frekuensi.

Ada satu rumus sederhana dalam pendekatan frekuensi. Ada dua di antaranya, tetapi yang satu mempertimbangkan kasus distribusi diskrit, yang lain menganggap distribusi kontinu, jadi kami akan menganggap ini sebagai satu formula.

Formula ini memberi tahu kita berapa banyak pengamatan yang dibutuhkan. Jika kami mampu mengumpulkan jumlah data yang tak terbatas, kami akan mendapatkan nilai sebenarnya untuk masing-masing distribusi, dan kemudian cukup membandingkan perkiraan titik mereka. Meskipun kita dapat membandingkan estimasi titik dari jumlah data yang tak terbatas - ini adalah pertanyaan, namun demikian. Kami akan mendapatkan distribusi yang benar, membandingkannya dan mengatakan mana yang lebih baik.

Sayangnya, kami tidak dapat melakukan ini, kami selalu memiliki batasan jumlah data yang dapat dikumpulkan. Ini disebabkan oleh jumlah pengguna kami, atau pada saat kami dapat mengumpulkan data ini, atau oleh fakta bahwa mereka hanya ingin mendapatkan hasilnya dari kami secepat mungkin.

Kita lihat di sini rumus yang sangat sederhana untuk n, di mana n adalah jumlah pengamatan yang diperlukan di masing-masing kelompok. Di pembilangz2dimana z2- Interval kepercayaan, tingkat keandalan yang ingin kami berikan hasilnya.

Tampak jelas ituzkami memperbaiki sekali dan tidak dapat mengubah lebih lanjut. Tentu saja, kita dapat mengatakan bahwa kita memberikan hasilnya dengan tingkat keandalan nol, dan kemudian kita membutuhkan pengamatan nol. Itu akan sangat nyaman, tetapi biasanya kita tidak melakukannya.

Lebih lanjut dalam pembilang, jika kita melihat rumus diskrit, adalahp^(1p^), yang sama dengan varian dari distribusi binomial. Dalam kasus kontinu, hal yang sama, σ 2 , yaitu varians. Dan tampaknya logis bahwa semakin besar variansnya, semakin banyak pengamatan yang kita butuhkan.

Penyebutnya mengandung m 2 atau margin of error - itu adalah perbedaan minimum yang ingin kita tangkap, dan di sini situasinya sebaliknya. Semakin kecil perbedaan yang ingin kita tangkap, semakin banyak pengamatan yang kita butuhkan. Artinya, itu seperti kesalahan.

Jika kita membutuhkan kesalahan 0,01, maka kita membutuhkan pengamatan 100 kali lebih banyak daripada jika kita membutuhkan kesalahan 0,1. Mereka berbeda sepuluh kali, tetapi ada ketergantungan kuadrat, ternyata diperlukan pengamatan 100 kali lebih banyak.

Saya pernah punya laporan tentang linierisasi. Hari ini saya akan mengatakan bagaimana kita dapat mengurangi varians, dan pada waktunya saya mengatakan bagaimana kita dapat meningkatkan m. Meningkatkan m tampaknya menjadi strategi yang lebih baik, karena meningkatkan m setengah mengurangi jumlah data yang dibutuhkan untuk perhitungan empat. Kenaikan berarti kesalahan yang bisa kita buat.

Dan jika kita mengurangi variansnya menjadi setengahnya, maka kita hanya perlu pengamatan dua kali lebih banyak. Oleh karena itu, untuk mengurangi sesuatu empat kali dalam penyebut adalah keuntungan 16 kali, dan empat kali dalam pembilang - hanya empat.

Namun, setiap pendekatan memiliki pro dan kontra. Saya kemudian bisa mengatakan lebih detail mana. Kami sekarang beralih ke mengurangi varians.

Stratifikasi. Kebetulan, saya akan memiliki hasil percobaan di setiap bagian di akhir, apa yang kami dapatkan pada data nyata di lingkungan nyata.



Jadi, mari kita bicara tentang stratifikasi. Apa yang kita tahu Kita tahu bahwa mengurangi varians mengurangi jumlah pengamatan. Misalkan metrik yang diinginkan, yang digunakan untuk menganalisis, dapat dibagi menjadi beberapa wilayah, dengan pengelompokan. Pertanyaan yang sangat bagus yang telah diajukan: bagaimana cara memecahnya? Oleh negara? Atau mungkin di browser? Mungkin masuk ke sistem operasi? Mungkin pengguna yang masuk dengan Mac, Windows, dan Linux adalah tiga jenis pengguna yang berbeda.

Jika kita menemukan jumlah atau tanda yang dengannya kita dapat membaginya menjadi kelompok-kelompok, maka kita melakukan hal berikut: membaginya menjadi kelompok-kelompok K, di mana K adalah jumlah jumlah unik yang sama dengan jumlah kelompok yang kita miliki. Dalam kasus sistem operasi - tiga, dengan negara - jumlah negara, dll.

Selanjutnya, probabilitas jatuh ke masing-masing kelompok sama dengan jumlah semua pengamatan dalam penyebut dan jumlah pengamatan di setiap kelompok dalam pembilang. Artinya, kami dapat memperkirakan perkiraan bobot di muka, dan jika ada jumlah total pengguna, begitu banyak pengguna berasal dari Mac, begitu banyak dari Windows, begitu banyak dari Linux, kami dapat segera menghitung bobot dan probabilitas bahwa pengguna baru akan berasal dari sistem operasi ini.

Maka rata-rata stratifikasi metrik kami akan diwakili oleh rumus yang sangat sederhana. Ini adalah nilai metrik dalam strata, dikalikan dengan bobot strata, sehingga kami menjumlahkan semua strata. Rumusnya cukup jelas, saya pikir itu tidak perlu dianalisis secara khusus.



Selanjutnya bisa sedikit lebih rumit. Kami akan menghabiskan beberapa menit untuk menguraikan formula ini, tetapi jika Anda tiba-tiba tidak mengerti sesuatu - jangan khawatir, saya menghabiskan tiga jam sekaligus untuk menguraikannya.

Apa yang kita lihat di sini? Nilai rata-rata metrik bertingkat tidak berbeda dari nilai rata-rata untuk pengambilan sampel acak. Tidak sulit untuk membuktikan ini, itu hanya saldo tertimbang, yang pada akhirnya sama dengan bobot di seluruh grup.

Tetapi variansnya sedikit lebih menarik. Sebenarnya, kita juga tahu formula yang sangat sederhana bahwa jumlah varian, varian dua kuantitas, adalah jumlah varian mereka, ditambah kovariat, jika mereka tidak independen, dengan beberapa jenis koefisien. Dan jumlah varian ini sendiri juga dengan koefisien.

Sebenarnya, jika Anda memperhatikan, di sinilah koefisien ini disajikan, ini adalah kemungkinan masuk ke strata. Dengan demikian, varian dari seluruh stratifikasi adalah varian di setiap strata dengan beberapa bobot. Dan berat adalah probabilitas untuk masuk ke dalam strata ini.

Sejauh ini, semuanya tampak cukup masuk akal. Dan pada akhirnya, perbedaan seluruh stratifikasi akan sama dengan rumus ini. Tidak masalah jika Anda tidak mengerti mengapa sekarang. Hal utama yang harus diingat.



Sekarang mari kita bicara tentang rata-rata dan varians untuk pengambilan sampel acak. SRS adalah pengambilan sampel acak sederhana, yaitu pengambilan sampel acak.

Seperti yang Anda tebak, nilai rata-rata dari pengambilan sampel acak sama dengan rata-rata. Di sini, terutama, saya pikir, tidak perlu masuk jauh ke dalam sesuatu. Tetapi varians pengambilan sampel acak, jika Anda melihat formula klasik, sangat jelas. Ini adalah σ 2 kali satu dibagi dengan n. Jika kita mengingat formula kesalahan standar, maka ini adalah σ dibagi dengan akar n. Ini adalah varian dari mean.

Tapi saya ingin memecahnya menjadi komponen-komponennya.



Jadi, jika kita memecahnya menjadi komponen-komponennya, melihat serangkaian sederhana dari perhitungan berikut, kita akan melihat (Anda harus percaya padaku, kami tidak akan melalui semua baris ini, tetapi di sini mereka tidak terlalu rumit) yang terdiri dari dua anggota.



Ingat yang ini. Ini adalah varian dalam hal stratifikasi, percayalah.



Jika kita memperhatikan apa varians dari pengambilan sampel acak terdiri, maka terdiri dari dua anggota: yang pertama, yang sama dengan varians yang bertingkat, dan yang kedua.

Apa intinya? Jika Anda berpikir secara singkat, maka varians dari pengambilan sampel acak dapat direpresentasikan sebagai jumlah varians dalam kelompok bertingkat, dan antara kelompok bertingkat. Ada n grup, ada dispersi di dalam grup, b adalah dispersi di antara grup. Jika seseorang ingat, itu kira-kira sama dengan analisis. Ada dispersi di dalam grup dan dispersi di antara grup. Masuk akal.

Ternyata dispersi random sampling dalam kasus terbaik dapat sama dengan varians bertingkat, atau lebih. Mengapa? Karena jika istilah ini sama dengan nol (dan tidak boleh kurang dari nol karena fakta bahwa ada kuadrat dan probabilitas tidak boleh negatif), maka jelas ada sesuatu yang lebih besar dari atau sama dengan nol. Ini sama dengan apa yang Anda lihat dalam stratifikasi. Ternyata kami menang, mengurangi varians, setidaknya untuk anggota ini.



Ini sama dengan apa yang saya katakan sekarang, jadi mari kita lewati. Tetapi Anda mungkin akan memiliki minat untuk mengetahui apa yang saya bicarakan. Ngomong-ngomong, di bagian bawah setiap slide adalah nama artikel dari mana formula ini diambil. Tiga artikel berpartisipasi dalam presentasi ini, maka Anda dapat membaca * .

Kami membaca beberapa artikel, membicarakan sesuatu, tetapi ini tidak terlalu menarik. Sangat menarik untuk melihat bagaimana sesuatu bekerja dalam kehidupan nyata. Tentang ini - slide berikutnya.



Saya mengambil data, mulai menonton cara kerjanya di kehidupan nyata. Dalam kehidupan nyata, varians saya telah turun sebanyak satu persen.

Ada kecurigaan bahwa pertumbuhannya sangat kecil hanya karena kami memiliki banyak data dan umumnya bukan penyebaran yang sangat besar di antara strata. Mereka sudah dihaluskan, dan cukup representatif. Tetapi tampaknya jika data tidak cukup, atau ada beberapa jenis pelanggaran dalam sampel, atau tidak sepenuhnya acak (yang, kebetulan, sangat sering terjadi), maka peningkatannya mungkin lebih besar.

Dan metode ini sangat mudah diterapkan. Perhatikan, tidak ada yang rumit. Artinya, Anda sampel dari setiap strata sejumlah yang sebanding dengan kemungkinan masuk ke strata ini pada seluruh sampel. Semuanya cukup masuk akal.

Mari kita beralih ke bagian kedua. Cuped. Saya tidak tahu persis bagaimana cara mengucapkannya dengan benar, pada kenyataannya ini adalah kovariat, kami menggunakan data eksperimental.



Intinya juga sangat sederhana. Kami mengambil variabel acak X independen dari Y dalam arti bahwa tidak ada efek eksperimental pada variabel X.

Bagaimana cara mencapai ini? Cara termudah adalah dengan mengambil variabel X, yang diperoleh sebelum dimulainya percobaan. Maka kita dapat yakin bahwa percobaan itu tidak mempengaruhinya.

Lebih jauh. Kami dapat memperkenalkan metrik baru yang ingin kami hitung sebagai perbedaan antara Y dan θX. Ini disajikan dalam rumus: metrik baru, sebut saja Ycuped, adalah metrik yang diinginkan minus θ kali X.

Inilah yang telah kita bicarakan. Rumus sederhana yang memungkinkan kita menghitung varians perbedaan antara dua kuantitas. Ini adalah varian dari besarnya pertama. Karena memiliki koefisien persatuan, 1 2 , kami menghapusnya. Ditambah koefisien kuantitas kedua θ2, varians X. Tetapi karena ini adalah pengurangan, maka minus 2θ, kovarians antara Y dan X.

Jika ini adalah kuantitas independen, berapakah nilainya? Nol. Kovarians antara jumlah bebas adalah nol. Tampaknya jika kita mengambil nilai independen, maka itu pasti tidak akan menjadi lebih baik dengan kita.



Maka kita perlu mengambil sejumlah ketergantungan, dan kami memiliki satu hiperparameter lebih, sebut saja θ. Kapan kita bisa meminimalkan varians? Ketika θ sama dengan kovarians antara Y dan X dibagi dengan varians X. Sekarang



saya tidak akan memeriksa secara terperinci mengapa demikian, tetapi jika Anda melihat persamaan sederhana ini, Anda juga dapat menyimpulkannya.



Jika kita melakukan ini, kita akan mendapatkan transformasi sederhana yang sangat nyaman, dan varians yang dihasilkan akan direpresentasikan sebagai varians Y, dikalikan dengan satu minus korelasi kuadrat antara metrik Y dan metrik X. Tampaknya bagus.

Mengapa ini bekerja? Kami membuat beberapa asumsi bahwa kami memiliki varian metrik Y kami karena dua faktor atau dua alasan. Ini karena beberapa kovariat X dan yang lainnya. Kita bisa melakukan itu, bukan? Dan kami katakan: teman-teman, apa yang kami miliki karena X, kami hapus, kami hanya meninggalkan itu karena semua alasan lain.



Dari grafik pada slide berikutnya akan jelas mengapa ini berhasil. Adakah pemikiran mengapa ini berhasil? Selain formula yang saya tulis, sebelum itu, ada juga formula. Ternyata itu tidak berhasil. Pada akhirnya, kami belum melihat hasil akhirnya, ternyata juga tidak berhasil.

Apa yang paling menarik bagi kita saat melakukan tes A / B? Perbedaannya rata-rata. Dalam sebagian besar kasus, kami tidak melihat kuantil apa pun. Meskipun, omong-omong, Uber sangat suka melihat kuartil, dan kadang-kadang sangat penting untuk melihatnya, rata-rata dapat tetap tidak berubah, kuantil dapat berubah secara dramatis, dan pengguna yang telah meningkatkan beberapa jenis 99 persen akan jatuh. Uber memiliki waktu tunggu ini. Ini catatan nyonya rumah.

Tetapi kita sering tertarik pada perbedaan cara. Dan kami ingin menggunakan metode yang tidak mengubah perbedaan cara ini. Karena jika kita berbicara tentang linierisasi, maka kita pindah ke ruang atribut baru. Ya, semuanya keren. Kami dapat menghitung beberapa tes A / B 64 kali lebih cepat. Ya, itu proporsional, tetapi kita tidak bisa mengatakan seberapa besar perbedaan dalam cara ini benar-benar seperti itu.

Untuk menghitung perbedaan cara dan menarik kesimpulan tentang semuanya, Anda harus memiliki θ, yang seragam untuk semua kelompok. Grup adalah A1, A2, B, C, dan sebagainya. Ini adalah sel uji atau variasi tes A / B Anda.

Bagaimana cara memilih metrik X? Pilihan logis untuk metrik X adalah metrik Y yang sama, tetapi pada periode sebelum periode percobaan. Misalnya, jika ini adalah durasi sesi rata-rata Anda untuk pengguna, maka Anda dapat menghitung durasi rata-rata sesi pengguna sebelum percobaan untuk beberapa periode, selama percobaan, kurangi satu dari yang lain dan hanya melihat penyimpangan di antara mereka. Mungkin lebih menarik bagi Anda.

Di sini, omong-omong, muncul pertanyaan menarik - selama periode berapa kita harus menggunakan metrik X? Dalam satu hari, dalam seminggu, dalam dua minggu? Tidak ada jawaban teoretis, tetapi jawaban praktis menunjukkan bahwa dua minggu adalah plus atau minus yang optimal. Pada prinsipnya, adalah mungkin untuk mengambil dan memplot data eksperimental pada seberapa banyak dispersi berkurang dan seberapa banyak pengujian kita bertemu tergantung pada berapa lama kita mengambil X.



Mengapa itu bekerja? Lihat, ini adalah grafik yang sangat sederhana, gambar yang sangat sederhana. Ini menyajikan nilai X dan Y, nilai metrik kami untuk pengguna pada periode sebelum percobaan dan sesudahnya.

Apa yang kita lakukan? Kami memilih θ. Kita juga dapat memilihnya menggunakan metode kuadrat terkecil. Artinya, ini adalah garis tengah tertentu, yang memberikan jumlah saldo minimum. Sisanya adalah perbedaan antara apa yang ada dan apa yang ada di telepon.

Dengan demikian, kami mencoba untuk rata-rata dan masih mendapatkan nilai rata-rata metrik. Nilai rata-rata metrik tidak berubah. Tampak bagi saya bahwa saya sendiri tidak sepenuhnya mengerti apa yang saya katakan sekarang, dan Anda mungkin harus menjadi lebih keras karena saya sudah melihat ini. Mari coba lagi. Kami memiliki sumbu X dan sumbu Y. Kami dapat menandai nilai yang sebelum percobaan pada sumbu X, dan nilai yang sesuai selama percobaan pada sumbu Y. Artinya, kami mendapatkan titik tertentu dalam koordinat XY. Kita bisa menandainya di grafik.

Jika tidak ada perubahan yang terjadi, maka poin-poin ini akan bertepatan dengan kami. Ini akan menjadi uskup kita. Karena X sama dengan Y. Tapi sebenarnya ini tidak akan terjadi, setuju? Dalam beberapa kasus, nilai metrik Y akan lebih besar, dalam beberapa kasus kurang.

Kami ingin memahami dan mendapatkan perbedaan ini secara tepat. Karena segala sesuatu yang lain tidak begitu menarik bagi kita. Misalnya, jika kami tidak memiliki perbedaan, kami melakukan percobaan dan X sama dengan Y - yang berarti bahwa percobaan kami kemungkinan besar tidak mempengaruhi. Jika kami melakukan percobaan kami dan melihat bahwa Y cukup stabil di atas X ini di mana-mana, ini adalah kesempatan untuk berpikir bahwa kami mungkin telah memengaruhi sesuatu. Jika kita memiliki Y stabil di bawah X, juga tidak terlalu baik. Kemungkinan besar, kami memiliki efek negatif.

Ternyata kami mencoba menggambar garis tertentu yang menggambarkan hubungan antara X dan Y, meminimalkan perbedaan ini. Regresi linier juga dilakukan. Setuju bahwa ada regresi linier, Anda, pertimbangkan, satu variabel independen dan satu variabel dependen. Anda ingin menggambarkan seakurat mungkin.

Ini adalah baris kami, ini adalah metrik cuped baru kami, dan inilah mengapa nilai rata-rata cuped tidak berubah. Nilai Ycuped tidak akan berubah dari nilai Y rata-rata. Mengapa? Karena. Itu perlu untuk segera menjelaskan hal ini. :) Ngomong-ngomong, artikel aslinya mengatakan: perhatikan bahwa ada hubungan yang sangat menarik antara pencarian θ dan regresi. Ini dia.

Saya ulangi, kami tertarik untuk melihat bagaimana eksperimen itu sendiri mempengaruhi perilaku pengguna, seberapa banyak itu berubah relatif terhadap yang dasar. Misalkan itu selalu dilakukan dan ada dua pengguna: satu selalu memiliki sesi sepuluh menit, dan yang lainnya 100 menit. Ada beberapa perubahan, dan pengguna pertama masih menghabiskan 100 menit, dan yang kedua memiliki 12 menit. Perbedaan dalam satu kasus adalah nol, yang lain - dua. Tetapi hanya membandingkan angka 12 dan 100 di antara mereka sendiri mungkin tidak masuk akal. Kami ingin yang lain. Kami menyebutnya "normalisasi." Ini, tentu saja, tidak benar, tetapi tetap saja.

Sekarang mari kita beralih ke eksperimen.



Apa yang kita lihat Ini adalah tangkapan layar dari laptop Jupyter yang sangat tidak saya sukai (saya lebih suka PyCharm), tetapi saya tetap melakukannya. Varian dari metrik cuped dan varian dari metrik standar sudah disajikan di sini. Lihat seberapa besar perbedaannya? Ycuped jauh lebih kecil, dan rata-rata tidak berbeda.

Lebih tepatnya, mereka tidak berbeda. Di suatu tempat di 15 desimal, mereka mungkin berbeda, tetapi kami akan menganggap bahwa ini adalah kesalahan yang terkait dengan pembulatan.

Apa yang kita lihat di sini? Dispersi turun 45%. Ini adalah data dari online. Apa yang kami amati dalam X5 adalah bahwa varians turun empat kali. Di X5, kami memiliki semacam perilaku di dalam toko, itu bisa menjadi rata-rata untuk hari dalam seminggu, untuk jam, untuk jam dan hari dalam seminggu. Lihat, kita dapat mengambil kovariat yang lebih banyak berkorelasi. Tampaknya jumlah orang bersyarat yang datang pada hari Senin harus berkorelasi dengan jumlah orang yang datang pada hari Senin berikutnya. Jika kita melihat sedikit lebih dalam, maka Senin, pukul enam sore, harus berkorelasi lebih kuat dengan Senin, pukul enam sore. Dan hari Minggu, tiga sore, dengan hari Minggu yang lain, tiga sore.

Penurunan varian maksimum yang saya lihat dalam kehidupan nyata adalah 19 kali. Apa plusnya? Untuk melakukannya juga sangat sederhana, Anda harus mengakui bahwa Anda tidak perlu berpikir sama sekali. Ditemukan kovariat, ditemukan θ. θ, omong-omong, ditemukan sesuai dengan formula yang sangat sederhana, semuanya telah dilakukan.



Mengambil, dikurangi, mendapat metrik yang dikonversi. Rata-rata nya tidak berubah, ini sangat bagus. Jelaskan pada bisnis dalam bahasa normal, mengapa ini terjadi, adalah mungkin. Anda mengatakan bahwa kami tertarik tidak hanya pada bagaimana pengguna berperilaku rata-rata, tetapi bagaimana perilaku mereka telah berubah dari rata-rata. Dan itu dia.

Dalam beberapa kasus, mungkin ada kesulitan dalam memilih kovariat yang tepat, tetapi seringkali ini bukan masalah. Itu selalu mungkin (sangat jarang, jika tidak mungkin) untuk mengambil nilai untuk periode percobaan sebelumnya. Berhasil. Pengurangan varians 19 kali lipat berarti bahwa jumlah data yang diperlukan untuk uji A / B juga berkurang 19 kali lipat. Artinya, Anda bisa mendapatkan hasil lebih cepat, dan ini meningkatkan sensitivitas tes.

Jika Anda sudah memiliki sejumlah tes A / B, maka Anda dapat menjalankan cuped ini dengan cara retrospektif yang sama dan menghitung kesalahan dari jenis pertama dan kedua. Anda dapat menghitung kesalahan jenis pertama jika Anda melakukan tes AA. Pada cuped Anda akan menghabiskannya dengan cara yang sama - dan dengan cara yang sama Anda akan dapat mengevaluasi seberapa banyak sensitivitas Anda meningkat.


* :
Improving the Sensitivity of Online Controlled Experiments by Utilizing Pre-Experiment Data
Improving the Sensitivity of Online Controlled Experiments: Case Studies at Netflix
How Booking.com increases the power of online experiments with CUPED

All Articles