Data dari semua negara, jangan disatukan

Adalah baik ketika, selain rasi bintang baru, ada sesuatu yang mirip dengan ketergantungan pada diagram. Dalam hal ini, kami membangun model yang menjelaskan dengan baik hubungan antara dua variabel. Tetapi peneliti harus memahami tidak hanya bagaimana bekerja dengan data, tetapi juga apa jenis sejarah dari dunia nyata yang ada di belakang mereka. Kalau tidak, mudah membuat kesalahan. Saya akan memberi tahu Anda tentang paradoks Simpson - salah satu contoh data tipuan paling berbahaya yang dapat membalikkan koneksi.

Mari kita lihat dua variabel kondisional X dan Y. Setelah membangun diagram, kita akan melihat awan yang jelas membentang dari kiri bawah ke kanan atas, seperti pada gambar di atas. Regresi linier sangat cocok dengan gambaran seperti itu, yang, dengan kesalahan yang relatif rendah, akan membantu kita memprediksi nilai-nilai: semakin besar X, semakin besar Y. Tugas selesai. Pada pandangan pertama.

Rekan yang lebih berpengalaman akan merekomendasikan agar kami menambahkan diagram sebagai pengelompokan berdasarkan kohort: misalnya, berdasarkan negara. Mengikuti sarannya, kita akan melihat bahwa memang ada koneksi, tetapi secara diametris berlawanan - dalam satu negara, semakin banyak X, semakin sedikit Y.

Ini adalah paradoks Simpson: sebuah fenomena di mana kombinasi beberapa kelompok data dengan ketergantungan arah yang sama mengarah ke arah sebaliknya.

Contoh 1: Diskriminasi Seksual di Berkeley


Contoh paling terkenal dari paradoks Simpson di dunia nyata adalah kebingungan dengan diskriminasi gender ketika mendaftar di University of Berkeley pada tahun 1973. Di antara para peneliti ada kisah bahwa universitas itu bahkan diadili, tetapi tidak ada bukti yang meyakinkan tentang percobaan di Internet.

Begini tampilan statistik penerimaan universitas untuk tahun 1973:
LantaiAplikasiDiterima
Laki-laki84423738 (44%)
Wanita43211494 (35%)
Perbedaannya signifikan. Terlalu besar untuk menjadi acak.

Namun, jika kami memecah data berdasarkan fakultas, gambar berubah. Peneliti menemukan bahwa alasan perbedaannya adalah bahwa wanita melamar tujuan dengan kompetisi yang lebih ketat. Selain itu, ditemukan bahwa 6 dari 85 fakultas memiliki diskriminasi dalam mendukung perempuan, dan hanya 4 yang menentang.

Perbedaan muncul semata-mata karena perbedaan dalam ukuran sampel dan ukuran kompetisi antara fakultas. Saya akan menunjukkan kepada Anda contoh dari dua fakultas.
FakultasLantaiAplikasiDiterima
SEBUAHLaki-laki400200 (50%)
SEBUAHWanita200100 (50%)
BLaki-laki15050 (33%)
BWanita450150 (33%)
TotalLaki-laki550250 (45%)
TotalWanita650250 (38%)
Kedua fakultas menerima bagian yang sama dari wanita dan pria. Namun, karena jumlah absolut pria lebih besar di fakultas dengan persentase penerimaan yang lebih tinggi, jika kita menggabungkan data, ternyata secara umum persentase pria lebih tinggi.

Contoh 2: percobaan A / B yang tidak seimbang


Bayangkan Anda sedang melakukan percobaan A / B untuk meningkatkan konversi halaman arahan Anda. Percobaan dilakukan selama dua hari, tetapi pada hari pertama distributor pengunjung mogok, dan opsi B menerima lebih banyak pengunjung. Pada hari kedua, masalah ini diperbaiki. Hasilnya adalah angka-angka berikut:
SEBUAHB
PengunjungKonversiPengunjungKonversi
Hari 140030 (7,5%)2000140 (7%)
Hari ke-2100060 (6,0%)100055 (5,5%)
Total140090 (6,4%)3000195 (6,5%)
Pada setiap hari, opsi A memiliki tingkat konversi yang lebih tinggi, tetapi opsi B menang secara total. Ini terjadi karena pada hari dengan konversi yang lebih tinggi, opsi B memiliki lebih banyak lalu lintas. Dalam contoh ini, seorang peneliti yang tidak berpengalaman akan meluncurkan opsi B untuk semua lalu lintas, sementara pada kenyataannya konversi akan meningkat jika ia menggunakan opsi A.

Contoh 3: dampak kunjungan halaman pada konversi


Setiap situs memiliki halaman yang memotivasi Anda untuk membeli lebih banyak daripada yang lain. Misalkan kita membuat sistem penilaian pengunjung dan memilih faktor untuk itu. Kami memiliki halaman "Tentang Produk", dan kami menganggap bahwa mengunjunginya meningkatkan kemungkinan konversi. Mari kita lihat datanya.
Halaman yang dikunjungi
KonversiTidakIya
Tidak40004800
Iya400320
Tingkat konversi9%6%
Pada pandangan pertama, semuanya jelas - konversi untuk mereka yang mengunjungi halaman kurang sebanyak 3 pp, yang berarti bahwa halaman mengurangi kemungkinan konversi. Tetapi jika kita memecah data menjadi dua kohort paling penting dalam pemasaran Internet - pengguna desktop dan seluler, kita akan melihat bahwa pada kenyataannya masing-masing dari mereka kemungkinan konversi meningkat dengan kunjungan halaman.
MobileDesktop
Halaman yang dikunjungiHalaman yang dikunjungi
KonversiTidakIyaTidakIya
Tidak160042002400600
Iya40180360140
Tingkat konversi2%4%tigabelas%sembilan belas%
Kami berasumsi bahwa mengunjungi halaman memengaruhi konversi. Dalam praktiknya, variabel ketiga campur tangan - platform pengguna. Karena fakta bahwa itu tidak hanya memengaruhi konversi, tetapi juga kemungkinan mengunjungi laman, dalam keadaan teragregasi, itu mendistorsi data sedemikian rupa sehingga membawa kami pada kesimpulan yang berlawanan dengan perilaku pengguna yang sebenarnya.

Apa yang harus dilakukan


Dalam analisis data, Anda perlu memahami jenis sejarah apa yang ada di belakangnya: apa yang terjadi di dunia nyata, bagaimana itu diukur dan dikonversi menjadi tipe data. Oleh karena itu, seorang peneliti data di departemen pemasaran perlu mengetahui dasar-dasar pemasaran, dan dalam industri minyak dan gas - sesuatu tentang pertambangan. Ini akan membantu untuk menghindari sejumlah besar kesalahan potensial, tidak sedikit di antaranya adalah kesalahan agregasi yang disebabkan oleh paradoks Simpson.

Karakteristik data berikut biasanya menghasilkan paradoks Simpson:

  1. Kehadiran kohort signifikan yang dapat mempengaruhi nilai-nilai variabel dependen (Y) dan independen (X);
  2. Kohort yang tidak seimbang.

Dalam setiap kasus, diperlukan pendekatan individual. Mempertimbangkan bahwa semua data harus selalu dibagi menjadi kohort juga merupakan pendekatan yang salah, karena seringkali itu adalah data agregat yang memungkinkan Anda untuk membangun model yang paling akurat. Selain itu, data apa pun dapat dibagi untuk memperoleh hubungan yang ingin kami terima. Benar, ini tidak akan memiliki aplikasi praktis - kohort harus dibenarkan.

Untuk pemasaran Internet, salah satu kesimpulan paling penting adalah kebutuhan untuk memverifikasi operasi splitter yang benar dalam percobaan A / B. Kelompok pengguna dalam setiap uji harus kira-kira sama. Ini bukan hanya tentang jumlah total pengguna, tetapi juga tentang struktur mereka. Jika Anda mencurigai adanya masalah, Anda harus terlebih dahulu memeriksa kohort untuk karakteristik berikut:

  1. Karakteristik demografis;
  2. Distribusi geografis;
  3. Sumber lalu lintas;
  4. Jenis perangkat;
  5. Waktu berkunjung.

Pada artikel selanjutnya saya akan memberi tahu Anda cara mendeteksi dan memproses paradoks Simpson saat menganalisis data dengan Python.

Artikel asli menggambarkan kasus Berkeley: PJ Bickel, EA Hammel dan JW O'Connell (1975) "Bias Seks dalam Penerimaan Lulusan: Data Dari Berkeley"

All Articles